ข้ามไปยังเนื้อหาหลัก

การโอนกรรมสิทธิ์

สรุปสาระสำคัญ. เมื่อวิธีการแปลบรรลุระดับ Deployable (composite ≥ 0.70) และผ่านการตรวจสอบโดยชุมชนแล้ว กรรมสิทธิ์ในโค้ดจะโอนจากนักวิจัยไปยังองค์กรกำกับดูแลของชนพื้นเมือง หน้านี้อธิบายขั้นตอนการโอนทั้งห้าขั้น การสอดคล้องกับหลักการ OCAP® และแนวทางสำหรับนักวิจัยที่พัฒนาวิธีการสำหรับภาษาของชนพื้นเมือง

เมื่อวิธีการแปลชนะบนลีดเดอร์บอร์ดของ Arena สิ่งที่จะเกิดขึ้นกับโค้ดคืออะไร? สำหรับภาษาของชนพื้นเมืองและภาษาที่มีทรัพยากรน้อย คำตอบไม่ใช่ "นักวิจัยเก็บไว้" แต่คือ: ชุมชนเป็นเจ้าของ


วิธีการทำงาน

Arena บังคับใช้ขั้นตอนที่ชัดเจนตั้งแต่การวิจัยจนถึงการเป็นเจ้าของโดยชุมชน:

1. การพัฒนาวิธีการ

นักวิจัย นักศึกษา หรือนักพัฒนาสร้างวิธีการแปล ไม่ว่าจะเป็น FST-gated pipeline, coached LLM, โมเดลที่ผ่านการ fine-tune หรือแนวทางอื่นใด โดยพัฒนาด้วยทรัพยากรของตนเอง

2. การประเมินใน Arena

วิธีการถูกทดสอบเปรียบเทียบผ่าน eval harness การส่งผลงานทุกครั้งจะถูกบันทึกลายนิ้วมือเชื่อมโยงกับ Git commit และเวอร์ชันชุดข้อมูลที่เฉพาะเจาะจง คะแนนสามารถทำซ้ำได้

3. การตรวจสอบโดยชุมชน

สำหรับวิธีการที่ใช้กับภาษาของชนพื้นเมือง ผลลัพธ์จะได้รับการตรวจสอบโดยนักปฏิบัติงานด้านภาษาของชุมชนและองค์กรกำกับดูแล คะแนนสูงบนลีดเดอร์บอร์ดพิสูจน์ว่าวิธีการ ใช้งานได้ แต่ไม่ได้พิสูจน์ว่า เหมาะสม

4. การโอนโค้ด

เมื่อวิธีการบรรลุระดับ Deployable (composite score ≥ 0.70 เทียบกับการประเมินมาตรฐานทอง) และ ผ่านการตรวจสอบโดยชุมชน (การตรวจสอบโดยมนุษย์):

  • นักวิจัยส่งมอบซอร์สโค้ด
  • กรรมสิทธิ์ทางกฎหมายโอนไปยังองค์กรกำกับดูแลของชนพื้นเมือง (เช่น สภาชนเผ่า หน่วยงานด้านภาษา หรือองค์กร Métis)
  • องค์กรกำกับดูแลถือครองคีย์เข้ารหัสสำหรับชุดข้อมูลการประเมิน
  • วิธีการกลายเป็นทรัพย์สินที่ควบคุมโดยชุมชน

ดู Scoring Specification §5 สำหรับคำนิยามระดับคุณภาพ และ Benchmark Specification §8.3 สำหรับเงื่อนไขการโอนฉบับสมบูรณ์ และ §7 สำหรับเกณฑ์การตรวจสอบโดยมนุษย์

5. การนำไปใช้งานจริง

วิธีการถูกส่งออกเป็นปลั๊กอิน champollion และนำไปใช้งานบน production API ชุมชนควบคุม:

  • ผู้ที่สามารถเข้าถึงวิธีการได้
  • เงื่อนไขการกำหนดราคาที่ใช้บังคับ
  • ว่าวิธีการสามารถนำไปใช้เชิงพาณิชย์ได้หรือไม่
  • เวลาและวิธีการอัปเดตวิธีการ

เหตุใดสิ่งนี้จึงสำคัญ

การวิจัย ML แบบดั้งเดิมดำเนินตามรูปแบบการสกัดทรัพยากร:

  1. นักวิจัยรวบรวมข้อมูลจากชุมชน
  2. นักวิจัยฝึกโมเดล
  3. นักวิจัยตีพิมพ์บทความ
  4. ชุมชนไม่ได้รับอะไรเลย

รูปแบบนี้ดำเนินการในระดับอุตสาหกรรมในปัจจุบัน Meta's OMT-1600 (มีนาคม 2026) ฝึกโมเดลการแปลสำหรับ 1,600 ภาษา รวมถึงภาษาของชนพื้นเมืองอย่าง Plains Cree โดยใช้ข้อมูลที่ดึงมาจากเว็บและการแปลพระคัมภีร์ โมเดลเหล่านี้ถูกฝึกโดยไม่มีโปรโตคอลการยินยอมจากชุมชน น้ำหนักโมเดลไม่สามารถดาวน์โหลดได้ในปัจจุบัน และชุมชนที่ภาษาของพวกเขาถูกนำมาสร้างโมเดลไม่มีส่วนได้เสียในกรรมสิทธิ์ ไม่มีบทบาทในการกำกับดูแล และไม่มีรายได้ บทความคือผลิตภัณฑ์ ชุมชนคือแหล่งข้อมูล

Arena พลิกกลับสิ่งนี้:

  1. นักวิจัยสร้างวิธีการ
  2. Arena ตรวจสอบความถูกต้องเทียบกับคลังข้อมูลที่ดูแลโดยชุมชนด้วยเมตริกทางสัณฐานวิทยา
  3. ชุมชนได้รับกรรมสิทธิ์ในโค้ดที่ใช้งานได้
  4. ชุมชนได้รับรายได้จากการใช้งาน API

นี่คือความแตกต่างพื้นฐานระหว่าง Champollion กับความพยายาม LRL MT อื่นๆ ทุกรายการ รวมถึง OMT-1600: เราไม่เพียงแต่ผลิตวิธีการสำหรับชุมชน แต่เราโอนกรรมสิทธิ์ของวิธีการ ไปยัง ชุมชน โค้ด น้ำหนักโมเดล โครงสร้างพื้นฐานการนำไปใช้งาน ทั้งหมดกลายเป็นทรัพย์สินของชุมชน นี่ไม่ใช่กรอบทฤษฎี แต่เป็นขั้นตอนการดำเนินงานสำหรับวิธีการภาษาของชนพื้นเมืองทุกรายการบนแพลตฟอร์ม


การสอดคล้องกับ OCAP®

กระบวนการโอนกรรมสิทธิ์นำหลักการ OCAP® ไปปฏิบัติโดยตรง:

หลักการการนำไปปฏิบัติ
Ownershipองค์กรกำกับดูแลถือกรรมสิทธิ์ในโค้ดวิธีการและน้ำหนักโมเดล
Controlองค์กรกำกับดูแลควบคุมเงื่อนไขการนำไปใช้งาน การเข้าถึง และการกำหนดราคา
Accessสมาชิกชุมชนเข้าถึงวิธีการผ่าน champollion API หรือการดาวน์โหลดโดยตรง
Possessionทรัพยากรทางภาษา (ข้อมูล coaching, พจนานุกรม, กฎ FST) ยังคงอยู่บนโครงสร้างพื้นฐานที่ควบคุมโดยชุมชนผ่านวิธีการ api

สำหรับนักวิจัย

หากคุณกำลังพัฒนาวิธีการสำหรับภาษาของชนพื้นเมือง:

  1. สร้างความสัมพันธ์ กับชุมชนภาษาก่อนที่คุณจะเริ่มต้น
  2. ใช้ข้อมูลที่มีสิทธิ์การใช้งานแบบเปิด สำหรับการพัฒนา (ไม่ใช่ทรัพยากรที่ถูกจำกัดโดยชุมชน)
  3. บันทึกที่มาของข้อมูล ใน run card ของคุณ — ระบุทรัพยากรทุกรายการ สิทธิ์การใช้งาน และแหล่งที่มา
  4. เตรียมพร้อมสำหรับการโอน — หากวิธีการของคุณประสบความสำเร็จ โค้ดเป็นของชุมชน ไม่ใช่ของคุณ
  5. นี่คือคุณสมบัติ ไม่ใช่ข้อจำกัด — การมีส่วนร่วมของคุณคือสถาปัตยกรรมและเทคนิค ซึ่งคุณสามารถตีพิมพ์และนำกลับมาใช้ใหม่ได้ การมีส่วนร่วมของชุมชนคือความรู้ทางภาษาที่ทำให้วิธีการนี้ใช้งานได้กับภาษาของพวกเขา

ดูเพิ่มเติม