การโอนกรรมสิทธิ์
สรุปสาระสำคัญ. เมื่อวิธีการแปลบรรลุระดับ Deployable (composite ≥ 0.70) และผ่านการตรวจสอบโดยชุมชนแล้ว กรรมสิทธิ์ในโค้ดจะโอนจากนักวิจัยไปยังองค์กรกำกับดูแลของชนพื้นเมือง หน้านี้อธิบายขั้นตอนการโอนทั้งห้าขั้น การสอดคล้องกับหลักการ OCAP® และแนวทางสำหรับนักวิจัยที่พัฒนาวิธีการสำหรับภาษาของชนพื้นเมือง
เมื่อวิธีการแปลชนะบนลีดเดอร์บอร์ดของ Arena สิ่งที่จะเกิดขึ้นกับโค้ดคืออะไร? สำหรับภาษาของชนพื้นเมืองและภาษาที่มีทรัพยากรน้อย คำตอบไม่ใช่ "นักวิจัยเก็บไว้" แต่คือ: ชุมชนเป็นเจ้าของ
วิธีการทำงาน
Arena บังคับใช้ขั้นตอนที่ชัดเจนตั้งแต่การวิจัยจนถึงการเป็นเจ้าของโดยชุมชน:
1. การพัฒนาวิธีการ
นักวิจัย นักศึกษา หรือนักพัฒนาสร้างวิธีการแปล ไม่ว่าจะเป็น FST-gated pipeline, coached LLM, โมเดลที่ผ่านการ fine-tune หรือแนวทางอื่นใด โดยพัฒนาด้วยทรัพยากรของตนเอง
2. การประเมินใน Arena
วิธีการถูกทดสอบเปรียบเทียบผ่าน eval harness การส่งผลงานทุกครั้งจะถูกบันทึกลายนิ้วมือเชื่อมโยงกับ Git commit และเวอร์ชันชุดข้อมูลที่เฉพาะเจาะจง คะแนนสามารถทำซ้ำได้
3. การตรวจสอบโดยชุมชน
สำหรับวิธีการที่ใช้กับภาษาของชนพื้นเมือง ผลลัพธ์จะได้รับการตรวจสอบโดยนักปฏิบัติงานด้านภาษาของชุมชนและองค์กรกำกับดูแล คะแนนสูงบนลีดเดอร์บอร์ดพิสูจน์ว่าวิธีการ ใช้งานได้ แต่ไม่ได้พิสูจน์ว่า เหมาะสม
4. การโอนโค้ด
เมื่อวิธีการบรรลุระดับ Deployable (composite score ≥ 0.70 เทียบกับการประเมินมาตรฐานทอง) และ ผ่านการตรวจสอบโดยชุมชน (การตรวจสอบโดยมนุษย์):
- นักวิจัยส่งมอบซอร์สโค้ด
- กรรมสิทธิ์ทางกฎหมายโอนไปยังองค์กรกำกับดูแลของชนพื้นเมือง (เช่น สภาชนเผ่า หน่วยงานด้านภาษา หรือองค์กร Métis)
- องค์กรกำกับดูแลถือครองคีย์เข้ารหัสสำหรับชุดข้อมูลการประเมิน
- วิธีการกลายเป็นทรัพย์สินที่ควบคุมโดยชุมชน
ดู Scoring Specification §5 สำหรับคำนิยามระดับคุณภาพ และ Benchmark Specification §8.3 สำหรับเงื่อนไขการโอนฉบับสมบูรณ์ และ §7 สำหรับเกณฑ์การตรวจสอบโดยมนุษย์
5. การนำไปใช้งานจริง
วิธีการถูกส่งออกเป็นปลั๊กอิน champollion และนำไปใช้งานบน production API ชุมชนควบคุม:
- ผู้ที่สามารถเข้าถึงวิธีการได้
- เงื่อนไขการกำหนดราคาที่ใช้บังคับ
- ว่าวิธีการสามารถนำไปใช้เชิงพาณิชย์ได้หรือไม่
- เวลาและวิธีการอัปเดตวิธีการ
เหตุใดสิ่งนี้จึงสำคัญ
การวิจัย ML แบบดั้งเดิมดำเนินตามรูปแบบการสกัดทรัพยากร:
- นักวิจัยรวบรวมข้อมูลจากชุมชน
- นักวิจัยฝึกโมเดล
- นักวิจัยตีพิมพ์บทความ
- ชุมชนไม่ได้รับอะไรเลย
รูปแบบนี้ดำเนินการในระดับอุตสาหกรรมในปัจจุบัน Meta's OMT-1600 (มีนาคม 2026) ฝึกโมเดลการแปลสำหรับ 1,600 ภาษา รวมถึงภาษาของชนพื้นเมืองอย่าง Plains Cree โดยใช้ข้อมูลที่ดึงมาจากเว็บและการแปลพระคัมภีร์ โมเดลเหล่านี้ถูกฝึกโดยไม่มีโปรโตคอลการยินยอมจากชุมชน น้ำหนักโมเดลไม่สามารถดาวน์โหลดได้ในปัจจุบัน และชุมชนที่ภาษาของพวกเขาถูกนำมาสร้างโมเดลไม่มีส่วนได้เสียในกรรมสิทธิ์ ไม่มีบทบาทในการกำกับดูแล และไม่มีรายได้ บทความคือผลิตภัณฑ์ ชุมชนคือแหล่งข้อมูล
Arena พลิกกลับสิ่งนี้:
- นักวิจัยสร้างวิธีการ
- Arena ตรวจสอบความถูกต้องเทียบกับคลังข้อมูลที่ดูแลโดยชุมชนด้วยเมตริกทางสัณฐานวิทยา
- ชุมชนได้รับกรรมสิทธิ์ในโค้ดที่ใช้งานได้
- ชุมชนได้รับรายได้จากการใช้งาน API
นี่คือความแตกต่างพื้นฐานระหว่าง Champollion กับความพยายาม LRL MT อื่นๆ ทุกรายการ รวมถึง OMT-1600: เราไม่เพียงแต่ผลิตวิธีการสำหรับชุมชน แต่เราโอนกรรมสิทธิ์ของวิธีการ ไปยัง ชุมชน โค้ด น้ำหนักโมเดล โครงสร้างพื้นฐานการนำไปใช้งาน ทั้งหมดกลายเป็นทรัพย์สินของชุมชน นี่ไม่ใช่กรอบทฤษฎี แต่เป็นขั้นตอนการดำเนินงานสำหรับวิธีการภาษาของชนพื้นเมืองทุกรายการบนแพลตฟอร์ม
การสอดคล้องกับ OCAP®
กระบวนการโอนกรรมสิทธิ์นำหลักการ OCAP® ไปปฏิบัติโดยตรง:
| หลักการ | การนำไปปฏิบัติ |
|---|---|
| Ownership | องค์กรกำกับดูแลถือกรรมสิทธิ์ในโค้ดวิธีการและน้ำหนักโมเดล |
| Control | องค์กรกำกับดูแลควบคุมเงื่อนไขการนำไปใช้งาน การเข้าถึง และการกำหนดราคา |
| Access | สมาชิกชุมชนเข้าถึงวิธีการผ่าน champollion API หรือการดาวน์โหลดโดยตรง |
| Possession | ทรัพยากรทางภาษา (ข้อมูล coaching, พจนานุกรม, กฎ FST) ยังคงอยู่บนโครงสร้างพื้นฐานที่ควบคุมโดยชุมชนผ่านวิธีการ api |
สำหรับนักวิจัย
หากคุณกำลังพัฒนาวิธีการสำหรับภาษาของชนพื้นเมือง:
- สร้างความสัมพันธ์ กับชุมชนภาษาก่อนที่คุณจะเริ่มต้น
- ใช้ข้อมูลที่มีสิทธิ์การใช้งานแบบเปิด สำหรับการพัฒนา (ไม่ใช่ทรัพยากรที่ถูกจำกัดโดยชุมชน)
- บันทึกที่มาของข้อมูล ใน run card ของคุณ — ระบุทรัพยากรทุกรายการ สิทธิ์การใช้งาน และแหล่งที่มา
- เตรียมพร้อมสำหรับการโอน — หากวิธีการของคุณประสบความสำเร็จ โค้ดเป็นของชุมชน ไม่ใช่ของคุณ
- นี่คือคุณสมบัติ ไม่ใช่ข้อจำกัด — การมีส่วนร่วมของคุณคือสถาปัตยกรรมและเทคนิค ซึ่งคุณสามารถตีพิมพ์และนำกลับมาใช้ใหม่ได้ การมีส่วนร่วมของชุมชนคือความรู้ทางภาษาที่ทำให้วิธีการนี้ใช้งานได้กับภาษาของพวกเขา
ดูเพิ่มเติม
- Data Sovereignty — หลักการ OCAP, CARE และ Te Mana Raraunga
- The Economic Model — วิธีที่กรรมสิทธิ์กลายเป็นรายได้
- Support a Low-Resource Language — บริบทการวิจัย