อธิปไตยข้อมูล
สรุปสำหรับผู้บริหาร หน้านี้อธิบายหลักการอธิปไตยข้อมูลของ OCAP®, CARE และ Te Mana Raraunga รวมถึงความหมายสำหรับนักพัฒนาที่สร้างวิธีการแปลสำหรับภาษาพื้นเมือง ครอบคลุมถึงเมื่อใดที่ต้องได้รับความยินยอมจากชุมชน วิธีที่สถาปัตยกรรมวิธีการ
apiของ champollion รองรับอธิปไตยข้อมูล และพันธะทางจริยธรรมของผู้ที่ทำงานกับข้อมูลภาษาพื้นเมือง
การแปลด้วยเครื่องสำหรับภาษาพื้นเมืองก่อให้เกิดคำถามที่ไม่มีในกรณีของภาษาฝรั่งเศสหรือภาษาญี่ปุ่น ใครเป็นเจ้าของข้อมูลฝึกสอน? ใครควบคุมวิธีที่โมเดลภาษาพูด? ใครตัดสินใจว่าการแปลดีพอที่จะเผยแพร่หรือไม่?
คำตอบคือชุมชนเสมอ
champollion ถูกสร้างขึ้นเพื่อรองรับสิ่งนี้ วิธีการ api เก็บทรัพยากรภาษาทั้งหมดไว้ฝั่งเซิร์ฟเวอร์ภายใต้การควบคุมของชุมชน ระบบปลั๊กอินแยกวิธีการออกจากเครื่องมือ แต่เครื่องมือไม่สามารถบังคับใช้จริยธรรมได้ — หน้านี้อธิบายหลักการที่คุณควรปฏิบัติตาม
หลักการ OCAP®
OCAP (Ownership, Control, Access, Possession) คือชุดหลักการที่พัฒนาโดย First Nations Information Governance Centre (FNIGC) ซึ่งกำหนดวิธีการเก็บรวบรวม ปกป้อง ใช้งาน และแบ่งปันข้อมูลของ First Nations
| หลักการ | ความหมายสำหรับการแปล |
|---|---|
| Ownership (ความเป็นเจ้าของ) | ชุมชนเป็นเจ้าของข้อมูลภาษาของตน ได้แก่ พจนานุกรม ไวยากรณ์ ข้อความคู่ขนาน ไฟล์การฝึกสอน และการแปลใดๆ ที่ผลิตจากข้อมูลเหล่านั้น |
| Control (การควบคุม) | ชุมชนควบคุมวิธีการใช้ข้อมูลภาษา ผู้ที่มีสิทธิ์เข้าถึง และวิธีการแปลที่ยอมรับได้ |
| Access (การเข้าถึง) | สมาชิกชุมชนมีสิทธิ์เข้าถึงและจัดการทรัพยากรภาษาของตนเองโดยไม่คำนึงว่าจัดเก็บไว้ที่ใด |
| Possession (การครอบครอง) | ข้อมูลจริง (ไฟล์การฝึกสอน พจนานุกรม น้ำหนักโมเดล) ต้องอยู่บนโครงสร้างพื้นฐานที่ชุมชนควบคุม ไม่ใช่บนคลาวด์ของบุคคลที่สาม |
ความหมายของ OCAP ในทางปฏิบัติ
- อย่าเผยแพร่การแปล ของภาษาพื้นเมืองโดยไม่ได้รับอนุญาตอย่างชัดเจนจากชุมชน
- อย่าฝึกสอนโมเดล บนข้อมูลภาษาที่ชุมชนจัดหาให้โดยไม่มีข้อตกลงการแบ่งปันข้อมูล
- อย่าขูดรีดข้อมูล ทรัพยากรภาษาชุมชนจากเว็บไซต์ โซเชียลมีเดีย หรือสื่อการศึกษา
- ใช้วิธีการ
apiเพื่อให้พรอมต์ ข้อมูลการฝึกสอน และพจนานุกรมอยู่บนเซิร์ฟเวอร์ที่ชุมชนควบคุม วิธีการapiของ champollion เป็น "ท่อส่งข้อมูลแบบเรียบง่าย" — ส่งคีย์ออกไปและรับการแปลกลับมา ทรัพย์สินทางปัญญาด้านภาษาทั้งหมดอยู่ฝั่งเซิร์ฟเวอร์ - บันทึกที่มาของข้อมูล — ฟิลด์
provenanceใน plugin manifest ควรระบุทรัพยากรทุกรายการที่ใช้ สัญญาอนุญาต และแหล่งที่มา
:::warning OCAP® เป็นเครื่องหมายการค้าจดทะเบียน OCAP® เป็นเครื่องหมายการค้าจดทะเบียนของ First Nations Information Governance Centre ใช้บังคับโดยเฉพาะกับ First Nations ในแคนาดา หลักการเหล่านี้มีความเกี่ยวข้องในวงกว้างกว่า แต่เครื่องหมายการค้าและอำนาจการกำกับดูแลเป็นของ FNIGC :::
หลักการ CARE
หลักการ CARE สำหรับการกำกับดูแลข้อมูลพื้นเมือง ได้รับการพัฒนาโดย Global Indigenous Data Alliance (GIDA) เพื่อเป็นส่วนเสริมของหลักการข้อมูล FAIR หลักการ FAIR ระบุว่าข้อมูลควรค้นหาได้ (Findable) เข้าถึงได้ (Accessible) ทำงานร่วมกันได้ (Interoperable) และนำกลับมาใช้ใหม่ได้ (Reusable) หลักการ CARE ระบุว่านั่นยังไม่เพียงพอ — การกำกับดูแลข้อมูลต้องให้ความสำคัญกับสิทธิของชนพื้นเมืองด้วย
| หลักการ | การประยุกต์ใช้ |
|---|---|
| Collective Benefit (ประโยชน์ส่วนรวม) | เครื่องมือแปลควรเป็นประโยชน์ต่อชุมชนภาษาเป็นอันดับแรก คะแนนบนลีดเดอร์บอร์ดเป็นเพียงวิธีการปรับปรุงวิธีการ ไม่ใช่การดึงมูลค่าเชิงพาณิชย์จากภาษาชุมชน |
| Authority to Control (อำนาจในการควบคุม) | ชุมชนมีอำนาจในการกำกับดูแลวิธีการเก็บรวบรวม ใช้งาน และแบ่งปันข้อมูลภาษาของตน คะแนนสูงบนลีดเดอร์บอร์ดไม่ได้ให้สิทธิ์ในการเผยแพร่การแปล |
| Responsibility (ความรับผิดชอบ) | นักวิจัยและนักพัฒนาที่ทำงานกับข้อมูลภาษาพื้นเมืองมีความรับผิดชอบในการสร้างความสัมพันธ์ ขอความยินยอม และแบ่งปันผลประโยชน์ |
| Ethics (จริยธรรม) | สิทธิและความเป็นอยู่ที่ดีของชนพื้นเมืองต้องเป็นข้อกังวลหลัก วิธีการแปลควรพัฒนา ร่วมกับ ชุมชน ไม่ใช่ เกี่ยวกับ ชุมชน |
Te Mana Raraunga — อธิปไตยข้อมูลของชาวเมารี
Te Mana Raraunga คือ เครือข่ายอธิปไตยข้อมูลเมารี ซึ่งยืนยันว่าข้อมูลเมารี รวมถึงข้อมูลภาษา คือ taonga (สมบัติ) ที่อยู่ภายใต้หลักการของสนธิสัญญา Waitangi และ tikanga Māori (กฎหมายจารีตประเพณีเมารี)
หลักการสำคัญ:
| หลักการ | ความหมาย |
|---|---|
| Rangatiratanga (อำนาจ) | ชาวเมารีมีสิทธิ์โดยธรรมชาติในการใช้อำนาจเหนือข้อมูลของตน รวมถึงข้อมูลภาษา |
| Whakapapa (ความสัมพันธ์) | ข้อมูลมีต้นกำเนิดและความเชื่อมโยง ข้อมูลภาษาแฝงไว้ด้วยความสัมพันธ์และความรู้ของผู้ที่สร้างมันขึ้นมา |
| Whanaungatanga (พันธะ) | ผู้ที่ถือครองหรือประมวลผลข้อมูลเมารีมีพันธะตอบแทนต่อชุมชนที่ข้อมูลนั้นมาจาก |
| Kotahitanga (ประโยชน์ส่วนรวม) | ข้อมูลเมารีควรถูกใช้เพื่อประโยชน์ส่วนรวมของชาวเมารี |
| Manaakitanga (การตอบแทน) | การใช้ข้อมูลเมารีควรเกี่ยวข้องกับการดูแล ความเคารพ และการตอบแทน |
| Kaitiakitanga (การพิทักษ์รักษา) | ผู้พิทักษ์ข้อมูลมีหน้าที่ปกป้องข้อมูลและรับรองว่าถูกใช้อย่างเหมาะสม |
หลักการเหล่านี้ใช้บังคับกับ te reo Māori (ภาษาเมารี) และงานเชิงคำนวณใดๆ ที่เกี่ยวข้องกับข้อมูลภาษาเมารี
ความหมายสำหรับผู้ใช้ champollion
สำหรับภาษาทั่วไป (ฝรั่งเศส ญี่ปุ่น สเปน...)
ใช้ champollion ตามปกติ ภาษาเหล่านี้มีคลังข้อมูลขนาดใหญ่ที่เปิดเผยต่อสาธารณะ API การแปลที่ได้รับการยอมรับ และไม่มีข้อกังวลด้านอธิปไตย แปล ซิงค์ และเผยแพร่ได้ตามต้องการ
สำหรับภาษาพื้นเมืองและภาษาที่มีทรัพยากรน้อย
สถานการณ์แตกต่างกันอย่างพื้นฐาน:
-
ขอความยินยอมก่อน ก่อนสร้างวิธีการแปลสำหรับภาษาพื้นเมือง ให้สร้างความสัมพันธ์กับชุมชน วิธีการที่สร้างขึ้นโดยไม่มีการมีส่วนร่วมของชุมชน ไม่ว่าจะน่าประทับใจทางเทคนิคเพียงใด ไม่ควรเผยแพร่หรือแจกจ่าย
-
ใช้วิธีการ
apiโฮสต์ไปป์ไลน์การแปลบนโครงสร้างพื้นฐานที่ชุมชนควบคุม วิธีการapiใน champollion ออกแบบมาเพื่อสิ่งนี้: ส่งคีย์และรับการแปลกลับมาโดยไม่เปิดเผยพรอมต์ พจนานุกรม หรือข้อมูลการฝึกสอนที่ทำให้วิธีการทำงานได้Community-controlled setup{"pairs": {"en:crk": {"method": "api","endpoint": "https://api.community-server.example/translate"}}} -
บันทึกทุกอย่าง ใช้ฟิลด์
provenanceใน plugin manifest ของคุณเพื่อระบุทรัพยากรทุกรายการ สัญญาอนุญาต และว่าได้รับการจัดหาด้วยความยินยอมของชุมชนหรือไม่ -
คะแนนไม่ใช่สัญญาอนุญาต คะแนนสูงบนลีดเดอร์บอร์ดพิสูจน์ว่าวิธีการทำงานได้ดีในเชิงเทคนิค แต่ไม่ได้ให้สิทธิ์ในการเผยแพร่การแปล แจกจ่ายปลั๊กอิน หรือนำวิธีการไปใช้เชิงพาณิชย์ ชุมชนเป็นผู้ตัดสินใจ
-
แบ่งปันวิธีการ ไม่ใช่ข้อมูล หากคุณพัฒนาเทคนิคที่ทำงานได้ดี (เช่น "FST-gated LLM with coached prompts") ให้แบ่งปัน สถาปัตยกรรม และ แนวทาง บนลีดเดอร์บอร์ด ชุมชนยังคงควบคุมข้อมูลภาษาที่ทำให้มันทำงานได้สำหรับภาษาเฉพาะของตน
วิธีการ api และอธิปไตย
วิธีการแปล api มีอยู่โดยเฉพาะเพื่อรองรับอธิปไตยข้อมูล นี่คือเหตุผล:
| ด้าน | วิธีการอื่นๆ | วิธีการ api |
|---|---|---|
| ที่อยู่ของพรอมต์ | ในไฟล์คอนฟิกของ champollion (มองเห็นได้โดยนักพัฒนาทุกคน) | บนเซิร์ฟเวอร์ของชุมชน (เป็นส่วนตัว) |
| ที่อยู่ของข้อมูลการฝึกสอน | ในไดเรกทอรี .champollion/coaching/ (คอมมิตไปยัง git) | บนเซิร์ฟเวอร์ของชุมชน (เป็นส่วนตัว) |
| ที่อยู่ของพจนานุกรม | ในไดเรกทอรีปลั๊กอิน (แจกจ่ายพร้อมปลั๊กอิน) | บนเซิร์ฟเวอร์ของชุมชน (เป็นส่วนตัว) |
| ผู้ควบคุมไปป์ไลน์ | ผู้ที่รัน champollion sync | ชุมชนที่ดำเนินการ API |
| สิ่งที่ champollion เห็น | ทุกอย่าง | คีย์เข้า การแปลออก |
วิธีการ api เป็นการเลือกสถาปัตยกรรมโดยเจตนา มันเป็น "ท่อส่งข้อมูลแบบเรียบง่าย" เพราะทรัพย์สินทางปัญญา — ความรู้ด้านภาษา กฎไวยากรณ์ ตัวอย่างการฝึกสอนที่คัดสรรมาอย่างดี — เป็นของชุมชน ไม่ใช่ของเครื่องมือ
ดู Serving a Method via API สำหรับรายละเอียดการนำไปใช้งาน
กรณีศึกษา: OMT-1600 และอธิปไตยข้อมูล
OMT-1600 ของ Meta (มีนาคม 2026) เป็นตัวอย่างที่เป็นรูปธรรมว่าเหตุใดอธิปไตยข้อมูลจึงมีความสำคัญสำหรับภาษาพื้นเมือง OMT-1600 ฝึกสอนโมเดลการแปลสำหรับ 1,600 ภาษาโดยใช้:
- CC-2000-Web: ข้อความภาษาเดียวที่ขูดรีดจากเว็บสำหรับ languoid กว่า 2,000 รายการ — เก็บรวบรวมโดยไม่ได้รับความยินยอมจากชุมชน
- การแปลพระคัมภีร์: ข้อความทางศาสนาที่ใช้เป็นข้อมูลฝึกสอนและประเมินผลแบบคู่ขนานสำหรับภาษาที่มีทรัพยากรน้อยที่สุด
- MeDLEy: ข้อความสองภาษาที่คัดสรรด้วยมือ — แต่ไม่มีการบันทึกการปฏิบัติตาม OCAP® หรือ CARE
- ข้อมูลสังเคราะห์จากการแปลย้อนกลับ: ประโยคคู่ขนานสังเคราะห์ประมาณ 270 ล้านประโยคที่สร้างโดยโมเดลเอง
สำหรับภาษาพื้นเมืองอย่าง Plains Cree (CRK) หมายความว่า:
| หลักการ | แนวปฏิบัติของ OMT-1600 | ผลกระทบ |
|---|---|---|
| Ownership (ความเป็นเจ้าของ) | Meta เป็นเจ้าของโมเดลและตัดสินใจวิธีการเผยแพร่ | ชุมชนไม่มีส่วนได้เสียในความเป็นเจ้าของวิธีที่ภาษาของตนถูกสร้างแบบจำลอง |
| Control (การควบคุม) | Meta ควบคุมการเลือกข้อมูลฝึกสอน สถาปัตยกรรมโมเดล และกำหนดการเผยแพร่ | ชุมชนไม่มีส่วนร่วมในการตัดสินใจว่าจะใช้ข้อมูลใดหรือภาษาจะถูกนำเสนออย่างไร |
| Access (การเข้าถึง) | น้ำหนักโมเดลยังไม่เปิดเผยในปัจจุบัน — "ไม่เผยแพร่เนื่องจากปัจจัยที่อยู่นอกเหนือการควบคุมของผู้เขียน" | ชุมชนไม่สามารถเข้าถึง ตรวจสอบ หรือแก้ไขโมเดลที่พูดภาษาของตนได้ |
| Possession (การครอบครอง) | ข้อมูลและโมเดลทั้งหมดอยู่บนโครงสร้างพื้นฐานของ Meta | ชุมชนไม่สามารถโฮสต์ ตรวจสอบ หรือลบข้อมูลที่ใช้ฝึกสอนโมเดลได้ |
OMT-1600 เป็นความสำเร็จทางการวิจัย แต่ยังเป็นตัวอย่างของแนวปฏิบัติการดึงข้อมูลแบบเอาเปรียบ: ข้อมูลภาษาถูกเก็บรวบรวมจากเว็บและข้อความทางศาสนา ประมวลผลเป็นโมเดล และเผยแพร่เป็นบทความ — ทั้งหมดนี้โดยไม่มีการมีส่วนร่วมของชุมชน ความยินยอม หรือการแบ่งปันผลประโยชน์
นี่คือรูปแบบที่สถาปัตยกรรมอธิปไตยของ champollion ป้องกันได้อย่างแม่นยำ วิธีการ api เก็บทรัพย์สินทางปัญญาด้านภาษาไว้บนเซิร์ฟเวอร์ที่ชุมชนควบคุม คลังข้อมูลการประเมินผลได้รับการจัดหาด้วยความยินยอมของชุมชนและจัดเก็บภายใต้การดูแลคีย์ของชุมชน วิธีการที่ได้รับรางวัลจะถูกโอนไปยังความเป็นเจ้าของของชุมชน ความแตกต่างไม่ใช่เรื่องเทคนิค — แต่เป็นเรื่องจริยธรรมและโครงสร้าง
:::note OMT-1600 ไม่ได้มีความผิดเป็นพิเศษ รูปแบบนี้ — การขูดรีดข้อมูลจากเว็บตามด้วยการฝึกสอนโมเดลโดยไม่ได้รับความยินยอมจากชุมชน — เป็นแนวปฏิบัติมาตรฐานในการวิจัย NLP แบบหลายภาษาขนาดใหญ่ OMT-1600 เป็นกรณีศึกษาเนื่องจากขนาด (1,600 ภาษา) และความใหม่ (มีนาคม 2026) ไม่ใช่เพราะมีการดึงข้อมูลแบบเอาเปรียบเป็นพิเศษ การวิจารณ์เดียวกันนี้ใช้กับ NLLB-200 ความพยายามด้านหลายภาษาของ Google และการวิจัย MT ขนาดใหญ่ส่วนใหญ่ :::
อ่านเพิ่มเติม
- First Nations Information Governance Centre — OCAP®
- Global Indigenous Data Alliance — หลักการ CARE
- Te Mana Raraunga — เครือข่ายอธิปไตยข้อมูลเมารี
- USIDSN — United States Indigenous Data Sovereignty Network
ดูเพิ่มเติม
- รองรับภาษาที่มีทรัพยากรน้อย — คู่มือเทคนิคพร้อมบริบท OCAP
- วิธีการแปล — วิธีการ
apiและวิธีที่มันปกป้องทรัพย์สินทางปัญญา - Serving a Method via API — การโฮสต์ไปป์ไลน์ที่ชุมชนควบคุม
- Plugin Specification — ฟิลด์
provenanceสำหรับการระบุแหล่งที่มาของทรัพยากร - Cookbook: FST-Gated Pipeline — การสร้างไปป์ไลน์ที่ชุมชนสามารถโฮสต์เองได้