ข้ามไปยังเนื้อหาหลัก

อธิปไตยข้อมูล

สรุปสำหรับผู้บริหาร หน้านี้อธิบายหลักการอธิปไตยข้อมูลของ OCAP®, CARE และ Te Mana Raraunga รวมถึงความหมายสำหรับนักพัฒนาที่สร้างวิธีการแปลสำหรับภาษาพื้นเมือง ครอบคลุมถึงเมื่อใดที่ต้องได้รับความยินยอมจากชุมชน วิธีที่สถาปัตยกรรมวิธีการ api ของ champollion รองรับอธิปไตยข้อมูล และพันธะทางจริยธรรมของผู้ที่ทำงานกับข้อมูลภาษาพื้นเมือง

การแปลด้วยเครื่องสำหรับภาษาพื้นเมืองก่อให้เกิดคำถามที่ไม่มีในกรณีของภาษาฝรั่งเศสหรือภาษาญี่ปุ่น ใครเป็นเจ้าของข้อมูลฝึกสอน? ใครควบคุมวิธีที่โมเดลภาษาพูด? ใครตัดสินใจว่าการแปลดีพอที่จะเผยแพร่หรือไม่?

คำตอบคือชุมชนเสมอ

champollion ถูกสร้างขึ้นเพื่อรองรับสิ่งนี้ วิธีการ api เก็บทรัพยากรภาษาทั้งหมดไว้ฝั่งเซิร์ฟเวอร์ภายใต้การควบคุมของชุมชน ระบบปลั๊กอินแยกวิธีการออกจากเครื่องมือ แต่เครื่องมือไม่สามารถบังคับใช้จริยธรรมได้ — หน้านี้อธิบายหลักการที่คุณควรปฏิบัติตาม


หลักการ OCAP®

OCAP (Ownership, Control, Access, Possession) คือชุดหลักการที่พัฒนาโดย First Nations Information Governance Centre (FNIGC) ซึ่งกำหนดวิธีการเก็บรวบรวม ปกป้อง ใช้งาน และแบ่งปันข้อมูลของ First Nations

หลักการความหมายสำหรับการแปล
Ownership (ความเป็นเจ้าของ)ชุมชนเป็นเจ้าของข้อมูลภาษาของตน ได้แก่ พจนานุกรม ไวยากรณ์ ข้อความคู่ขนาน ไฟล์การฝึกสอน และการแปลใดๆ ที่ผลิตจากข้อมูลเหล่านั้น
Control (การควบคุม)ชุมชนควบคุมวิธีการใช้ข้อมูลภาษา ผู้ที่มีสิทธิ์เข้าถึง และวิธีการแปลที่ยอมรับได้
Access (การเข้าถึง)สมาชิกชุมชนมีสิทธิ์เข้าถึงและจัดการทรัพยากรภาษาของตนเองโดยไม่คำนึงว่าจัดเก็บไว้ที่ใด
Possession (การครอบครอง)ข้อมูลจริง (ไฟล์การฝึกสอน พจนานุกรม น้ำหนักโมเดล) ต้องอยู่บนโครงสร้างพื้นฐานที่ชุมชนควบคุม ไม่ใช่บนคลาวด์ของบุคคลที่สาม

ความหมายของ OCAP ในทางปฏิบัติ

  • อย่าเผยแพร่การแปล ของภาษาพื้นเมืองโดยไม่ได้รับอนุญาตอย่างชัดเจนจากชุมชน
  • อย่าฝึกสอนโมเดล บนข้อมูลภาษาที่ชุมชนจัดหาให้โดยไม่มีข้อตกลงการแบ่งปันข้อมูล
  • อย่าขูดรีดข้อมูล ทรัพยากรภาษาชุมชนจากเว็บไซต์ โซเชียลมีเดีย หรือสื่อการศึกษา
  • ใช้วิธีการ api เพื่อให้พรอมต์ ข้อมูลการฝึกสอน และพจนานุกรมอยู่บนเซิร์ฟเวอร์ที่ชุมชนควบคุม วิธีการ api ของ champollion เป็น "ท่อส่งข้อมูลแบบเรียบง่าย" — ส่งคีย์ออกไปและรับการแปลกลับมา ทรัพย์สินทางปัญญาด้านภาษาทั้งหมดอยู่ฝั่งเซิร์ฟเวอร์
  • บันทึกที่มาของข้อมูล — ฟิลด์ provenance ใน plugin manifest ควรระบุทรัพยากรทุกรายการที่ใช้ สัญญาอนุญาต และแหล่งที่มา

:::warning OCAP® เป็นเครื่องหมายการค้าจดทะเบียน OCAP® เป็นเครื่องหมายการค้าจดทะเบียนของ First Nations Information Governance Centre ใช้บังคับโดยเฉพาะกับ First Nations ในแคนาดา หลักการเหล่านี้มีความเกี่ยวข้องในวงกว้างกว่า แต่เครื่องหมายการค้าและอำนาจการกำกับดูแลเป็นของ FNIGC :::


หลักการ CARE

หลักการ CARE สำหรับการกำกับดูแลข้อมูลพื้นเมือง ได้รับการพัฒนาโดย Global Indigenous Data Alliance (GIDA) เพื่อเป็นส่วนเสริมของหลักการข้อมูล FAIR หลักการ FAIR ระบุว่าข้อมูลควรค้นหาได้ (Findable) เข้าถึงได้ (Accessible) ทำงานร่วมกันได้ (Interoperable) และนำกลับมาใช้ใหม่ได้ (Reusable) หลักการ CARE ระบุว่านั่นยังไม่เพียงพอ — การกำกับดูแลข้อมูลต้องให้ความสำคัญกับสิทธิของชนพื้นเมืองด้วย

หลักการการประยุกต์ใช้
Collective Benefit (ประโยชน์ส่วนรวม)เครื่องมือแปลควรเป็นประโยชน์ต่อชุมชนภาษาเป็นอันดับแรก คะแนนบนลีดเดอร์บอร์ดเป็นเพียงวิธีการปรับปรุงวิธีการ ไม่ใช่การดึงมูลค่าเชิงพาณิชย์จากภาษาชุมชน
Authority to Control (อำนาจในการควบคุม)ชุมชนมีอำนาจในการกำกับดูแลวิธีการเก็บรวบรวม ใช้งาน และแบ่งปันข้อมูลภาษาของตน คะแนนสูงบนลีดเดอร์บอร์ดไม่ได้ให้สิทธิ์ในการเผยแพร่การแปล
Responsibility (ความรับผิดชอบ)นักวิจัยและนักพัฒนาที่ทำงานกับข้อมูลภาษาพื้นเมืองมีความรับผิดชอบในการสร้างความสัมพันธ์ ขอความยินยอม และแบ่งปันผลประโยชน์
Ethics (จริยธรรม)สิทธิและความเป็นอยู่ที่ดีของชนพื้นเมืองต้องเป็นข้อกังวลหลัก วิธีการแปลควรพัฒนา ร่วมกับ ชุมชน ไม่ใช่ เกี่ยวกับ ชุมชน

Te Mana Raraunga — อธิปไตยข้อมูลของชาวเมารี

Te Mana Raraunga คือ เครือข่ายอธิปไตยข้อมูลเมารี ซึ่งยืนยันว่าข้อมูลเมารี รวมถึงข้อมูลภาษา คือ taonga (สมบัติ) ที่อยู่ภายใต้หลักการของสนธิสัญญา Waitangi และ tikanga Māori (กฎหมายจารีตประเพณีเมารี)

หลักการสำคัญ:

หลักการความหมาย
Rangatiratanga (อำนาจ)ชาวเมารีมีสิทธิ์โดยธรรมชาติในการใช้อำนาจเหนือข้อมูลของตน รวมถึงข้อมูลภาษา
Whakapapa (ความสัมพันธ์)ข้อมูลมีต้นกำเนิดและความเชื่อมโยง ข้อมูลภาษาแฝงไว้ด้วยความสัมพันธ์และความรู้ของผู้ที่สร้างมันขึ้นมา
Whanaungatanga (พันธะ)ผู้ที่ถือครองหรือประมวลผลข้อมูลเมารีมีพันธะตอบแทนต่อชุมชนที่ข้อมูลนั้นมาจาก
Kotahitanga (ประโยชน์ส่วนรวม)ข้อมูลเมารีควรถูกใช้เพื่อประโยชน์ส่วนรวมของชาวเมารี
Manaakitanga (การตอบแทน)การใช้ข้อมูลเมารีควรเกี่ยวข้องกับการดูแล ความเคารพ และการตอบแทน
Kaitiakitanga (การพิทักษ์รักษา)ผู้พิทักษ์ข้อมูลมีหน้าที่ปกป้องข้อมูลและรับรองว่าถูกใช้อย่างเหมาะสม

หลักการเหล่านี้ใช้บังคับกับ te reo Māori (ภาษาเมารี) และงานเชิงคำนวณใดๆ ที่เกี่ยวข้องกับข้อมูลภาษาเมารี


ความหมายสำหรับผู้ใช้ champollion

สำหรับภาษาทั่วไป (ฝรั่งเศส ญี่ปุ่น สเปน...)

ใช้ champollion ตามปกติ ภาษาเหล่านี้มีคลังข้อมูลขนาดใหญ่ที่เปิดเผยต่อสาธารณะ API การแปลที่ได้รับการยอมรับ และไม่มีข้อกังวลด้านอธิปไตย แปล ซิงค์ และเผยแพร่ได้ตามต้องการ

สำหรับภาษาพื้นเมืองและภาษาที่มีทรัพยากรน้อย

สถานการณ์แตกต่างกันอย่างพื้นฐาน:

  1. ขอความยินยอมก่อน ก่อนสร้างวิธีการแปลสำหรับภาษาพื้นเมือง ให้สร้างความสัมพันธ์กับชุมชน วิธีการที่สร้างขึ้นโดยไม่มีการมีส่วนร่วมของชุมชน ไม่ว่าจะน่าประทับใจทางเทคนิคเพียงใด ไม่ควรเผยแพร่หรือแจกจ่าย

  2. ใช้วิธีการ api โฮสต์ไปป์ไลน์การแปลบนโครงสร้างพื้นฐานที่ชุมชนควบคุม วิธีการ api ใน champollion ออกแบบมาเพื่อสิ่งนี้: ส่งคีย์และรับการแปลกลับมาโดยไม่เปิดเผยพรอมต์ พจนานุกรม หรือข้อมูลการฝึกสอนที่ทำให้วิธีการทำงานได้

    Community-controlled setup
    {
    "pairs": {
    "en:crk": {
    "method": "api",
    "endpoint": "https://api.community-server.example/translate"
    }
    }
    }
  3. บันทึกทุกอย่าง ใช้ฟิลด์ provenance ใน plugin manifest ของคุณเพื่อระบุทรัพยากรทุกรายการ สัญญาอนุญาต และว่าได้รับการจัดหาด้วยความยินยอมของชุมชนหรือไม่

  4. คะแนนไม่ใช่สัญญาอนุญาต คะแนนสูงบนลีดเดอร์บอร์ดพิสูจน์ว่าวิธีการทำงานได้ดีในเชิงเทคนิค แต่ไม่ได้ให้สิทธิ์ในการเผยแพร่การแปล แจกจ่ายปลั๊กอิน หรือนำวิธีการไปใช้เชิงพาณิชย์ ชุมชนเป็นผู้ตัดสินใจ

  5. แบ่งปันวิธีการ ไม่ใช่ข้อมูล หากคุณพัฒนาเทคนิคที่ทำงานได้ดี (เช่น "FST-gated LLM with coached prompts") ให้แบ่งปัน สถาปัตยกรรม และ แนวทาง บนลีดเดอร์บอร์ด ชุมชนยังคงควบคุมข้อมูลภาษาที่ทำให้มันทำงานได้สำหรับภาษาเฉพาะของตน


วิธีการ api และอธิปไตย

วิธีการแปล api มีอยู่โดยเฉพาะเพื่อรองรับอธิปไตยข้อมูล นี่คือเหตุผล:

ด้านวิธีการอื่นๆวิธีการ api
ที่อยู่ของพรอมต์ในไฟล์คอนฟิกของ champollion (มองเห็นได้โดยนักพัฒนาทุกคน)บนเซิร์ฟเวอร์ของชุมชน (เป็นส่วนตัว)
ที่อยู่ของข้อมูลการฝึกสอนในไดเรกทอรี .champollion/coaching/ (คอมมิตไปยัง git)บนเซิร์ฟเวอร์ของชุมชน (เป็นส่วนตัว)
ที่อยู่ของพจนานุกรมในไดเรกทอรีปลั๊กอิน (แจกจ่ายพร้อมปลั๊กอิน)บนเซิร์ฟเวอร์ของชุมชน (เป็นส่วนตัว)
ผู้ควบคุมไปป์ไลน์ผู้ที่รัน champollion syncชุมชนที่ดำเนินการ API
สิ่งที่ champollion เห็นทุกอย่างคีย์เข้า การแปลออก

วิธีการ api เป็นการเลือกสถาปัตยกรรมโดยเจตนา มันเป็น "ท่อส่งข้อมูลแบบเรียบง่าย" เพราะทรัพย์สินทางปัญญา — ความรู้ด้านภาษา กฎไวยากรณ์ ตัวอย่างการฝึกสอนที่คัดสรรมาอย่างดี — เป็นของชุมชน ไม่ใช่ของเครื่องมือ

ดู Serving a Method via API สำหรับรายละเอียดการนำไปใช้งาน


กรณีศึกษา: OMT-1600 และอธิปไตยข้อมูล

OMT-1600 ของ Meta (มีนาคม 2026) เป็นตัวอย่างที่เป็นรูปธรรมว่าเหตุใดอธิปไตยข้อมูลจึงมีความสำคัญสำหรับภาษาพื้นเมือง OMT-1600 ฝึกสอนโมเดลการแปลสำหรับ 1,600 ภาษาโดยใช้:

  • CC-2000-Web: ข้อความภาษาเดียวที่ขูดรีดจากเว็บสำหรับ languoid กว่า 2,000 รายการ — เก็บรวบรวมโดยไม่ได้รับความยินยอมจากชุมชน
  • การแปลพระคัมภีร์: ข้อความทางศาสนาที่ใช้เป็นข้อมูลฝึกสอนและประเมินผลแบบคู่ขนานสำหรับภาษาที่มีทรัพยากรน้อยที่สุด
  • MeDLEy: ข้อความสองภาษาที่คัดสรรด้วยมือ — แต่ไม่มีการบันทึกการปฏิบัติตาม OCAP® หรือ CARE
  • ข้อมูลสังเคราะห์จากการแปลย้อนกลับ: ประโยคคู่ขนานสังเคราะห์ประมาณ 270 ล้านประโยคที่สร้างโดยโมเดลเอง

สำหรับภาษาพื้นเมืองอย่าง Plains Cree (CRK) หมายความว่า:

หลักการแนวปฏิบัติของ OMT-1600ผลกระทบ
Ownership (ความเป็นเจ้าของ)Meta เป็นเจ้าของโมเดลและตัดสินใจวิธีการเผยแพร่ชุมชนไม่มีส่วนได้เสียในความเป็นเจ้าของวิธีที่ภาษาของตนถูกสร้างแบบจำลอง
Control (การควบคุม)Meta ควบคุมการเลือกข้อมูลฝึกสอน สถาปัตยกรรมโมเดล และกำหนดการเผยแพร่ชุมชนไม่มีส่วนร่วมในการตัดสินใจว่าจะใช้ข้อมูลใดหรือภาษาจะถูกนำเสนออย่างไร
Access (การเข้าถึง)น้ำหนักโมเดลยังไม่เปิดเผยในปัจจุบัน — "ไม่เผยแพร่เนื่องจากปัจจัยที่อยู่นอกเหนือการควบคุมของผู้เขียน"ชุมชนไม่สามารถเข้าถึง ตรวจสอบ หรือแก้ไขโมเดลที่พูดภาษาของตนได้
Possession (การครอบครอง)ข้อมูลและโมเดลทั้งหมดอยู่บนโครงสร้างพื้นฐานของ Metaชุมชนไม่สามารถโฮสต์ ตรวจสอบ หรือลบข้อมูลที่ใช้ฝึกสอนโมเดลได้

OMT-1600 เป็นความสำเร็จทางการวิจัย แต่ยังเป็นตัวอย่างของแนวปฏิบัติการดึงข้อมูลแบบเอาเปรียบ: ข้อมูลภาษาถูกเก็บรวบรวมจากเว็บและข้อความทางศาสนา ประมวลผลเป็นโมเดล และเผยแพร่เป็นบทความ — ทั้งหมดนี้โดยไม่มีการมีส่วนร่วมของชุมชน ความยินยอม หรือการแบ่งปันผลประโยชน์

นี่คือรูปแบบที่สถาปัตยกรรมอธิปไตยของ champollion ป้องกันได้อย่างแม่นยำ วิธีการ api เก็บทรัพย์สินทางปัญญาด้านภาษาไว้บนเซิร์ฟเวอร์ที่ชุมชนควบคุม คลังข้อมูลการประเมินผลได้รับการจัดหาด้วยความยินยอมของชุมชนและจัดเก็บภายใต้การดูแลคีย์ของชุมชน วิธีการที่ได้รับรางวัลจะถูกโอนไปยังความเป็นเจ้าของของชุมชน ความแตกต่างไม่ใช่เรื่องเทคนิค — แต่เป็นเรื่องจริยธรรมและโครงสร้าง

:::note OMT-1600 ไม่ได้มีความผิดเป็นพิเศษ รูปแบบนี้ — การขูดรีดข้อมูลจากเว็บตามด้วยการฝึกสอนโมเดลโดยไม่ได้รับความยินยอมจากชุมชน — เป็นแนวปฏิบัติมาตรฐานในการวิจัย NLP แบบหลายภาษาขนาดใหญ่ OMT-1600 เป็นกรณีศึกษาเนื่องจากขนาด (1,600 ภาษา) และความใหม่ (มีนาคม 2026) ไม่ใช่เพราะมีการดึงข้อมูลแบบเอาเปรียบเป็นพิเศษ การวิจารณ์เดียวกันนี้ใช้กับ NLLB-200 ความพยายามด้านหลายภาษาของ Google และการวิจัย MT ขนาดใหญ่ส่วนใหญ่ :::


อ่านเพิ่มเติม


ดูเพิ่มเติม