ข้ามไปยังเนื้อหาหลัก

กลยุทธ์ความร่วมมือด้านคลังข้อมูล: การจัดตั้งคลังข้อมูลประเมินผลผ่านภาควิชาภาษาศาสตร์ในสถาบันการศึกษา

วัตถุประสงค์ เอกสารนี้นำเสนอขั้นตอนการทำงานฉบับสมบูรณ์สำหรับการจัดตั้งคลังข้อมูลประเมินผลการแปลด้วยเครื่องผ่านความร่วมมือกับภาควิชาภาษาศาสตร์ ครอบคลุมสิ่งที่เราต้องการให้ภาควิชาส่งมอบ รูปแบบที่คลังข้อมูลต้องมี วิธีการปิดผนึกด้วยการเข้ารหัสลับ การทำงานของการประเมินผลในแซนด์บ็อกซ์ และสิ่งที่ภาควิชาจะได้รับเป็นการตอบแทน เอกสารนี้คือสิ่งที่คุณควรนำติดตัวไปในการประชุมกับพันธมิตรทางวิชาการที่มีศักยภาพ

กลุ่มเป้าหมาย หัวหน้าภาควิชา นักวิจัยหลัก ผู้ประสานงานวิจัย และผู้อำนวยการโครงการภาษาพื้นเมืองในมหาวิทยาลัยที่มีโครงการบันทึกภาษาหรือ NLP ที่ดำเนินการอยู่

เอกสารประกอบ:

อัปเดตล่าสุด: 2026-06-07


1. สิ่งที่ความร่วมมือนี้จะผลิตขึ้น

คลังข้อมูลที่ปิดผนึกแล้ว: ชุดคู่ข้อความคู่ขนานที่คัดสรรแล้ว (ภาษาต้นทาง → ภาษาปลายทาง) ซึ่งกลายเป็นมาตรฐานอ้างอิงสำหรับการวัดคุณภาพการแปลด้วยเครื่อง วิธีการต่าง ๆ จะถูกทดสอบกับคลังข้อมูลนี้ในแซนด์บ็อกซ์ โดยนักพัฒนาจะไม่มีโอกาสเห็นข้อมูลทดสอบเลย

ความร่วมมือนี้จะผลิตผลลัพธ์สามรายการ:

ผลลัพธ์คืออะไรใครควบคุม
คลังข้อมูลพัฒนาคู่ข้อความคู่ขนานสาธารณะ 100–200+ คู่สำหรับการพัฒนาวิธีการเผยแพร่แบบเปิด (CC BY-NC-SA 4.0 หรือเทียบเท่า)
ชุดทดสอบมาตรฐานทองคู่ข้อความคู่ขนานลับ 50–150 คู่สำหรับการประเมินผลอย่างเป็นทางการองค์กรกำกับดูแลชุมชน (ปิดผนึกด้วยการเข้ารหัสลับ)
ชุดทดสอบวินิจฉัยคู่ข้อความเปรียบเทียบแบบกำหนดเป้าหมาย 10–50 คู่ที่ทดสอบปรากฏการณ์ทางภาษาศาสตร์เฉพาะเผยแพร่แบบเปิด

คลังข้อมูลพัฒนาช่วยให้ทุกคนสามารถสร้างวิธีการแปลได้ ชุดมาตรฐานทองรับประกันว่าวิธีการเหล่านั้นจะถูกทดสอบอย่างซื่อสัตย์ ชุดวินิจฉัยช่วยตรวจจับรูปแบบความล้มเหลวเฉพาะ (เช่น "ระบบนี้จัดการ obviation ได้หรือไม่")


2. สิ่งที่ภาควิชาต้องดำเนินการ

ระยะที่ 1: การออกแบบคลังข้อมูล (2–4 สัปดาห์ เวลาของนักวิจัย)

ผู้นำ: PI หรือนักวิจัยหลังปริญญาเอกที่มีความเชี่ยวชาญในภาษาเป้าหมาย

  1. เลือกโดเมนของวัสดุต้นทาง เลือก 4–6 โดเมนในโลกจริงที่ชุมชนภาษาต้องการการแปลจริง ๆ อนุกรมวิธานของเรารองรับ 16 โดเมน (ดู Benchmark Spec §2.7):

    ลำดับความสำคัญโดเมนเหตุผล
    🔴 สูงedu — การศึกษาตำราเรียน หลักสูตร — ความต้องการของชุมชนโดยตรง
    🔴 สูงgov — ราชการเอกสารสภาชนเผ่า นโยบาย — ความต้องการในชีวิตประจำวัน
    🔴 สูงmedical — สุขภาพแบบฟอร์มรับผู้ป่วยคลินิก ข้อมูลสุขภาพ — สำคัญต่อความปลอดภัย
    🟡 ปานกลางconv — การสนทนาการพูดในชีวิตประจำวัน — สร้างพื้นฐานความคล่องแคล่ว
    🟡 ปานกลางlegal — กฎหมายเอกสารสิทธิ์ สนธิสัญญา — ความสำคัญต่อชุมชน
    🟢 ต่ำกว่าliterary — วรรณกรรม/วัฒนธรรมเรื่องเล่า ประวัติศาสตร์บอกเล่า — การอนุรักษ์วัฒนธรรม
  2. ร่างเอกสารออกแบบคลังข้อมูล โดยระบุ:

    • ขนาดเป้าหมายต่อส่วน (development, gold_standard, diagnostic)
    • การกระจายระดับความยาก (ดู §3.3 ด้านล่าง)
    • การครอบคลุมรีจิสเตอร์และโดเมน
    • เกณฑ์การเลือกประโยคต้นทาง (ไม่ใช้ข้อความสังเคราะห์ ไม่ใช้เฉพาะพระคัมภีร์)
    • แผนการสรรหาผู้พูดภาษา
  3. ส่งการออกแบบให้เราตรวจสอบ เราจะตรวจสอบกับสคีมาคลังข้อมูล (Benchmark Spec §2) และส่งข้อเสนอแนะกลับภายใน 1 สัปดาห์

ระยะที่ 2: การสร้างประโยคต้นทาง (4–8 สัปดาห์ เวลาของผู้พูดภาษา)

ผู้นำ: ผู้ประสานงานวิจัยที่ทำงานร่วมกับผู้พูดสองภาษา

  1. สร้างหรือเลือกประโยคต้นทาง ครอบคลุมโดเมนและระดับความยากที่วางแผนไว้ แหล่งที่มาอาจเป็น:

    • วัสดุสองภาษาที่ตีพิมพ์แล้ว (ตำราเรียน เอกสารราชการ)
    • ประโยคที่สร้างขึ้นใหม่เพื่อครอบคลุมปรากฏการณ์ทางภาษาศาสตร์เฉพาะ
    • ดัดแปลงจากเอกสารในโลกจริง (วาระการประชุมสภาชนเผ่า แบบฟอร์มคลินิก สื่อการศึกษา)
  2. ประโยคต้นทางแต่ละประโยคต้องมี:

    • แท็กโดเมน (จากอนุกรมวิธาน 16 รหัส)
    • แท็กรีจิสเตอร์ (การสนทนา ทางการ เทคนิค พิธีกรรม การศึกษา)
    • แท็กบริบท (การทักทาย การประกาศ คำถาม คำสั่ง การเล่าเรื่อง ป้ายกำกับ ข้อผิดพลาด)
    • ระดับความยากโดยประมาณ (1–5 ดู §3.3)
    • แท็กที่มา (ตำราเรียน elicited corpus gold_standard)
  3. แปลประโยคต้นทางแต่ละประโยค เป็นภาษาเป้าหมาย โดยผู้พูดสองภาษาเป็นผู้ดำเนินการ การมีการแปลอ้างอิงหลายรายการต่อรายการมีคุณค่าแต่ไม่จำเป็น

  4. เพิ่มการวิเคราะห์ทางสัณฐานวิทยาสำหรับการแปลอ้างอิงแต่ละรายการ (ไม่บังคับ):

    • การอธิบายแบบ interlinear gloss (การแยกส่วนทีละหน่วยคำ)
    • สตริงแท็ก FST (หากมี FST สำหรับภาษานั้น)
    • หมายเหตุของผู้แปลเกี่ยวกับรูปแบบภาษาถิ่น ความกำกวม หรือบริบททางวัฒนธรรม

ระยะที่ 3: การประกันคุณภาพ (2–4 สัปดาห์)

ผู้นำ: นักภาษาศาสตร์ที่มีความเชี่ยวชาญในภาษาเป้าหมาย

  1. การตรวจสอบข้ามกัน การแปลแต่ละรายการควรได้รับการตรวจสอบโดยผู้พูดสองภาษาอย่างน้อยหนึ่งคนที่ไม่ได้เป็นผู้แปลต้นฉบับ ผู้ตรวจสอบจะตรวจสอบ:

    • การแปลถูกต้องหรือไม่?
    • ฟังดูเป็นธรรมชาติหรือไม่?
    • การให้คะแนนความยากถูกต้องหรือไม่?
    • มีรูปแบบที่ยอมรับได้ที่ควรบันทึกไว้หรือไม่?
  2. รันผ่านตัวตรวจสอบสคีมาของเรา เราจัดเตรียมสคริปต์ที่ตรวจสอบคลังข้อมูลกับสคีมารายการ (Benchmark Spec §2.2) โดยตรวจสอบ:

    • ฟิลด์ที่จำเป็นครบถ้วน
    • รหัสโดเมนถูกต้อง
    • ระดับความยากเป็นจำนวนเต็ม 1–5
    • ไม่มี ID ซ้ำกัน
    • การเข้ารหัสอักขระ (การทำให้เป็นมาตรฐาน UTF-8 NFC)
  3. หากมี FST สำหรับภาษานั้น ให้รันการแปลอ้างอิงผ่าน FST ทุกคำในการอ้างอิงควรผ่านการตรวจสอบ FST คำที่ไม่ผ่าน (คำยืม คำใหม่ ชื่อเฉพาะ) ควรบันทึกไว้ใน allowlist

ระยะที่ 4: การแบ่งส่วนและการปิดผนึก (1 สัปดาห์ วิศวกรรมของเรา)

ผู้นำ: ทีม Champollion โดยมีภาควิชาตรวจสอบ

  1. การแบ่งแบบ stratified เราแบ่งคลังข้อมูลออกเป็นส่วนต่าง ๆ โดยใช้การสุ่มตัวอย่างแบบกำหนดได้ (seed ที่บันทึกไว้ สามารถทำซ้ำได้):

    ส่วนขนาดเป้าหมายการเข้าถึง
    development60% ของรายการ (ขั้นต่ำ 100)สาธารณะ
    gold_standard30% ของรายการ (ขั้นต่ำ 50)ลับ ปิดผนึก
    held_out10% ของรายการ (ขั้นต่ำ 10)ลับ ปิดผนึก ไม่ใช้จนกว่าจะเปิดใช้งาน

    การแบ่งจะรักษาการกระจายระดับความยาก (การสุ่มตัวอย่างแบบ stratified) เพื่อให้แต่ละส่วนมีการแทนค่าตามสัดส่วนในทุกระดับ

  2. การปิดผนึกด้วยการเข้ารหัสลับ ของส่วน gold_standard และ held_out:

    1. SHA-256 hash of each entry (source + reference + metadata)
    2. SHA-256 hash of the complete segment file
    3. Segment file encrypted with AES-256-GCM
    4. Encryption key split using Shamir Secret Sharing (2-of-3 threshold)
    5. Key shares distributed to:
    - Share 1: Community governance organization
    - Share 2: Academic department partner
    - Share 3: Champollion project (escrow)
    6. Hash manifest published to a public commit (proves the corpus existed
    at a specific time without revealing its contents)
  3. ส่วน development จะถูก commit ไปยัง repository สาธารณะและเผยแพร่พร้อมการอนุญาตสิทธิ์ครบถ้วน

  4. ส่วน diagnostic ก็เป็นสาธารณะเช่นกัน — ทดสอบปรากฏการณ์ทางภาษาศาสตร์เฉพาะ (ดู §3.4)

ระยะที่ 5: การรวมระบบและการเปิดตัว (1–2 สัปดาห์ วิศวกรรมของเรา)

  1. การกำหนดค่า harness เราเพิ่มภาษาเข้าสู่ evaluation harness:

    • สร้างหรือตรวจสอบ language card
    • ลงทะเบียนคลังข้อมูลใน dataset registry
    • กำหนดค่าเมตริก LYSS (LYSS-fst หากมี FST, LYSS-eq หากมีกฎ linter)
    • เลือก scoring profile เริ่มต้น (Profile A หากมี FST, Profile B ในกรณีอื่น)
  2. เกณฑ์มาตรฐานพื้นฐาน เราทำการทดสอบ 12 โมเดลกับส่วน development เพื่อเติมข้อมูลเริ่มต้นใน leaderboard

  3. การประกาศสาธารณะ ภาษาจะปรากฏบน Arena leaderboard พร้อมเกณฑ์มาตรฐาน development segment แบบสด โดยระบุภาควิชาเป็นพันธมิตรคลังข้อมูล


3. รูปแบบที่คลังข้อมูลต้องมี

3.1 รูปแบบ

ไฟล์คลังข้อมูลทุกไฟล์เป็นเอกสาร JSON ตามสคีมาใน Benchmark Spec §2.1–§2.2:

{
"dataset": {
"id": "crk-ualberta-v1",
"version": "1.0",
"language_pair": "EN→CRK",
"source_language": "en",
"target_language": "crk",
"created": "2026-09-15",
"license": "CC-BY-NC-SA-4.0",
"provenance": ["textbook", "elicited", "gold_standard"]
},
"entries": [
{
"id": 1,
"source": "I see the dog",
"reference": "niwâpamâw atim",
"segment": "development",
"difficulty": 2,
"provenance": "textbook",
"register": "conversational",
"context": "declaration",
"domain": "edu",
"morphological_analysis": "ni-wâpam-âw atim | 1sg-see.TA-3sg.DIR dog.AN",
"notes": "Animate noun (atim); direct form because speaker is proximate"
}
]
}

3.2 ข้อกำหนดขนาดขั้นต่ำ

ส่วนรายการขั้นต่ำแนะนำ
development100200–300
gold_standard50100–150
diagnostic1030–50
held_out1020–30
รวม170350–530

3.3 การกระจายระดับความยาก

คลังข้อมูลต้องมีรายการครอบคลุมทุกห้าระดับความยาก โดยเน้นที่ระดับ 2–4:

ระดับคำอธิบายการกระจายเป้าหมาย
1 — คำศัพท์พื้นฐานคำเดี่ยว การทักทายทั่วไป ตัวเลข10–15%
2 — ประโยคง่ายSVO กาลปัจจุบัน25–30%
3 — ความซับซ้อนปานกลางกาลอดีต/อนาคต การแสดงความเป็นเจ้าของ animacy30–35%
4 — สัณฐานวิทยาซับซ้อนObviation passive conjunct order อนุประโยคสัมพันธ์15–20%
5 — ขั้นสูงหลายอนุประโยค รีจิสเตอร์ทางการ พิธีกรรม สำนวน5–10%

3.4 ชุดทดสอบวินิจฉัย

ส่วน diagnostic ทดสอบปรากฏการณ์ทางภาษาศาสตร์เฉพาะโดยใช้ คู่เปรียบเทียบ: การแปลที่ถูกต้องหนึ่งรายการและการแปลที่ผิดซึ่งแตกต่างกันน้อยที่สุดหนึ่งรายการ หากคะแนนเมตริกของระบบให้คะแนนรายการที่ถูกต้องสูงกว่า แสดงว่าการทดสอบผ่าน

สำหรับภาษา polysynthetic ชุดทดสอบวินิจฉัยควรกำหนดเป้าหมายที่:

ปรากฏการณ์ตัวอย่าง (Cree)สิ่งที่ทดสอบ
การสอดคล้องของ animacyatim (AN) vs. maskisin (IN) — รูปแบบกริยาต่างกันระบบรู้หรือไม่ว่าคำนามใดมีชีวิต?
Obviationบุรุษที่สามแบบ proximate vs. obviativeระบบติดตามลำดับชั้นบุรุษที่สามได้หรือไม่?
Inverse markingรูปแบบกริยา direct vs. inverseระบบจัดการกรณีที่ผู้รับกระทำมีลำดับสูงกว่าผู้กระทำได้หรือไม่?
Conjunct/Independentลำดับกริยาในประโยคหลัก vs. ประโยคย่อยระบบใช้ paradigm กริยาที่ถูกต้องหรือไม่?
Inclusive/Exclusive"เรา (รวมคุณ)" vs. "เรา (ไม่รวมคุณ)"ระบบแยกแยะรูปแบบพหูพจน์บุรุษที่หนึ่งได้หรือไม่?

สำหรับตระกูลภาษาอื่น ให้ระบุปรากฏการณ์วินิจฉัย 3–5 รายการที่แยกแยะการแปลที่มีความสามารถออกจากการแปลที่ไม่มีความสามารถ ความเชี่ยวชาญทางภาษาศาสตร์ของภาควิชามีความสำคัญอย่างยิ่งในที่นี้ — เหล่านี้คือการทดสอบที่เฉพาะผู้เชี่ยวชาญเท่านั้นที่จะรู้ว่าต้องเขียน

3.5 สิ่งที่เราไม่ต้องการ

รูปแบบที่ไม่พึงประสงค์เหตุผล
ข้อความจากพระคัมภีร์เท่านั้นรีจิสเตอร์โบราณ คำศัพท์พิธีกรรม โครงสร้างสูตรสำเร็จ OMT-1600 ประเมิน 1,560 ภาษาด้วยวิธีนี้ — เราหลีกเลี่ยงโดยเจตนา
คู่ประเมินผลสังเคราะห์การอ้างอิงที่สร้างโดย LLM ทำลายวัตถุประสงค์ของการประเมินผล การอ้างอิงต้องเป็นงานของมนุษย์
คลังข้อมูลรีจิสเตอร์เดียวทางการทั้งหมด หรือการสนทนาทั้งหมด การแปลในโลกจริงครอบคลุมหลายรีจิสเตอร์
เฉพาะระดับความยาก 1คำเดี่ยวและการทักทายไม่ได้ทดสอบการแปล — แต่ทดสอบการค้นหาคำศัพท์
การอ้างอิงที่แปลด้วยเครื่องการใช้ผลลัพธ์ Google Translate เป็น "การอ้างอิง" เป็นการวนซ้ำแบบวงกลม
ประโยคที่ไม่มีแท็กบริบทเราต้องการทราบฟังก์ชันการสื่อสารสำหรับการวิเคราะห์วินิจฉัย

4. การปิดผนึกด้วยการเข้ารหัสลับและการทดสอบในแซนด์บ็อกซ์

4.1 เหตุใดจึงต้องปิดผนึกชุดทดสอบ?

เกณฑ์มาตรฐาน ML แบบดั้งเดิมเผยแพร่ชุดทดสอบแบบเปิด เมื่อเผยแพร่แล้ว LLM ชั้นนำจะฝึกกับข้อมูลเหล่านั้นในที่สุด (โดยตั้งใจหรือผ่านการ scraping เว็บ) ทำให้คะแนนไม่น่าเชื่อถือ สำหรับข้อมูลภาษาพื้นเมือง ยังมีข้อกังวลเพิ่มเติม: ข้อมูลทางภาษาศาสตร์ที่เผยแพร่อาจถูกนำไปใช้โดยไม่ได้รับความยินยอมจากชุมชน

การปิดผนึกรับประกัน:

  • ความสมบูรณ์ของชุดทดสอบ: วิธีการต่าง ๆ ไม่สามารถ overfit กับข้อมูลที่ไม่เคยเห็น
  • อธิปไตยด้านข้อมูล: ชุมชนควบคุมว่าใครประเมินผลกับข้อมูลของตน
  • ความสดใหม่ตลอดกาล: ชุดทดสอบไม่มีวันถูกปนเปื้อน

4.2 การทำงานของการทดสอบในแซนด์บ็อกซ์

Developer workflow:
1. Developer builds a translation method using the PUBLIC development corpus
2. Developer tests locally against the development segment (unlimited, self-serve)
3. When ready, developer submits their complete method (code + config + coaching data)
4. Governance org installs the method in the evaluation sandbox
5. Sandbox runs the method against the SEALED gold-standard test set
6. Only scores are returned to the developer
7. Developer never sees the source sentences or reference translations

The sandbox:
- Runs on governance-controlled infrastructure
- Has selective network access (LLM APIs only, no exfiltration)
- Produces a tamper-proof run card (SHA-256 hash of all inputs and outputs)
- Logs all execution for audit purposes
- Can be inspected by the governance org at any time

4.3 การจัดการคีย์

คีย์เข้ารหัสสำหรับชุดทดสอบที่ปิดผนึกถูกแบ่งโดยใช้ Shamir Secret Sharing ด้วยเกณฑ์ 2-of-3:

ผู้ถือส่วนแบ่งบทบาทอำนาจการเพิกถอน
องค์กรกำกับดูแลชุมชนผู้ดูแลหลักสามารถเพิกถอนสิทธิ์การประเมินผลได้ฝ่ายเดียว
พันธมิตรภาควิชาวิชาการผู้ดูแลร่วมสามารถมีส่วนร่วมในการสร้างคีย์ใหม่
โครงการ ChampollionEscrowไม่สามารถเข้าถึงข้อมูลได้คนเดียว รับประกันความต่อเนื่องหากฝ่ายอื่นไม่พร้อมใช้งาน

ส่วนแบ่งใด ๆ 2 ใน 3 จะสร้างคีย์ขึ้นใหม่ได้ ซึ่งหมายความว่า:

  • ชุมชน + ภาควิชาสามารถเข้าถึงข้อมูลได้โดยไม่ต้องมี Champollion
  • ชุมชน + Champollion สามารถเข้าถึงข้อมูลได้โดยไม่ต้องมีภาควิชา
  • Champollion เพียงฝ่ายเดียวไม่สามารถเข้าถึงข้อมูลได้เลย

4.4 Hash Manifest

เมื่อปิดผนึกคลังข้อมูล hash manifest จะถูกเผยแพร่ไปยัง Git commit สาธารณะ:

{
"corpus_id": "crk-ualberta-v1",
"seal_date": "2026-09-15T00:00:00Z",
"segments": {
"development": {
"entry_count": 200,
"sha256": "a3f7c...",
"access": "public"
},
"gold_standard": {
"entry_count": 100,
"sha256": "b8d2e...",
"access": "sealed",
"key_scheme": "shamir-2-of-3"
},
"held_out": {
"entry_count": 20,
"sha256": "c9e4f...",
"access": "sealed",
"key_scheme": "shamir-2-of-3"
},
"diagnostic": {
"entry_count": 30,
"sha256": "d1a3b...",
"access": "public"
}
},
"total_entries": 350,
"manifest_sha256": "e2b5c..."
}

สิ่งนี้พิสูจน์ว่า:

  • คลังข้อมูลมีอยู่จริงในวันที่เฉพาะเจาะจง
  • มีขนาดและโครงสร้างที่ทราบแน่ชัด
  • การแก้ไขใด ๆ ต่อส่วนที่ปิดผนึกจะทำลาย hash chain
  • ชุมชนสามารถตรวจสอบได้ว่าข้อมูลของตนไม่ถูกดัดแปลง

5. สิ่งที่ภาควิชาจะได้รับ

5.1 โครงสร้างพื้นฐานการวิจัย

สินทรัพย์คำอธิบาย
Evaluation harnessกรอบการประเมินผลที่ใช้งานได้และทดสอบแล้วสำหรับภาษาของตน — ประหยัดเวลาการสร้างเครื่องมือหลายเดือน
เมตริก LYSSเมตริกการประเมินผลเฉพาะภาษา (LYSS-fst, LYSS-eq, LYSS-sem) ที่กำหนดค่าสำหรับภาษาของตน — หากมีทรัพยากร FST และพจนานุกรม
Leaderboardleaderboard สาธารณะแบบสดที่แสดงสถานะของศิลปะสำหรับคู่ภาษาของตน
เกณฑ์มาตรฐานพื้นฐานการทดสอบ 12 โมเดลที่ให้เกณฑ์มาตรฐานเริ่มต้นที่สามารถตีพิมพ์ได้ทันที
ชุดทดสอบวินิจฉัยการทดสอบแบบกำหนดเป้าหมายสำหรับปรากฏการณ์ทางภาษาศาสตร์เฉพาะ — นำกลับมาใช้ใหม่ได้สำหรับการประเมินผลอื่น ๆ

5.2 สิ่งตีพิมพ์

การสร้างคลังข้อมูลและผลการประเมินผลรองรับสิ่งตีพิมพ์หลายรายการ:

บทความสถานที่ตีพิมพ์บทบาทของภาควิชา
วิธีการสร้างคลังข้อมูลLREC, ComputELผู้แต่งหลักหรือผู้แต่งร่วม
ผลการประเมินผลเกณฑ์มาตรฐานACL, EMNLPผู้แต่งร่วม
การตรวจสอบเมตริก LYSSWMT Metrics Shared Taskผู้แต่งร่วม
การออกแบบชุดทดสอบวินิจฉัยSIGMORPHON, NAACLผู้แต่งหลักหรือผู้แต่งร่วม
ทรัพยากร NLP เฉพาะภาษาสถานที่ตีพิมพ์เฉพาะภาษาผู้แต่งหลัก

5.3 การวางตำแหน่งสำหรับทุนวิจัย

ความร่วมมือนี้ให้ผลลัพธ์ที่เป็นรูปธรรมสำหรับข้อเสนอทุนวิจัย:

  • "โครงสร้างพื้นฐานการประเมินผล open-source สำหรับ MT ภาษา [ภาษา]" — ผลส่งมอบที่พิสูจน์ได้
  • "อธิปไตยด้านข้อมูลด้วยการเข้ารหัสลับสำหรับข้อมูลภาษาศาสตร์พื้นเมือง" — ใหม่ สามารถตีพิมพ์ได้
  • "เกณฑ์มาตรฐานที่กำกับดูแลโดยชุมชนพร้อม leaderboard แบบสด" — เมตริกผลกระทบต่อเนื่อง
  • "การประเมินผลอิสระของ OMT-1600 / Google Translate สำหรับภาษา [ภาษา]" — ทันเวลา มีการมองเห็นสูง

5.4 ผลกระทบต่อชุมชน

  • ชุมชนภาษาได้รับ ความสามารถในการประเมินผลอิสระ — สามารถประเมินได้ว่าระบบ MT ใด ๆ (Google, Meta หรือแบบกำหนดเอง) ทำงานได้จริงสำหรับภาษาของตนหรือไม่
  • ชุมชน ควบคุมข้อมูลทดสอบ ผ่านการดูแลคีย์เข้ารหัสลับ
  • วิธีการใด ๆ ที่พิสูจน์ผ่านเกณฑ์มาตรฐาน โอนกรรมสิทธิ์ไปยังชุมชน (ดู Benchmark Spec §8.3)
  • รายได้จากวิธีการที่ใช้งานจริงไหลไปยังชุมชน (การแบ่ง 90/10)

5.5 ต้นทุนสำหรับภาควิชา

ส่วนประกอบต้นทุนโดยประมาณใครจ่าย
เวลา PI/นักวิจัยหลังปริญญาเอก (การออกแบบ การดูแล)~40 ชั่วโมงภาควิชา (หรือได้รับทุนสนับสนุน)
ค่าตอบแทนผู้พูดภาษา (การแปล)$2,500–6,000ได้รับทุนสนับสนุนหรือ Champollion เป็นผู้จ่าย
ค่าตอบแทนผู้พูดภาษา (การตรวจสอบ)$500–1,500ได้รับทุนสนับสนุนหรือ Champollion เป็นผู้จ่าย
เวลาผู้ประสานงานวิจัย~20 ชั่วโมงภาควิชา
วิศวกรรม โครงสร้างพื้นฐาน harness$0โครงการ Champollion

เราจัดเตรียมวิศวกรรมทั้งหมด การกำหนดค่า harness การตั้งค่าเมตริก LYSS การรวม leaderboard และโครงสร้างพื้นฐานต่อเนื่องโดยไม่มีค่าใช้จ่ายสำหรับภาควิชา การมีส่วนร่วมของภาควิชาคือความเชี่ยวชาญทางภาษาศาสตร์และการเข้าถึงผู้พูดภาษา


6. ไทม์ไลน์

ระยะระยะเวลาเหตุการณ์สำคัญ
1: การออกแบบคลังข้อมูล2–4 สัปดาห์เอกสารออกแบบได้รับการอนุมัติ
2: ประโยคต้นทาง + การแปล4–8 สัปดาห์คลังข้อมูลดิบเสร็จสมบูรณ์
3: การประกันคุณภาพ2–4 สัปดาห์ตรวจสอบข้ามกัน ตรวจสอบสคีมาแล้ว
4: การปิดผนึก1 สัปดาห์มาตรฐานทองปิดผนึก เผยแพร่ hash manifest แล้ว
5: การรวมระบบ1–2 สัปดาห์ภาษาแสดงบน leaderboard พร้อมเกณฑ์มาตรฐาน
รวม10–19 สัปดาห์leaderboard แบบสดพร้อมการประเมินผลที่ปิดผนึก

7. วิธีเริ่มต้น

  1. ติดต่อเรา — [อีเมล/ช่องทางติดต่อโครงการ] เราจะนัดหมายการโทรประชุม 30 นาทีเพื่อหารือเกี่ยวกับภาษา ทรัพยากรที่มีอยู่ และรายละเอียดความร่วมมือ

  2. เราจัดเตรียม:

    • เอกสารนี้
    • สคีมาคลังข้อมูลและเครื่องมือตรวจสอบ
    • ตัวอย่างจากคลังข้อมูล Cree (CRK) ที่มีอยู่ของเรา
    • เทมเพลตออกแบบคลังข้อมูลฉบับร่าง
  3. คุณจัดเตรียม:

    • PI หรือนักวิจัยหลังปริญญาเอกเพื่อนำงานทางภาษาศาสตร์
    • การเข้าถึงผู้พูดสองภาษา (หรือแผนการสรรหา)
    • ข้อมูลเกี่ยวกับทรัพยากรที่มีอยู่ (FST พจนานุกรม คลังข้อมูลที่มีอยู่)
    • การอนุมัติจากสถาบันสำหรับการกำกับดูแลข้อมูล (การปฏิบัติตาม OCAP® หรือเทียบเท่า)
  4. เราออกแบบคลังข้อมูลร่วมกัน — การเลือกโดเมน การกระจายระดับความยาก การทดสอบวินิจฉัย ไทม์ไลน์ และงบประมาณ

  5. เริ่มงาน เราตรวจสอบทุกสัปดาห์ ภาควิชามีอำนาจตัดสินใจเต็มที่ในการตัดสินใจทางภาษาศาสตร์ เราดูแลวิศวกรรมทั้งหมด


8. คำถามที่พบบ่อย

"เรามีคลังข้อมูลคู่ขนานอยู่แล้ว สามารถใช้ได้หรือไม่?"

ได้ — หากคลังข้อมูลมีที่มาที่ชัดเจน เป็นงานของมนุษย์ และใบอนุญาตอนุญาตให้ใช้ในการประเมินผล เราจะช่วยจัดรูปแบบให้ตรงกับสคีมาของเรา เพิ่มข้อมูลเมตาที่ขาดหายไป และรวมเข้าระบบ คลังข้อมูลที่มีอยู่สามารถเร่งไทม์ไลน์ได้อย่างมาก (ข้ามระยะที่ 2 หรือลดเหลือเพียงการเติมช่องว่าง)

"เราไม่มี FST สำหรับภาษาของเรา"

ไม่เป็นไร LYSS-fst (ความถูกต้องทางสัณฐานวิทยา) ต้องการ FST แต่ harness ทำงานได้โดยไม่มีโดยใช้น้ำหนัก Profile B (chrF++, BLEU, COMET, เมตริกพฤติกรรม) หากมี GiellaLT FST สำหรับภาษาที่เกี่ยวข้อง เราอาจสามารถปรับใช้ได้ หากไม่มี คลังข้อมูลยังคงเปิดใช้งานการประเมินผลที่มีคุณค่า — เพียงแต่ไม่มีประตูตรวจสอบความถูกต้องทางสัณฐานวิทยา

"ผู้พูดภาษาของเราใช้อักษรที่ไม่ใช่ Latin"

รองรับอย่างสมบูรณ์ สคีมาคลังข้อมูลรองรับอักษร Unicode ใด ๆ เราออกแบบสำหรับ SRO (Standard Roman Orthography) และ syllabics สำหรับ Cree แต่โครงสร้างพื้นฐานเดียวกันทำงานได้กับ Devanagari อักษรอาหรับ CJK Ethiopic หรือระบบการเขียนอื่น ๆ

"แล้วความหลากหลายของภาษาถิ่นล่ะ?"

ติดแท็กไว้ สคีมารายการคลังข้อมูลมีฟิลด์ notes สำหรับข้อมูลภาษาถิ่น หากมีการแทนค่าหลายภาษาถิ่น ให้บันทึกไว้ คลาสความเท่าเทียมของ linter (LYSS-eq) สามารถกำหนดค่าให้ยอมรับรูปแบบภาษาถิ่นเป็นสิ่งที่เทียบเท่ากันได้ ชุดทดสอบวินิจฉัยสามารถรวมการเปรียบเทียบเฉพาะภาษาถิ่นได้

"ใครเป็นเจ้าของคลังข้อมูล?"

ชุมชนภาษา ผ่านองค์กรกำกับดูแล ภาควิชาได้รับการระบุเป็นพันธมิตรวิจัย Champollion ถือส่วนแบ่ง escrow key เพื่อความต่อเนื่องในการดำเนินงาน แต่ไม่สามารถเข้าถึงข้อมูลที่ปิดผนึกได้คนเดียว ส่วน development เผยแพร่ภายใต้ใบอนุญาต Creative Commons ที่ชุมชนกำหนด

"ถ้าเราต้องการหยุดล่ะ?"

ชุมชนสามารถเพิกถอนสิทธิ์การประเมินผลได้ตลอดเวลาโดยปฏิเสธการสร้างคีย์เข้ารหัสใหม่ ข้อมูลที่ปิดผนึกจะไม่ถูกเปิดเผยเลย ส่วน development ที่เผยแพร่แล้วยังคงเป็นสาธารณะภายใต้ใบอนุญาตของตน ผลลัพธ์การวิจัยของภาควิชา (สิ่งตีพิมพ์ การนำเสนอ) เป็นของภาควิชาที่จะเก็บไว้ไม่ว่าจะเกิดอะไรขึ้น

"ถ้าองค์กรกำกับดูแลยังไม่มีอยู่ล่ะ?"

เราสามารถเริ่มต้นด้วยระยะที่ 1–3 (การออกแบบคลังข้อมูล การสร้าง การประกันคุณภาพ) โดยไม่มีองค์กรกำกับดูแล การปิดผนึก (ระยะที่ 4) ต้องการการระบุผู้ดูแลคีย์ ในระหว่างนี้ ภาควิชาสามารถทำหน้าที่เป็นผู้ดูแลร่วมควบคู่กับโครงการ Champollion โดยมีความเข้าใจว่าการดูแลจะโอนไปยังองค์กรกำกับดูแลชุมชนเมื่อมีการจัดตั้งขึ้น


ภาคผนวก: การติดแท็กเทียบกับการสร้างคลังข้อมูล

เอกสารนี้ครอบคลุม การสร้างคลังข้อมูล — การสร้างคู่ข้อความคู่ขนานที่เป็นมาตรฐานอ้างอิงสำหรับการประเมินผล การติดแท็ก (การอธิบายทางสัณฐานวิทยา การอธิบายแบบ interlinear gloss สตริงแท็ก FST) เป็นกิจกรรมแยกต่างหากที่เพิ่มคุณค่าให้คลังข้อมูลแต่ไม่จำเป็นสำหรับการประเมินผลพื้นฐาน

กิจกรรมจำเป็นหรือไม่?สิ่งที่เปิดใช้งาน
การสร้างคลังข้อมูล (เอกสารนี้)✅ จำเป็นการประเมินผลพื้นฐาน: chrF++, exact match, COMET, เมตริกพฤติกรรม
การตรวจสอบความครอบคลุม FST🟡 ไม่บังคับเมตริกความถูกต้องทางสัณฐานวิทยา LYSS-fst
การอธิบายทางสัณฐานวิทยา🟡 ไม่บังคับเมตริก morphological_accuracy (Scoring Spec §2.2)
กฎความเท่าเทียมของ linter🟡 ไม่บังคับเมตริก equivalent match ของ LYSS-eq
กฎตัวตรวจสอบความหมาย🟡 ไม่บังคับเมตริกการตรวจสอบความหมาย LYSS-sem
การให้คะแนนคุณภาพโดยผู้พูดภาษากิจกรรมแยกต่างหากการตรวจสอบเมตริก (ดู โปรโตคอลการตรวจสอบโดยผู้พูดภาษา)

การติดแท็กและการตรวจสอบโดยผู้พูดภาษาครอบคลุมโดยเอกสารแยกต่างหากและสามารถดำเนินการควบคู่กับหรือหลังจากการสร้างคลังข้อมูล