โปรโตคอลการตรวจสอบความถูกต้องโดยผู้พูดภาษา
วัตถุประสงค์ เอกสารนี้กำหนดสิ่งที่เราต้องการจากผู้พูดภาษา Cree–English แบบสองภาษาเพื่อตรวจสอบความถูกต้องของเมตริกการประเมิน LYSS หากปราศจากการตรวจสอบนี้ คะแนนอัตโนมัติของเราจะเป็นเพียงการประมาณการทางวิศวกรรม ไม่ใช่การวัดคุณภาพที่ได้รับการพิสูจน์แล้ว นี่คือช่องว่างที่สำคัญที่สุดในโครงการ
กลุ่มเป้าหมาย พันธมิตรชุมชน ผู้ร่วมมือที่มีศักยภาพ ผู้ตรวจสอบทุน และทีมโครงการ
อัปเดตล่าสุด: 2026-06-07
1. เหตุใดเราจึงต้องการผู้พูดภาษา
กรอบการประเมิน LYSS (Linguistically-informed Yield & Structural Scoring) คำนวณคะแนนคุณภาพอัตโนมัติสำหรับการแปลภาษาอังกฤษ → Plains Cree โดยใช้สัญญาณหลักสามประการ:
- LYSS-fst: ผลลัพธ์มีคำภาษา Cree ที่ถูกต้องหรือไม่? (ตรวจสอบโดย GiellaLT finite-state transducer)
- LYSS-eq: ผลลัพธ์เป็นรูปแบบที่ยอมรับได้ของการแปลอ้างอิงหรือไม่? (ตรวจสอบโดยคลาสความเท่าเทียมของ linter)
- LYSS-sem: ผลลัพธ์รักษาความหมายของต้นฉบับไว้หรือไม่? (ตรวจสอบโดย semantic validator)
เมตริกเหล่านี้ผลิตตัวเลขออกมา แต่เราไม่ทราบว่าตัวเลขเหล่านั้นมีความหมายหรือไม่ FST อาจปฏิเสธคำภาษา Cree ที่ถูกต้องซึ่งไม่รู้จัก (คำยืม นีโอโลยิซึม คำนามเฉพาะ) linter อาจพลาดความเท่าเทียมที่ถูกต้องหรือยอมรับความเท่าเทียมที่ไม่ถูกต้อง semantic validator อาจตัดสินความหมายผิดพลาด จนกว่าผู้พูดภาษาสองภาษาจะบอกเราว่าคะแนนอัตโนมัติของเราสอดคล้องกับการตัดสินคุณภาพการแปลของมนุษย์หรือไม่ เราก็ยังคงเป็นเพียงการคาดเดา
เมตริกการประเมิน MT หลักทุกตัว (BLEU, COMET, chrF++) ได้รับการตรวจสอบความถูกต้องโดยการเปรียบเทียบคะแนนอัตโนมัติกับการประเมินคุณภาพโดยมนุษย์หลายพันรายการ เราต้องการสิ่งเดียวกัน — ในระดับที่เล็กกว่า เนื่องจากทรัพยากรของเรามีจำกัด แต่ด้วยความเข้มงวดในระดับเดียวกัน
2. สิ่งที่เราต้องการ: สามงาน
งาน A: การให้คะแนนคุณภาพการแปล (หลัก — รวมประมาณ 8 ชั่วโมง)
เนื้อหา: ให้คะแนนการแปลภาษาอังกฤษ → Cree ที่สร้างโดยเครื่อง 200 รายการในสองมาตราส่วน
ผู้ดำเนินการ: ผู้พูดภาษา Plains Cree–English แบบสองภาษา 3 คนขึ้นไป ที่มีความคล่องแคล่วในการอ่าน SRO (Standard Roman Orthography)
วิธีการดำเนินงาน:
-
เราจัดเตรียมสเปรดชีตหรือแบบฟอร์มเว็บที่มี 200 แถว แต่ละแถวประกอบด้วย:
- ประโยคต้นฉบับภาษาอังกฤษ
- การแปลภาษา Cree ที่สร้างโดยเครื่อง
- (ตัวเลือก) การแปลอ้างอิงภาษา Cree สำหรับการเปรียบเทียบ
-
สำหรับการแปลแต่ละรายการ ผู้พูดจะให้คะแนนสองด้าน:
ความเพียงพอ (เนื้อหาถูกต้องหรือไม่?):
คะแนน ป้ายกำกับ ความหมาย 1 ไม่มีเลย การแปลไม่มีความเกี่ยวข้องกับต้นฉบับ 2 น้อย คำบางคำตรงกันแต่ความหมายโดยรวมผิด 3 มาก ความหมายหลักมีอยู่แต่ส่วนสำคัญขาดหายหรือผิดพลาด 4 เกือบทั้งหมด เกือบทุกอย่างถูกต้อง มีช่องว่างความหมายเล็กน้อย 5 ทั้งหมด การแปลถ่ายทอดความหมายของต้นฉบับได้ครบถ้วน ความคล่องแคล่ว (ฟังดูเหมือนภาษา Cree จริงหรือไม่?):
คะแนน ป้ายกำกับ ความหมาย 1 เข้าใจไม่ได้เลย นี่ไม่ใช่ภาษา Cree 2 ไม่คล่อง คำแต่ละคำอาจเป็นภาษา Cree แต่ประโยคขาดความต่อเนื่อง 3 ไม่เป็นธรรมชาติ เข้าใจได้แต่ไม่ใช่วิธีที่ผู้พูดภาษา Cree จะพูด 4 ดี ฟังดูเป็นธรรมชาติโดยมีความงุ่มง่ามเล็กน้อย 5 สมบูรณ์แบบ ผู้พูดภาษา Cree สามารถเขียนประโยคนี้ได้ -
ผู้พูดสามารถเพิ่มหมายเหตุข้อความอิสระเพื่ออธิบายการให้คะแนนได้ (ตัวเลือก) (เช่น "การลงรูปกริยาสำหรับ animate/inanimate ผิด" "นี่คือ th-dialect แต่ฉันให้คะแนนตาม y-dialect")
การประมาณเวลา: ~2.5 นาทีต่อการแปล × 200 การแปล = ~8 ชั่วโมง สามารถแบ่งออกเป็นหลายช่วง (เช่น 4 ช่วง × 2 ชั่วโมง ใน 2 สัปดาห์)
ค่าตอบแทน: $50–65 CAD/ชั่วโมง (ตาม BENCHMARK_SPEC §10.3 อัตราค่าตอบแทนผู้พูด) รวมต่อผู้พูด: $400–520 CAD สำหรับ 3 ผู้พูด: $1,200–1,560 CAD
สิ่งที่เราทำกับข้อมูล: เราคำนวณความสัมพันธ์ระหว่างคะแนน LYSS อัตโนมัติและการให้คะแนนของผู้พูด หาก LYSS-fst มีความสัมพันธ์กับการให้คะแนนความคล่องแคล่ว และ LYSS-sem มีความสัมพันธ์กับการให้คะแนนความเพียงพอ เมตริกก็ได้รับการตรวจสอบความถูกต้องแล้ว หากไม่เป็นเช่นนั้น เราจะทราบว่าต้องแก้ไขส่วนใด
งาน B: การตรวจสอบความเท่าเทียมของ Linter (~2 ชั่วโมง)
เนื้อหา: ตรวจสอบคู่การแปลภาษา Cree 50 คู่ที่ linter ของเราจัดประเภทว่า "เท่าเทียมกัน" และบอกเราว่าคู่เหล่านั้นมีความหมายเดียวกันจริงหรือไม่
ผู้ดำเนินการ: ผู้พูดภาษาสองภาษา 1–2 คน (สามารถเป็นผู้พูดคนเดียวกับงาน A)
วิธีการดำเนินงาน:
-
เราจัดเตรียม 50 คู่ แต่ละคู่ประกอบด้วย:
- ต้นฉบับภาษาอังกฤษ
- การแปล A (การแปลอ้างอิง)
- การแปล B (รูปแบบที่ linter ของเราระบุว่าเท่าเทียมกัน)
- เหตุผลของความเท่าเทียม (เช่น "การสลับลำดับคำ" "รูปแบบการสะกด" "การลบอนุภาคที่ไม่บังคับ")
-
สำหรับแต่ละคู่ ผู้พูดจะตอบคำถาม:
- ความหมายเดียวกันหรือไม่? ใช่ / ไม่ใช่ / ขึ้นอยู่กับบริบท
- ทั้งคู่เป็นธรรมชาติหรือไม่? ใช่ / A ดีกว่า / B ดีกว่า / ไม่มีอันใดเป็นธรรมชาติ
- หมายเหตุ (ข้อความอิสระ ตัวเลือก)
การประมาณเวลา: ~2 นาทีต่อคู่ × 50 คู่ = ~2 ชั่วโมง
ค่าตอบแทน: $50–65 CAD/ชั่วโมง × 2 ชั่วโมง = $100–130 CAD ต่อผู้พูด
สิ่งที่เราทำกับข้อมูล: เราคำนวณความแม่นยำของแต่ละคลาสความเท่าเทียม หากผู้พูดระบุว่า 90% ของความเท่าเทียม "ลำดับคำ" เป็นความเท่าเทียมที่แท้จริง คลาสนั้นก็ได้รับการตรวจสอบความถูกต้องแล้ว หากผู้พูดระบุว่า 40% ของความเท่าเทียม "คำพ้องความหมาย lemma" ผิดพลาด เราก็ทราบว่าต้องแก้ไขหรือลบคลาสนั้น
งาน C: การตรวจสอบการปฏิเสธผิดพลาดของ FST (~1.5 ชั่วโมง)
เนื้อหา: ตรวจสอบคำภาษา Cree 100 คำที่ FST analyzer ปฏิเสธ (ระบุว่าไม่ใช่คำภาษา Cree ที่ถูกต้อง) และบอกเราว่าคำเหล่านั้นถูกต้องจริงหรือไม่
ผู้ดำเนินการ: ผู้พูดภาษาสองภาษา 1 คน ที่มีความรู้คำศัพท์ภาษา Cree ที่แข็งแกร่ง
วิธีการดำเนินงาน:
- เราเรียกใช้ FST analyzer กับคลังข้อมูลมาตรฐานทองคำ EDTeKLA ที่มี 436 รายการ และรวบรวมทุกคำที่ถูกปฏิเสธ
- เราแสดงคำที่ถูกปฏิเสธสูงสุด 100 คำพร้อมบริบทประโยคให้ผู้พูด
- สำหรับแต่ละคำ ผู้พูดจะตอบคำถาม:
- คำนี้เป็นคำภาษา Cree ที่ถูกต้องหรือไม่? ใช่ / ไม่ใช่ / ไม่แน่ใจ
- ถ้าใช่ เป็นประเภทใด? คำที่ใช้กันทั่วไป / คำยืม / ชื่อเฉพาะ / รูปแบบภาษาถิ่น / นีโอโลยิซึม / อื่นๆ
- หมายเหตุ (ตัวเลือก)
การประมาณเวลา: ~1 นาทีต่อคำ × 100 คำ = ~1.5 ชั่วโมง
ค่าตอบแทน: $50–65 CAD/ชั่วโมง × 1.5 ชั่วโมง = $75–100 CAD
สิ่งที่เราทำกับข้อมูล: เราคำนวณอัตราการปฏิเสธผิดพลาดของ FST หาก FST ปฏิเสธ 50 คำและผู้พูดระบุว่า 30 คำถูกต้อง อัตราการปฏิเสธผิดพลาดคือ 60% — สูงเกินไปจนยอมรับไม่ได้ ต้องการ allowlist สำหรับคำยืม/ข้อยกเว้น หากผู้พูดระบุว่ามีเพียง 5 คำที่ถูกต้อง อัตราการปฏิเสธผิดพลาดคือ 10% — เมตริกมีความน่าเชื่อถือ
3. ภาระผูกพันรวมของผู้พูด
| งาน | จำนวนผู้พูดที่ต้องการ | ชั่วโมงต่อผู้พูด | ค่าใช้จ่ายต่อผู้พูด | ค่าใช้จ่ายรวม |
|---|---|---|---|---|
| A: การให้คะแนนคุณภาพ | 3 | ~8 ชั่วโมง | $400–520 | $1,200–1,560 |
| B: การตรวจสอบ Linter | 2 | ~2 ชั่วโมง | $100–130 | $200–260 |
| C: การตรวจสอบ FST | 1 | ~1.5 ชั่วโมง | $75–100 | $75–100 |
| รวม | 3 ผู้พูด | ~11.5 ชั่วโมง (สูงสุดต่อผู้พูด) | $575–750 (สูงสุด) | $1,475–1,920 |
หากผู้พูด 3 คนเดิมทำทุกงาน: ~11.5 ชั่วโมงต่อคนใน 2–4 สัปดาห์ $575–750 ต่อคน
ผู้พูดคนเดียวที่ทำเฉพาะงาน A จะใช้เวลา ~8 ชั่วโมงใน 2 สัปดาห์ ได้รับ $400–520
4. คุณสมบัติของผู้พูด
ที่จำเป็น:
- พูดภาษา Plains Cree และภาษาอังกฤษได้สองภาษา
- มีความคล่องแคล่วในการอ่าน SRO (Standard Roman Orthography)
- สามารถให้คะแนนการแปลตามมาตราส่วนที่กำหนดได้
ที่ต้องการ:
- มีประสบการณ์กับ y-dialect (ภาษาถิ่นที่ใช้ในคลังอ้างอิงของเราจาก EDTeKLA)
- มีประสบการณ์ด้านการสอนหรือการแปล (ให้การตัดสินคุณภาพที่ผ่านการปรับเทียบแล้ว)
- คุ้นเคยกับรูปแบบภาษาที่แตกต่างกัน (ทางการ การศึกษา การสนทนา)
ที่ไม่จำเป็น:
- ความรู้ด้านเทคนิคหรือ NLP (เราจัดเตรียมเครื่องมือและบริบททั้งหมด)
- ทักษะการคำนวณ (อินเทอร์เฟซการให้คะแนนจะเป็นสเปรดชีตหรือแบบฟอร์มเว็บที่เรียบง่าย)
- การมีส่วนร่วมก่อนหน้านี้กับโครงการ Champollion
5. การกำกับดูแลข้อมูล
การมีส่วนร่วมของผู้พูดทั้งหมดอยู่ภายใต้นโยบายข้อมูลที่มุ่งเน้น OCAP® ของโครงการ:
- ความเป็นเจ้าของ: การให้คะแนนคุณภาพของผู้พูดยังคงเป็นผลงานทางปัญญาของพวกเขา พวกเขาได้รับการระบุชื่อ (หรือไม่ระบุชื่อ ตามที่ต้องการ) ในสิ่งพิมพ์ใดๆ
- การควบคุม: ผู้พูดสามารถถอนการให้คะแนนได้ตลอดเวลา การถอนจะลบข้อมูลของพวกเขาออกจากการวิเคราะห์ทั้งหมด
- การเข้าถึง: ข้อมูลการให้คะแนนจัดเก็บบนโครงสร้างพื้นฐานที่ควบคุมโดยองค์กรกำกับดูแลชุมชน (เมื่อจัดตั้งแล้ว) หรือบนแพลตฟอร์มที่ผู้พูดต้องการ
- การครอบครอง: ข้อมูลการให้คะแนนดิบจะไม่ถูกเผยแพร่ มีเพียงสถิติรวม (ความสัมพันธ์ ความสอดคล้องระหว่างผู้ให้คำอธิบาย) ที่ปรากฏในสิ่งพิมพ์
- ค่าตอบแทน: ผู้พูดได้รับค่าตอบแทนสำหรับเวลาของพวกเขาโดยไม่คำนึงว่าเราจะใช้การให้คะแนนของพวกเขาหรือไม่ การชำระเงินไม่ขึ้นอยู่กับผลลัพธ์
6. สิ่งที่ผู้พูดได้รับ
นอกเหนือจากค่าตอบแทน:
- การเป็นผู้ร่วมเขียน ในสิ่งพิมพ์ใดๆ ที่ใช้การให้คะแนนของพวกเขา (หากต้องการ)
- การรับทราบ ในเอกสารโครงการทั้งหมด
- การเข้าถึงก่อน เครื่องมือการประเมินและผลลัพธ์
- การมีส่วนร่วม ในวิธีการใช้เมตริก — หากผู้พูดระบุว่า "linter ของคุณผิดเกี่ยวกับ X" เราจะแก้ไข linter
- อำนาจยับยั้ง การเผยแพร่ผลลัพธ์ที่พวกเขาพบว่ามีปัญหา
7. วิธีเริ่มต้น
หากคุณเป็นผู้พูดภาษา Cree–English แบบสองภาษาที่สนใจเข้าร่วม หรือหากคุณรู้จักผู้ที่อาจสนใจ:
- ติดต่อเรา ที่ [อีเมล/ช่องทางติดต่อโครงการ] — ไม่ต้องผูกมัด เพียงแค่การสนทนา
- เราอธิบายงาน ด้วยภาษาที่เข้าใจง่าย (ไม่มีศัพท์เทคนิค)
- คุณเลือกงาน ที่สนใจ (A, B, C หรือการผสมผสานใดก็ได้)
- เราจัดตารางเวลา ที่เหมาะกับคุณ (ช่วง 2 ชั่วโมง เวลาที่ยืดหยุ่น)
- คุณให้คะแนนการแปล ผ่านสเปรดชีตหรือแบบฟอร์มเว็บ — จากที่ไหนก็ได้ ในเวลาของคุณเอง
- เราชำระเงินอย่างรวดเร็ว — ภายใน 2 สัปดาห์หลังจากเสร็จสิ้นแต่ละช่วงงาน
8. สิ่งที่เกิดขึ้นหลังจากนั้น
ด้วยข้อมูลการตรวจสอบความถูกต้องจากผู้พูด เราสามารถ:
- เผยแพร่ความสัมพันธ์ของเมตริก — พิสูจน์ (หรือหักล้าง) ว่าคะแนน LYSS สะท้อนการตัดสินของมนุษย์
- ปรับเทียบเมตริกใหม่ — ปรับน้ำหนัก เกณฑ์ และคลาสความเท่าเทียมตามข้อเสนอแนะของผู้พูด
- แก้ไข linter — ลบความเท่าเทียมที่ผิดพลาด เพิ่มความเท่าเทียมที่ขาดหายไป
- แก้ไข FST allowlist — เพิ่มคำที่ถูกต้องที่ FST ปฏิเสธอย่างไม่ถูกต้อง
- ส่งไปยังสถานที่ทางวิชาการ — โดยมีผู้พูดเป็นผู้ร่วมเขียน เพื่อสถาปนา LYSS เป็นเมตริกที่ผ่านการตรวจสอบความถูกต้องสำหรับการประเมิน MT ในภาษาโพลีซินเทติก
หากปราศจากการตรวจสอบความถูกต้องจากผู้พูด LYSS จะยังคงเป็นเครื่องมือทางวิศวกรรม แต่เมื่อมีการตรวจสอบแล้ว LYSS จะกลายเป็นเมตริกการประเมินที่มีพื้นฐานทางวิทยาศาสตร์ นั่นคือความแตกต่างระหว่าง "เราสร้างบางอย่างขึ้นมา" กับ "เราพิสูจน์ว่ามันใช้งานได้"