ข้ามไปยังเนื้อหาหลัก

โปรโตคอลการตรวจสอบความถูกต้องโดยผู้พูดภาษา

วัตถุประสงค์ เอกสารนี้กำหนดสิ่งที่เราต้องการจากผู้พูดภาษา Cree–English แบบสองภาษาเพื่อตรวจสอบความถูกต้องของเมตริกการประเมิน LYSS หากปราศจากการตรวจสอบนี้ คะแนนอัตโนมัติของเราจะเป็นเพียงการประมาณการทางวิศวกรรม ไม่ใช่การวัดคุณภาพที่ได้รับการพิสูจน์แล้ว นี่คือช่องว่างที่สำคัญที่สุดในโครงการ

กลุ่มเป้าหมาย พันธมิตรชุมชน ผู้ร่วมมือที่มีศักยภาพ ผู้ตรวจสอบทุน และทีมโครงการ

อัปเดตล่าสุด: 2026-06-07


1. เหตุใดเราจึงต้องการผู้พูดภาษา

กรอบการประเมิน LYSS (Linguistically-informed Yield & Structural Scoring) คำนวณคะแนนคุณภาพอัตโนมัติสำหรับการแปลภาษาอังกฤษ → Plains Cree โดยใช้สัญญาณหลักสามประการ:

  • LYSS-fst: ผลลัพธ์มีคำภาษา Cree ที่ถูกต้องหรือไม่? (ตรวจสอบโดย GiellaLT finite-state transducer)
  • LYSS-eq: ผลลัพธ์เป็นรูปแบบที่ยอมรับได้ของการแปลอ้างอิงหรือไม่? (ตรวจสอบโดยคลาสความเท่าเทียมของ linter)
  • LYSS-sem: ผลลัพธ์รักษาความหมายของต้นฉบับไว้หรือไม่? (ตรวจสอบโดย semantic validator)

เมตริกเหล่านี้ผลิตตัวเลขออกมา แต่เราไม่ทราบว่าตัวเลขเหล่านั้นมีความหมายหรือไม่ FST อาจปฏิเสธคำภาษา Cree ที่ถูกต้องซึ่งไม่รู้จัก (คำยืม นีโอโลยิซึม คำนามเฉพาะ) linter อาจพลาดความเท่าเทียมที่ถูกต้องหรือยอมรับความเท่าเทียมที่ไม่ถูกต้อง semantic validator อาจตัดสินความหมายผิดพลาด จนกว่าผู้พูดภาษาสองภาษาจะบอกเราว่าคะแนนอัตโนมัติของเราสอดคล้องกับการตัดสินคุณภาพการแปลของมนุษย์หรือไม่ เราก็ยังคงเป็นเพียงการคาดเดา

เมตริกการประเมิน MT หลักทุกตัว (BLEU, COMET, chrF++) ได้รับการตรวจสอบความถูกต้องโดยการเปรียบเทียบคะแนนอัตโนมัติกับการประเมินคุณภาพโดยมนุษย์หลายพันรายการ เราต้องการสิ่งเดียวกัน — ในระดับที่เล็กกว่า เนื่องจากทรัพยากรของเรามีจำกัด แต่ด้วยความเข้มงวดในระดับเดียวกัน


2. สิ่งที่เราต้องการ: สามงาน

งาน A: การให้คะแนนคุณภาพการแปล (หลัก — รวมประมาณ 8 ชั่วโมง)

เนื้อหา: ให้คะแนนการแปลภาษาอังกฤษ → Cree ที่สร้างโดยเครื่อง 200 รายการในสองมาตราส่วน

ผู้ดำเนินการ: ผู้พูดภาษา Plains Cree–English แบบสองภาษา 3 คนขึ้นไป ที่มีความคล่องแคล่วในการอ่าน SRO (Standard Roman Orthography)

วิธีการดำเนินงาน:

  1. เราจัดเตรียมสเปรดชีตหรือแบบฟอร์มเว็บที่มี 200 แถว แต่ละแถวประกอบด้วย:

    • ประโยคต้นฉบับภาษาอังกฤษ
    • การแปลภาษา Cree ที่สร้างโดยเครื่อง
    • (ตัวเลือก) การแปลอ้างอิงภาษา Cree สำหรับการเปรียบเทียบ
  2. สำหรับการแปลแต่ละรายการ ผู้พูดจะให้คะแนนสองด้าน:

    ความเพียงพอ (เนื้อหาถูกต้องหรือไม่?):

    คะแนนป้ายกำกับความหมาย
    1ไม่มีเลยการแปลไม่มีความเกี่ยวข้องกับต้นฉบับ
    2น้อยคำบางคำตรงกันแต่ความหมายโดยรวมผิด
    3มากความหมายหลักมีอยู่แต่ส่วนสำคัญขาดหายหรือผิดพลาด
    4เกือบทั้งหมดเกือบทุกอย่างถูกต้อง มีช่องว่างความหมายเล็กน้อย
    5ทั้งหมดการแปลถ่ายทอดความหมายของต้นฉบับได้ครบถ้วน

    ความคล่องแคล่ว (ฟังดูเหมือนภาษา Cree จริงหรือไม่?):

    คะแนนป้ายกำกับความหมาย
    1เข้าใจไม่ได้เลยนี่ไม่ใช่ภาษา Cree
    2ไม่คล่องคำแต่ละคำอาจเป็นภาษา Cree แต่ประโยคขาดความต่อเนื่อง
    3ไม่เป็นธรรมชาติเข้าใจได้แต่ไม่ใช่วิธีที่ผู้พูดภาษา Cree จะพูด
    4ดีฟังดูเป็นธรรมชาติโดยมีความงุ่มง่ามเล็กน้อย
    5สมบูรณ์แบบผู้พูดภาษา Cree สามารถเขียนประโยคนี้ได้
  3. ผู้พูดสามารถเพิ่มหมายเหตุข้อความอิสระเพื่ออธิบายการให้คะแนนได้ (ตัวเลือก) (เช่น "การลงรูปกริยาสำหรับ animate/inanimate ผิด" "นี่คือ th-dialect แต่ฉันให้คะแนนตาม y-dialect")

การประมาณเวลา: ~2.5 นาทีต่อการแปล × 200 การแปล = ~8 ชั่วโมง สามารถแบ่งออกเป็นหลายช่วง (เช่น 4 ช่วง × 2 ชั่วโมง ใน 2 สัปดาห์)

ค่าตอบแทน: $50–65 CAD/ชั่วโมง (ตาม BENCHMARK_SPEC §10.3 อัตราค่าตอบแทนผู้พูด) รวมต่อผู้พูด: $400–520 CAD สำหรับ 3 ผู้พูด: $1,200–1,560 CAD

สิ่งที่เราทำกับข้อมูล: เราคำนวณความสัมพันธ์ระหว่างคะแนน LYSS อัตโนมัติและการให้คะแนนของผู้พูด หาก LYSS-fst มีความสัมพันธ์กับการให้คะแนนความคล่องแคล่ว และ LYSS-sem มีความสัมพันธ์กับการให้คะแนนความเพียงพอ เมตริกก็ได้รับการตรวจสอบความถูกต้องแล้ว หากไม่เป็นเช่นนั้น เราจะทราบว่าต้องแก้ไขส่วนใด


งาน B: การตรวจสอบความเท่าเทียมของ Linter (~2 ชั่วโมง)

เนื้อหา: ตรวจสอบคู่การแปลภาษา Cree 50 คู่ที่ linter ของเราจัดประเภทว่า "เท่าเทียมกัน" และบอกเราว่าคู่เหล่านั้นมีความหมายเดียวกันจริงหรือไม่

ผู้ดำเนินการ: ผู้พูดภาษาสองภาษา 1–2 คน (สามารถเป็นผู้พูดคนเดียวกับงาน A)

วิธีการดำเนินงาน:

  1. เราจัดเตรียม 50 คู่ แต่ละคู่ประกอบด้วย:

    • ต้นฉบับภาษาอังกฤษ
    • การแปล A (การแปลอ้างอิง)
    • การแปล B (รูปแบบที่ linter ของเราระบุว่าเท่าเทียมกัน)
    • เหตุผลของความเท่าเทียม (เช่น "การสลับลำดับคำ" "รูปแบบการสะกด" "การลบอนุภาคที่ไม่บังคับ")
  2. สำหรับแต่ละคู่ ผู้พูดจะตอบคำถาม:

    • ความหมายเดียวกันหรือไม่? ใช่ / ไม่ใช่ / ขึ้นอยู่กับบริบท
    • ทั้งคู่เป็นธรรมชาติหรือไม่? ใช่ / A ดีกว่า / B ดีกว่า / ไม่มีอันใดเป็นธรรมชาติ
    • หมายเหตุ (ข้อความอิสระ ตัวเลือก)

การประมาณเวลา: ~2 นาทีต่อคู่ × 50 คู่ = ~2 ชั่วโมง

ค่าตอบแทน: $50–65 CAD/ชั่วโมง × 2 ชั่วโมง = $100–130 CAD ต่อผู้พูด

สิ่งที่เราทำกับข้อมูล: เราคำนวณความแม่นยำของแต่ละคลาสความเท่าเทียม หากผู้พูดระบุว่า 90% ของความเท่าเทียม "ลำดับคำ" เป็นความเท่าเทียมที่แท้จริง คลาสนั้นก็ได้รับการตรวจสอบความถูกต้องแล้ว หากผู้พูดระบุว่า 40% ของความเท่าเทียม "คำพ้องความหมาย lemma" ผิดพลาด เราก็ทราบว่าต้องแก้ไขหรือลบคลาสนั้น


งาน C: การตรวจสอบการปฏิเสธผิดพลาดของ FST (~1.5 ชั่วโมง)

เนื้อหา: ตรวจสอบคำภาษา Cree 100 คำที่ FST analyzer ปฏิเสธ (ระบุว่าไม่ใช่คำภาษา Cree ที่ถูกต้อง) และบอกเราว่าคำเหล่านั้นถูกต้องจริงหรือไม่

ผู้ดำเนินการ: ผู้พูดภาษาสองภาษา 1 คน ที่มีความรู้คำศัพท์ภาษา Cree ที่แข็งแกร่ง

วิธีการดำเนินงาน:

  1. เราเรียกใช้ FST analyzer กับคลังข้อมูลมาตรฐานทองคำ EDTeKLA ที่มี 436 รายการ และรวบรวมทุกคำที่ถูกปฏิเสธ
  2. เราแสดงคำที่ถูกปฏิเสธสูงสุด 100 คำพร้อมบริบทประโยคให้ผู้พูด
  3. สำหรับแต่ละคำ ผู้พูดจะตอบคำถาม:
    • คำนี้เป็นคำภาษา Cree ที่ถูกต้องหรือไม่? ใช่ / ไม่ใช่ / ไม่แน่ใจ
    • ถ้าใช่ เป็นประเภทใด? คำที่ใช้กันทั่วไป / คำยืม / ชื่อเฉพาะ / รูปแบบภาษาถิ่น / นีโอโลยิซึม / อื่นๆ
    • หมายเหตุ (ตัวเลือก)

การประมาณเวลา: ~1 นาทีต่อคำ × 100 คำ = ~1.5 ชั่วโมง

ค่าตอบแทน: $50–65 CAD/ชั่วโมง × 1.5 ชั่วโมง = $75–100 CAD

สิ่งที่เราทำกับข้อมูล: เราคำนวณอัตราการปฏิเสธผิดพลาดของ FST หาก FST ปฏิเสธ 50 คำและผู้พูดระบุว่า 30 คำถูกต้อง อัตราการปฏิเสธผิดพลาดคือ 60% — สูงเกินไปจนยอมรับไม่ได้ ต้องการ allowlist สำหรับคำยืม/ข้อยกเว้น หากผู้พูดระบุว่ามีเพียง 5 คำที่ถูกต้อง อัตราการปฏิเสธผิดพลาดคือ 10% — เมตริกมีความน่าเชื่อถือ


3. ภาระผูกพันรวมของผู้พูด

งานจำนวนผู้พูดที่ต้องการชั่วโมงต่อผู้พูดค่าใช้จ่ายต่อผู้พูดค่าใช้จ่ายรวม
A: การให้คะแนนคุณภาพ3~8 ชั่วโมง$400–520$1,200–1,560
B: การตรวจสอบ Linter2~2 ชั่วโมง$100–130$200–260
C: การตรวจสอบ FST1~1.5 ชั่วโมง$75–100$75–100
รวม3 ผู้พูด~11.5 ชั่วโมง (สูงสุดต่อผู้พูด)$575–750 (สูงสุด)$1,475–1,920

หากผู้พูด 3 คนเดิมทำทุกงาน: ~11.5 ชั่วโมงต่อคนใน 2–4 สัปดาห์ $575–750 ต่อคน

ผู้พูดคนเดียวที่ทำเฉพาะงาน A จะใช้เวลา ~8 ชั่วโมงใน 2 สัปดาห์ ได้รับ $400–520


4. คุณสมบัติของผู้พูด

ที่จำเป็น:

  • พูดภาษา Plains Cree และภาษาอังกฤษได้สองภาษา
  • มีความคล่องแคล่วในการอ่าน SRO (Standard Roman Orthography)
  • สามารถให้คะแนนการแปลตามมาตราส่วนที่กำหนดได้

ที่ต้องการ:

  • มีประสบการณ์กับ y-dialect (ภาษาถิ่นที่ใช้ในคลังอ้างอิงของเราจาก EDTeKLA)
  • มีประสบการณ์ด้านการสอนหรือการแปล (ให้การตัดสินคุณภาพที่ผ่านการปรับเทียบแล้ว)
  • คุ้นเคยกับรูปแบบภาษาที่แตกต่างกัน (ทางการ การศึกษา การสนทนา)

ที่ไม่จำเป็น:

  • ความรู้ด้านเทคนิคหรือ NLP (เราจัดเตรียมเครื่องมือและบริบททั้งหมด)
  • ทักษะการคำนวณ (อินเทอร์เฟซการให้คะแนนจะเป็นสเปรดชีตหรือแบบฟอร์มเว็บที่เรียบง่าย)
  • การมีส่วนร่วมก่อนหน้านี้กับโครงการ Champollion

5. การกำกับดูแลข้อมูล

การมีส่วนร่วมของผู้พูดทั้งหมดอยู่ภายใต้นโยบายข้อมูลที่มุ่งเน้น OCAP® ของโครงการ:

  • ความเป็นเจ้าของ: การให้คะแนนคุณภาพของผู้พูดยังคงเป็นผลงานทางปัญญาของพวกเขา พวกเขาได้รับการระบุชื่อ (หรือไม่ระบุชื่อ ตามที่ต้องการ) ในสิ่งพิมพ์ใดๆ
  • การควบคุม: ผู้พูดสามารถถอนการให้คะแนนได้ตลอดเวลา การถอนจะลบข้อมูลของพวกเขาออกจากการวิเคราะห์ทั้งหมด
  • การเข้าถึง: ข้อมูลการให้คะแนนจัดเก็บบนโครงสร้างพื้นฐานที่ควบคุมโดยองค์กรกำกับดูแลชุมชน (เมื่อจัดตั้งแล้ว) หรือบนแพลตฟอร์มที่ผู้พูดต้องการ
  • การครอบครอง: ข้อมูลการให้คะแนนดิบจะไม่ถูกเผยแพร่ มีเพียงสถิติรวม (ความสัมพันธ์ ความสอดคล้องระหว่างผู้ให้คำอธิบาย) ที่ปรากฏในสิ่งพิมพ์
  • ค่าตอบแทน: ผู้พูดได้รับค่าตอบแทนสำหรับเวลาของพวกเขาโดยไม่คำนึงว่าเราจะใช้การให้คะแนนของพวกเขาหรือไม่ การชำระเงินไม่ขึ้นอยู่กับผลลัพธ์

6. สิ่งที่ผู้พูดได้รับ

นอกเหนือจากค่าตอบแทน:

  • การเป็นผู้ร่วมเขียน ในสิ่งพิมพ์ใดๆ ที่ใช้การให้คะแนนของพวกเขา (หากต้องการ)
  • การรับทราบ ในเอกสารโครงการทั้งหมด
  • การเข้าถึงก่อน เครื่องมือการประเมินและผลลัพธ์
  • การมีส่วนร่วม ในวิธีการใช้เมตริก — หากผู้พูดระบุว่า "linter ของคุณผิดเกี่ยวกับ X" เราจะแก้ไข linter
  • อำนาจยับยั้ง การเผยแพร่ผลลัพธ์ที่พวกเขาพบว่ามีปัญหา

7. วิธีเริ่มต้น

หากคุณเป็นผู้พูดภาษา Cree–English แบบสองภาษาที่สนใจเข้าร่วม หรือหากคุณรู้จักผู้ที่อาจสนใจ:

  1. ติดต่อเรา ที่ [อีเมล/ช่องทางติดต่อโครงการ] — ไม่ต้องผูกมัด เพียงแค่การสนทนา
  2. เราอธิบายงาน ด้วยภาษาที่เข้าใจง่าย (ไม่มีศัพท์เทคนิค)
  3. คุณเลือกงาน ที่สนใจ (A, B, C หรือการผสมผสานใดก็ได้)
  4. เราจัดตารางเวลา ที่เหมาะกับคุณ (ช่วง 2 ชั่วโมง เวลาที่ยืดหยุ่น)
  5. คุณให้คะแนนการแปล ผ่านสเปรดชีตหรือแบบฟอร์มเว็บ — จากที่ไหนก็ได้ ในเวลาของคุณเอง
  6. เราชำระเงินอย่างรวดเร็ว — ภายใน 2 สัปดาห์หลังจากเสร็จสิ้นแต่ละช่วงงาน

8. สิ่งที่เกิดขึ้นหลังจากนั้น

ด้วยข้อมูลการตรวจสอบความถูกต้องจากผู้พูด เราสามารถ:

  1. เผยแพร่ความสัมพันธ์ของเมตริก — พิสูจน์ (หรือหักล้าง) ว่าคะแนน LYSS สะท้อนการตัดสินของมนุษย์
  2. ปรับเทียบเมตริกใหม่ — ปรับน้ำหนัก เกณฑ์ และคลาสความเท่าเทียมตามข้อเสนอแนะของผู้พูด
  3. แก้ไข linter — ลบความเท่าเทียมที่ผิดพลาด เพิ่มความเท่าเทียมที่ขาดหายไป
  4. แก้ไข FST allowlist — เพิ่มคำที่ถูกต้องที่ FST ปฏิเสธอย่างไม่ถูกต้อง
  5. ส่งไปยังสถานที่ทางวิชาการ — โดยมีผู้พูดเป็นผู้ร่วมเขียน เพื่อสถาปนา LYSS เป็นเมตริกที่ผ่านการตรวจสอบความถูกต้องสำหรับการประเมิน MT ในภาษาโพลีซินเทติก

หากปราศจากการตรวจสอบความถูกต้องจากผู้พูด LYSS จะยังคงเป็นเครื่องมือทางวิศวกรรม แต่เมื่อมีการตรวจสอบแล้ว LYSS จะกลายเป็นเมตริกการประเมินที่มีพื้นฐานทางวิทยาศาสตร์ นั่นคือความแตกต่างระหว่าง "เราสร้างบางอย่างขึ้นมา" กับ "เราพิสูจน์ว่ามันใช้งานได้"