การประเมินผล MT

สรุปสำหรับผู้บริหาร หน้านี้กำหนดเกณฑ์การส่งผลงานเข้าสู่ leaderboard เมตริกการให้คะแนน (chrF++, FST acceptance, exact match, equivalent match, semantic score) นโยบายป้องกันการโกง ระดับการตรวจสอบ และขั้นตอนการส่งผลงาน วิธีการที่ถูกเปิดเผยต่อข้อมูลการประเมินจะถูกตัดสิทธิ์

champollion มีกรอบการประเมินการแปลด้วยเครื่องที่ออกแบบมาเพื่อ การวัดประสิทธิภาพที่ทำซ้ำได้ ของวิธีการแปล — โดยเฉพาะอย่างยิ่งสำหรับภาษาที่มีทรัพยากรน้อยและภาษาพื้นเมือง ซึ่งไม่มีเกณฑ์มาตรฐาน MT มาตรฐาน และการอ้างสิทธิ์ด้านคุณภาพเป็นเรื่องยากที่จะตรวจสอบ

Leaderboard

จุดศูนย์กลางคือ Method Leaderboard — กระดานคะแนนแบบสดที่ขับเคลื่อนด้วย Supabase ซึ่งนักวิจัยและสมาชิกชุมชนสามารถส่งและเปรียบเทียบวิธีการแปลด้วยการประเมินที่มีลายนิ้วมือและทำซ้ำได้

การส่งผลงานทุกครั้งประกอบด้วย:

Pipeline ที่มีลายนิ้วมือ — ผูกกับ Git commit และ config hash ที่เฉพาะเจาะจง เพื่อให้ผลลัพธ์สามารถย้อนกลับไปยังโค้ดที่แน่นอนที่สร้างผลลัพธ์นั้น
ชุดข้อมูลที่มีเวอร์ชัน — มีการแฮชเนื้อหาและกำหนดเวอร์ชัน คะแนนสามารถเปรียบเทียบได้เฉพาะภายในเวอร์ชันชุดข้อมูลเดียวกันเท่านั้น
เมตริกมาตรฐาน — การให้คะแนนทั้งหมดคำนวณโดย evaluation harness ที่ใช้ร่วมกัน เพื่อขจัดความแตกต่างในการนำไปใช้งาน
ระดับความน่าเชื่อถือ — self-benchmarked, GDS Verified หรือ Community Validated
การติดตามต้นทุน — ต้นทุน API ต่อการส่งผลงาน เพื่อให้การแลกเปลี่ยนระหว่างต้นทุนและคุณภาพโปร่งใส

ปัจจุบัน leaderboard ติดตามเมตริกห้าตัว โดยสามตัวใช้ได้กับทุกภาษา และสองตัวพร้อมใช้งานสำหรับ Plains Cree และจะถูกขยายออกไปในอนาคต:

เมตริก	ประเภท	สิ่งที่วัด
chrF++	Character n-gram F-score	เมตริกคุณภาพหลัก — มีความสัมพันธ์ที่ดีกับการตัดสินของมนุษย์ โดยเฉพาะสำหรับภาษาที่มีความซับซ้อนทางสัณฐานวิทยา
Exact Match	สัดส่วนของการจับคู่ที่สมบูรณ์แบบ	ความแม่นยำเข้มงวด — บ่อยแค่ไหนที่การแปลตรงกับมาตรฐานทองคำพอดี
FST Acceptance	อัตราการผ่านด่านสัณฐานวิทยา	สำหรับวิธีการที่มีการตรวจสอบด้วย finite-state transducer — ผลลัพธ์กี่สัดส่วนที่ถูกต้องทางสัณฐานวิทยา
Equivalent Match	อัตราตัวแปรที่ยอมรับได้	เศษส่วนที่ตรงกับข้อมูลอ้างอิงหรือตัวแปรที่ยอมรับได้ (ลำดับคำ, แบบแผนการสะกด) ปัจจุบันใช้กับ CRK กำลังขยาย
Semantic Score	ความซื่อสัตย์ทางความหมาย	การรักษาความหมาย — การแปลถ่ายทอดความหมายที่ตั้งใจไว้โดยไม่คำนึงถึงรูปแบบพื้นผิวหรือไม่ ปัจจุบันใช้กับ CRK กำลังขยาย

:::info ชุดเมตริกครบถ้วน ข้อกำหนดการให้คะแนน กำหนดรายการเมตริกครบถ้วน 19 ตัวใน 5 หมวดหมู่ สูตรคะแนนรวม ตารางน้ำหนัก และเกณฑ์ระดับคุณภาพ :::

→ ดู leaderboard

ชุดข้อมูลที่มีให้ใช้งาน

EDTeKLA Development Set v1

ชุดข้อมูลการประเมินชุดแรก สร้างขึ้นสำหรับการแปล English→Plains Cree (SRO) สร้างโดย กลุ่มวิจัย EdTeKLA ที่ University of Alberta

คุณสมบัติ	ค่า
ID	`edtekla-dev-v1`
คู่ภาษา	EN → CRK (Plains Cree, SRO orthography)
จำนวนรายการ	404 (`master_corpus.json`: 62 gold + 342 textbook); รวม 548 รายการที่มีให้ใช้งาน
สัญญาอนุญาต	CC BY-NC-SA 4.0
แหล่งที่มา	`gold_standard` (ตรวจสอบโดยผู้พูดภาษา), `textbook` (สื่อการศึกษาที่ตีพิมพ์แล้ว)

FLORES+ Devtest — สำหรับการพัฒนาเท่านั้น

[!WARNING] FLORES+ มีให้ใช้งานสำหรับการพัฒนาและการดีบักเท่านั้น และไม่ได้ใช้สำหรับการประเมิน leaderboard อย่างเป็นทางการ FLORES+ (เดิมคือ Meta FLORES-200) เป็นชุดข้อมูลเกณฑ์มาตรฐานที่เปิดเผยต่อสาธารณะอย่างกว้างขวาง ซึ่ง LLM ชั้นนำเกือบแน่นอนว่าได้รับการฝึกอบรมบนชุดข้อมูลนี้ คะแนนที่ได้จาก FLORES+ ไม่ได้สะท้อนคุณภาพการแปลในโลกจริงสำหรับวิธีการที่ใช้ LLM อย่างน่าเชื่อถือ วิธีการที่ไม่ใช่ LLM (FST, rule-based, fine-tuned NMT) ได้รับผลกระทบน้อยกว่า แต่คะแนน FLORES+ ก็ยังไม่ถูกเผยแพร่ไปยัง leaderboard

FLORES+ fixtures ยังคงมีให้ใช้งานใน test/benchmark/fixtures/ สำหรับการทดสอบ pipeline เบื้องต้น การตรวจสอบข้ามภาษา และการใช้งานในการพัฒนา การประเมินอย่างเป็นทางการใช้คลังข้อมูลที่กำหนดเองซึ่งสร้างจากข้อความที่มนุษย์เขียนและไม่เปิดเผยต่อสาธารณะในรูปแบบคู่ขนาน

ดู ชุดข้อมูลการประเมิน สำหรับ schema ชุดข้อมูลครบถ้วน ระดับความยาก และวิธีสร้างชุดข้อมูลของคุณเอง

:::danger ห้ามฝึกอบรมบนข้อมูลการประเมิน

ชุดข้อมูลเหล่านี้มีไว้สำหรับการประเมินเท่านั้น วิธีการที่ได้รับการฝึกอบรม fine-tuned, few-shot-prompted หรือถูกเปิดเผยต่อข้อมูลการประเมินในรูปแบบใดก็ตาม จะให้คะแนนที่สูงเกินจริงและจะ ถูกตัดสิทธิ์จาก leaderboard

นี่ไม่ใช่คำแนะนำ — แต่เป็นกฎที่สำคัญที่สุดของความซื่อสัตย์ในการประเมิน ใช้คลังข้อมูลแยกต่างหากสำหรับการฝึกอบรม ชุดข้อมูลการประเมินต้องไม่ถูกมองเห็นโดยโมเดลของคุณในระหว่างการพัฒนา

หากคุณใช้ข้อมูล coaching หรือตัวอย่าง few-shot ข้อมูลเหล่านั้นต้องมาจาก แหล่งที่แยกต่างหากโดยสิ้นเชิง หากไม่แน่ใจ อย่านำมาใช้ :::

:::warning ความไม่แน่นอนของ LLM

ผลลัพธ์ของ LLM มีความไม่แน่นอน คะแนนแสดงถึงการวัดในช่วงเวลาหนึ่งภายใต้เวอร์ชันโมเดลและการกำหนดค่า API ที่เฉพาะเจาะจง ผู้ให้บริการโมเดลอาจอัปเดตน้ำหนัก กลยุทธ์การถอดรหัส หรือตัวกรองความปลอดภัยได้ตลอดเวลา ซึ่งอาจทำให้คะแนนเปลี่ยนแปลงระหว่างการรัน leaderboard บันทึก model slug และ timestamp ที่แน่นอนสำหรับการส่งผลงานทุกครั้ง :::

สิ่งที่ทำให้วิธีการดี

วิธีการไม่ได้ถูกสร้างมาเท่าเทียมกัน นี่คือสิ่งที่แยกแยะงานที่เข้มงวดออกจากคะแนนที่สูงเกินจริง

ลักษณะของวิธีการที่แข็งแกร่ง

การแยกข้อมูลฝึกอบรมและข้อมูลประเมินอย่างชัดเจน — วิธีการของคุณไม่เคยเห็นชุดข้อมูลการประเมินในระหว่างการพัฒนา การปรับแต่ง การออกแบบ prompt หรือการเลือกตัวอย่าง few-shot
ทำซ้ำได้ — ผู้อื่นสามารถ clone repository ของคุณ รัน harness และได้คะแนนเดียวกัน (ภายในขอบเขตความไม่แน่นอนของ LLM)
มีเอกสารประกอบ — method card ของคุณอธิบายสิ่งที่วิธีการทำ เครื่องมือที่ใช้ และข้อจำกัดของมัน
ซื่อสัตย์เกี่ยวกับขอบเขต — หากวิธีการของคุณใช้ได้กับคู่ภาษาเดียว ให้ระบุ หากมีประสิทธิภาพลดลงในรูปแบบสัณฐานวิทยาบางอย่าง ให้บันทึกไว้
ตระหนักถึงชุมชน — สำหรับภาษาพื้นเมือง วิธีการของคุณเคารพอธิปไตยของข้อมูล คุณได้ปรึกษากับชุมชนภาษาหรือใช้เฉพาะข้อมูลที่มีสัญญาอนุญาตแบบเปิด

สัญญาณเตือน (สิ่งที่ทำให้ถูกตัดสิทธิ์)

สัญญาณเตือน	เหตุใดจึงเป็นปัญหา
การฝึกอบรมบนข้อมูลการประเมิน	ทำลายจุดประสงค์ของการประเมินโดยสิ้นเชิง คะแนนที่สูงเกินจริงทำให้ทุกคนเข้าใจผิด
การเลือกผลลัพธ์ที่ดีที่สุด	การรัน 10 ครั้งและส่งผลลัพธ์ที่ดีที่สุดโดยไม่เปิดเผยผลลัพธ์อื่น
การประมวลผลภายหลังที่ไม่เปิดเผย	การแก้ไขผลลัพธ์ด้วยตนเองก่อนการให้คะแนน
ข้อมูล coaching ที่ปนเปื้อน	การใช้ตัวอย่างจากชุดข้อมูลการประเมินเป็น few-shot prompts หรือรายการพจนานุกรม
การอ้างความพร้อมเชิงพาณิชย์โดยไม่มีแหล่งที่มา	หากวิธีการของคุณใช้ข้อมูล CC BY-NC-SA แสดงว่าไม่พร้อมสำหรับการใช้งานเชิงพาณิชย์

ระดับการตรวจสอบ

ระดับการตรวจสอบอธิบาย ว่าใครเป็นผู้ตรวจสอบผลลัพธ์ — แยกจากระดับคุณภาพ (Baseline → Fluent) ที่กำหนดไว้ใน ข้อกำหนดการให้คะแนน §5 ซึ่งอธิบายความหมายของคะแนนรวมอัตโนมัติ

ระดับ	ความหมาย	วิธีรับ
Self-benchmarked	คุณรัน harness เองและส่งผลลัพธ์	เปิด PR พร้อม run card ของคุณ
GDS Verified	ผู้ดูแล champollion ทำซ้ำผลลัพธ์ของคุณ	ส่งวิธีการของคุณในรูปแบบ installable plugin
Community Validated	องค์กรกำกับดูแลรันกับ gold-standard และผ่านการตรวจสอบจากชุมชน	ส่งโค้ดวิธีการไปยังองค์กรกำกับดูแล

วิธีการส่งผลงาน

สร้างวิธีการของคุณ — ดู การสร้างวิธีการ สำหรับ interface ของวิธีการ
รัน harness — ดู Eval Harness สำหรับการตั้งค่าและการใช้งาน
สร้าง run card — harness จะสร้าง JSON run card พร้อมคะแนน ลายนิ้วมือ และ metadata ของคุณ
เปิด PR — ส่ง run card ของคุณไปยัง eval harness repository
ปรากฏบน leaderboard — เมื่อ merge แล้ว ผลลัพธ์ของคุณจะปรากฏบน Method Leaderboard

ทิศทางในอนาคต

การรันเปรียบเทียบโมเดลอย่างครอบคลุม — การประเมินอย่างเป็นระบบของโมเดลชั้นนำ (GPT-4o, Claude, Gemini ฯลฯ) ในภาษาต่างๆ ของ champollion โดยใช้คลังข้อมูลการประเมินที่กำหนดเอง (ไม่ใช่เกณฑ์มาตรฐานสาธารณะ)
คู่ภาษาเพิ่มเติม — Quechua, Inuktitut และภาษาที่มีทรัพยากรน้อยอื่นๆ เมื่อชุดข้อมูลที่ตรวจสอบโดยชุมชนพร้อมใช้งาน
การนำเข้าชุดข้อมูล — เครื่องมือสำหรับแปลงชุดข้อมูลการประเมินภายนอก (WMT, Tatoeba ฯลฯ) ให้เป็นรูปแบบการประเมินของ champollion
การรันซ้ำอัตโนมัติ — การตรวจจับการเปลี่ยนแปลงเวอร์ชันโมเดลและการรัน benchmark ซ้ำเพื่อติดตามการเปลี่ยนแปลงของคะแนน

ดูเพิ่มเติม

Method Leaderboard — คะแนนสดและการส่งผลงาน
Eval Harness — วิธีการรันการประเมิน
ชุดข้อมูลการประเมิน — รูปแบบชุดข้อมูลและชุดข้อมูลที่มีให้ใช้งาน
การสร้างวิธีการ — ข้อกำหนด interface ของวิธีการ
ข้อกำหนด Run Card — JSON schema ของ run card
ข้อกำหนด Benchmark — โปรโตคอลการประเมิน รูปแบบคลังข้อมูล อธิปไตย
ข้อกำหนดการให้คะแนน — SSOT สำหรับเมตริก น้ำหนักรวม และระดับคุณภาพ

Leaderboard​

ชุดข้อมูลที่มีให้ใช้งาน​

EDTeKLA Development Set v1​

FLORES+ Devtest — สำหรับการพัฒนาเท่านั้น​

สิ่งที่ทำให้วิธีการดี​

ลักษณะของวิธีการที่แข็งแกร่ง​

สัญญาณเตือน (สิ่งที่ทำให้ถูกตัดสิทธิ์)​

ระดับการตรวจสอบ​

วิธีการส่งผลงาน​

ทิศทางในอนาคต​

ดูเพิ่มเติม​