MT Eval Arena

สรุปสำหรับผู้บริหาร MT Eval Arena คือแพลตฟอร์มเปรียบเทียบประสิทธิภาพแบบเปิดสำหรับวิธีการแปลภาษาด้วยเครื่อง โดยมุ่งเน้นภาษาที่ยังไม่มี MT เชิงพาณิชย์ หรือยังไม่ผ่านการตรวจสอบอย่างอิสระ แพลตฟอร์มนี้ให้บริการการประเมินผลแบบมาตรฐาน ลีดเดอร์บอร์ดสาธารณะ และสะพานเชื่อมสู่การใช้งานจริงผ่าน champollion สำหรับภาษาของชนพื้นเมือง วิธีการที่พิสูจน์แล้วจะโอนความเป็นเจ้าของคืนสู่ชุมชน

สนามพิสูจน์แบบเปิดสำหรับวิธีการแปลภาษาด้วยเครื่อง — โดยเฉพาะอย่างยิ่งสำหรับภาษาที่ยังไม่มี MT เชิงพาณิชย์ หรือยังไม่ผ่านการตรวจสอบอย่างอิสระ

สร้างวิธีการ เปรียบเทียบประสิทธิภาพ พิสูจน์ว่าใช้งานได้ หากชนะ วิธีการนั้นจะถูกนำไปใช้งานจริง

ปัญหาที่เกิดขึ้น

Google Translate รองรับประมาณ 130 ภาษา NLLB-200 ของ Meta ครอบคลุมประมาณ 200 ภาษา และ OMT-1600 (มีนาคม 2026) อ้างว่าครอบคลุม 1,600 ภาษา ทั้งที่โลกมีภาษาพูดมากกว่า 7,000 ภาษา สำหรับประมาณ 1,300 ภาษาที่อยู่ในระดับทรัพยากรต่ำสุดของ OMT-1600 นั้น น้ำหนักโมเดลไม่เปิดเผยต่อสาธารณะ คุณภาพต่ำกว่าเกณฑ์ที่ใช้งานได้จริง และการประเมินผลใช้ข้อความจากโดเมนพระคัมภีร์ร่วมกับเมตริกมาตรฐานของเครื่อง — ไม่มีการตรวจสอบทางสัณฐานวิทยา ไม่มีการทดสอบอิสระ และไม่มีการกำกับดูแลโดยชุมชน สำหรับอีกประมาณ 5,400 ภาษาที่เหลือ ยังไม่มีโมเดลที่ผ่านการฝึกล่วงหน้าใดที่สามารถสร้างผลลัพธ์ได้เลย

ปัจจุบัน Big Tech กำลังลงทุนในการขยายความครอบคลุมสำหรับภาษาทรัพยากรต่ำ (LRL) — แต่การครอบคลุมที่ปราศจากการตรวจสอบคุณภาพอย่างอิสระ การตรวจสอบทางสัณฐานวิทยา หรือการกำกับดูแลโดยชุมชน คือการครอบคลุมที่ขาดความน่าเชื่อถือ ผู้พูดที่ต้องการเครื่องมือแปลภาษามากที่สุด คือชุมชนเดียวกับที่มีโอกาสน้อยที่สุดที่จะได้รับการพัฒนาเครื่องมือเหล่านั้น

Arena มีขึ้นเพื่อเปลี่ยนแปลงสิ่งนี้ แพลตฟอร์มนี้มอบโครงสร้างพื้นฐานสำหรับการพัฒนา ประเมินผล และนำวิธีการแปลภาษาไปใช้งานจริงสำหรับทุกภาษา — พร้อมการให้คะแนนที่ทำซ้ำได้ การส่งผลงานแบบเปิด และการกำกับดูแลโดยชุมชนเหนือการควบคุมผลลัพธ์

วิธีการทำงาน

คุณสร้างวิธีการแปลภาษา — ไม่ว่าจะเป็น LLM ที่ผ่านการโค้ช โมเดลที่ผ่านการ fine-tune ไปป์ไลน์แบบ FST-gated หรือวิธีการอื่นใดที่สร้างผลการแปล
ระบบ harness ทำการเปรียบเทียบประสิทธิภาพ — ด้วยเมตริกมาตรฐาน (chrF++, exact match, FST acceptance) ที่ผูกกับ Git commit เฉพาะด้วย fingerprint
ผลลัพธ์ปรากฏบนลีดเดอร์บอร์ด — ทุกการส่งผลงานสามารถทำซ้ำและเปรียบเทียบได้
หากชนะ ความเป็นเจ้าของจะโอนย้าย — สำหรับภาษาของชนพื้นเมือง โค้ดของวิธีการที่ชนะจะโอนไปยังองค์กรกำกับดูแลของชุมชน
วิธีการถูกนำไปใช้งานจริง — ผ่าน champollion ซึ่งเป็น API สำหรับนักพัฒนา รายได้จะไหลกลับสู่ชุมชน

พิสูจน์ที่นี่ นำไปใช้ที่นั่น

กลุ่มเป้าหมาย

คุณคือ...	Arena มอบให้คุณ...
วิศวกร ML / นักวิจัย	เกณฑ์มาตรฐานที่เป็นมาตรฐาน การให้คะแนนที่ทำซ้ำได้ และลีดเดอร์บอร์ดสำหรับการแข่งขัน
นักภาษาศาสตร์	กรอบการทำงานสำหรับแปลงกฎไวยากรณ์และพจนานุกรมให้เป็นวิธีการที่ทดสอบได้
สมาชิกชุมชนภาษา	การกำกับดูแลวิธีการพัฒนาและนำวิธีการของภาษาคุณไปใช้งาน
ผู้ให้ทุน / ผู้ตรวจสอบทุนวิจัย	เมตริกที่โปร่งใสและทำซ้ำได้สำหรับประเมินข้อเสนอการวิจัยด้านการแปล
นักศึกษา	ความท้าทายแบบเปิดที่มีผลกระทบจริง — สร้างวิธีการและส่งคะแนนของคุณ

เกณฑ์มาตรฐานปัจจุบัน

EDTeKLA Development Set v1

คู่ภาษา: อังกฤษ → Plains Cree (SRO)
จำนวนรายการ: 548 คู่ที่ผ่านการคัดสรร (486 จากตำราเรียน + 62 มาตรฐานทอง)
สัญญาอนุญาต: CC BY-NC-SA 4.0
แหล่งที่มา: กลุ่มวิจัย EdTeKLA, University of Alberta

FLORES+ Devtest

คู่ภาษา: อังกฤษ → 39 ภาษา
จำนวนรายการ: 1,012 ประโยคต่อภาษา
สัญญาอนุญาต: CC BY-SA 4.0
แหล่งที่มา: OLDI

กฎข้อเดียว

:::danger ห้ามฝึกโมเดลด้วยข้อมูลการประเมินผล วิธีการที่ได้รับข้อมูลชุดเกณฑ์มาตรฐาน — ไม่ว่าจะเป็นข้อมูลฝึก ตัวอย่าง few-shot รายการพจนานุกรม หรือเนื้อหา prompt — จะถูกตัดสิทธิ์ คุณสามารถ fine-tune ด้วยข้อมูลใดก็ได้ตามต้องการ เพียงแต่ไม่ใช่ชุดข้อมูลทดสอบ :::

ขั้นตอนถัดไป

ส่งวิธีการ — วิธีการส่งผลการรันเกณฑ์มาตรฐานครั้งแรกของคุณ
ข้อกำหนดเกณฑ์มาตรฐาน — โปรโตคอลการทดลองฉบับสมบูรณ์
กฎของลีดเดอร์บอร์ด — เกณฑ์การส่งผลงานและนโยบายป้องกันการโกง
อธิปไตยของข้อมูล — OCAP, CARE และเหตุใดการโอนความเป็นเจ้าของจึงมีความสำคัญ
โมเดลเศรษฐกิจ — คะแนน Arena กลายเป็นรายได้ของชุมชนได้อย่างไร

→ ดูลีดเดอร์บอร์ด

ปัญหาที่เกิดขึ้น​

วิธีการทำงาน​

กลุ่มเป้าหมาย​

เกณฑ์มาตรฐานปัจจุบัน​

EDTeKLA Development Set v1​

FLORES+ Devtest​

กฎข้อเดียว​

ขั้นตอนถัดไป​