ข้ามไปยังเนื้อหาหลัก

MT Eval Arena

สรุปสำหรับผู้บริหาร MT Eval Arena คือแพลตฟอร์มเปรียบเทียบประสิทธิภาพแบบเปิดสำหรับวิธีการแปลภาษาด้วยเครื่อง โดยมุ่งเน้นภาษาที่ยังไม่มี MT เชิงพาณิชย์ หรือยังไม่ผ่านการตรวจสอบอย่างอิสระ แพลตฟอร์มนี้ให้บริการการประเมินผลแบบมาตรฐาน ลีดเดอร์บอร์ดสาธารณะ และสะพานเชื่อมสู่การใช้งานจริงผ่าน champollion สำหรับภาษาของชนพื้นเมือง วิธีการที่พิสูจน์แล้วจะโอนความเป็นเจ้าของคืนสู่ชุมชน

สนามพิสูจน์แบบเปิดสำหรับวิธีการแปลภาษาด้วยเครื่อง — โดยเฉพาะอย่างยิ่งสำหรับภาษาที่ยังไม่มี MT เชิงพาณิชย์ หรือยังไม่ผ่านการตรวจสอบอย่างอิสระ

สร้างวิธีการ เปรียบเทียบประสิทธิภาพ พิสูจน์ว่าใช้งานได้ หากชนะ วิธีการนั้นจะถูกนำไปใช้งานจริง


ปัญหาที่เกิดขึ้น

Google Translate รองรับประมาณ 130 ภาษา NLLB-200 ของ Meta ครอบคลุมประมาณ 200 ภาษา และ OMT-1600 (มีนาคม 2026) อ้างว่าครอบคลุม 1,600 ภาษา ทั้งที่โลกมีภาษาพูดมากกว่า 7,000 ภาษา สำหรับประมาณ 1,300 ภาษาที่อยู่ในระดับทรัพยากรต่ำสุดของ OMT-1600 นั้น น้ำหนักโมเดลไม่เปิดเผยต่อสาธารณะ คุณภาพต่ำกว่าเกณฑ์ที่ใช้งานได้จริง และการประเมินผลใช้ข้อความจากโดเมนพระคัมภีร์ร่วมกับเมตริกมาตรฐานของเครื่อง — ไม่มีการตรวจสอบทางสัณฐานวิทยา ไม่มีการทดสอบอิสระ และไม่มีการกำกับดูแลโดยชุมชน สำหรับอีกประมาณ 5,400 ภาษาที่เหลือ ยังไม่มีโมเดลที่ผ่านการฝึกล่วงหน้าใดที่สามารถสร้างผลลัพธ์ได้เลย

ปัจจุบัน Big Tech กำลังลงทุนในการขยายความครอบคลุมสำหรับภาษาทรัพยากรต่ำ (LRL) — แต่การครอบคลุมที่ปราศจากการตรวจสอบคุณภาพอย่างอิสระ การตรวจสอบทางสัณฐานวิทยา หรือการกำกับดูแลโดยชุมชน คือการครอบคลุมที่ขาดความน่าเชื่อถือ ผู้พูดที่ต้องการเครื่องมือแปลภาษามากที่สุด คือชุมชนเดียวกับที่มีโอกาสน้อยที่สุดที่จะได้รับการพัฒนาเครื่องมือเหล่านั้น

Arena มีขึ้นเพื่อเปลี่ยนแปลงสิ่งนี้ แพลตฟอร์มนี้มอบโครงสร้างพื้นฐานสำหรับการพัฒนา ประเมินผล และนำวิธีการแปลภาษาไปใช้งานจริงสำหรับทุกภาษา — พร้อมการให้คะแนนที่ทำซ้ำได้ การส่งผลงานแบบเปิด และการกำกับดูแลโดยชุมชนเหนือการควบคุมผลลัพธ์


วิธีการทำงาน

  1. คุณสร้างวิธีการแปลภาษา — ไม่ว่าจะเป็น LLM ที่ผ่านการโค้ช โมเดลที่ผ่านการ fine-tune ไปป์ไลน์แบบ FST-gated หรือวิธีการอื่นใดที่สร้างผลการแปล
  2. ระบบ harness ทำการเปรียบเทียบประสิทธิภาพ — ด้วยเมตริกมาตรฐาน (chrF++, exact match, FST acceptance) ที่ผูกกับ Git commit เฉพาะด้วย fingerprint
  3. ผลลัพธ์ปรากฏบนลีดเดอร์บอร์ด — ทุกการส่งผลงานสามารถทำซ้ำและเปรียบเทียบได้
  4. หากชนะ ความเป็นเจ้าของจะโอนย้าย — สำหรับภาษาของชนพื้นเมือง โค้ดของวิธีการที่ชนะจะโอนไปยังองค์กรกำกับดูแลของชุมชน
  5. วิธีการถูกนำไปใช้งานจริง — ผ่าน champollion ซึ่งเป็น API สำหรับนักพัฒนา รายได้จะไหลกลับสู่ชุมชน

พิสูจน์ที่นี่ นำไปใช้ที่นั่น


กลุ่มเป้าหมาย

คุณคือ...Arena มอบให้คุณ...
วิศวกร ML / นักวิจัยเกณฑ์มาตรฐานที่เป็นมาตรฐาน การให้คะแนนที่ทำซ้ำได้ และลีดเดอร์บอร์ดสำหรับการแข่งขัน
นักภาษาศาสตร์กรอบการทำงานสำหรับแปลงกฎไวยากรณ์และพจนานุกรมให้เป็นวิธีการที่ทดสอบได้
สมาชิกชุมชนภาษาการกำกับดูแลวิธีการพัฒนาและนำวิธีการของภาษาคุณไปใช้งาน
ผู้ให้ทุน / ผู้ตรวจสอบทุนวิจัยเมตริกที่โปร่งใสและทำซ้ำได้สำหรับประเมินข้อเสนอการวิจัยด้านการแปล
นักศึกษาความท้าทายแบบเปิดที่มีผลกระทบจริง — สร้างวิธีการและส่งคะแนนของคุณ

เกณฑ์มาตรฐานปัจจุบัน

EDTeKLA Development Set v1

  • คู่ภาษา: อังกฤษ → Plains Cree (SRO)
  • จำนวนรายการ: 548 คู่ที่ผ่านการคัดสรร (486 จากตำราเรียน + 62 มาตรฐานทอง)
  • สัญญาอนุญาต: CC BY-NC-SA 4.0
  • แหล่งที่มา: กลุ่มวิจัย EdTeKLA, University of Alberta

FLORES+ Devtest

  • คู่ภาษา: อังกฤษ → 39 ภาษา
  • จำนวนรายการ: 1,012 ประโยคต่อภาษา
  • สัญญาอนุญาต: CC BY-SA 4.0
  • แหล่งที่มา: OLDI

กฎข้อเดียว

:::danger ห้ามฝึกโมเดลด้วยข้อมูลการประเมินผล วิธีการที่ได้รับข้อมูลชุดเกณฑ์มาตรฐาน — ไม่ว่าจะเป็นข้อมูลฝึก ตัวอย่าง few-shot รายการพจนานุกรม หรือเนื้อหา prompt — จะถูกตัดสิทธิ์ คุณสามารถ fine-tune ด้วยข้อมูลใดก็ได้ตามต้องการ เพียงแต่ไม่ใช่ชุดข้อมูลทดสอบ :::


ขั้นตอนถัดไป

→ ดูลีดเดอร์บอร์ด