คำถามที่พบบ่อย

สรุปสำหรับผู้บริหาร คำตอบสำหรับคำถามทั่วไปเกี่ยวกับ MT Eval Arena — วิธีการคำนวณคะแนน สิ่งที่ทำให้ถูกตัดสิทธิ์ วิธีจัดการกับภาษาที่ไม่มี FST คำแนะนำเกี่ยวกับโมเดลและพารามิเตอร์ และกระบวนการส่งผลงาน

การให้คะแนนและเมตริก

harness คำนวณเมตริกอะไรบ้าง?

harness คำนวณเมตริกห้าตัวสำหรับภาษา Plains Cree (ภาษาที่ใช้เป็น benchmark ในปัจจุบัน) สามตัวเป็นแบบ language-agnostic และใช้ได้กับทุกภาษา ส่วนอีกสองตัวในปัจจุบันอาศัย plugin เฉพาะของ CRK และจะถูกพัฒนาให้รองรับภาษาอื่นเมื่อเราขยายขอบเขต

เมตริก	สเกล	สิ่งที่วัด	สถานะ
chrF++	0–100	ความทับซ้อนของ character n-gram ระหว่างคำแปลที่ทำนายและคำแปลอ้างอิง เป็นเมตริกระดับพื้นผิวที่ดีที่สุดสำหรับภาษาที่มีสัณฐานวิทยาซับซ้อน ใช้การให้คะแนนแบบ native ของ sacrebleu	✅ ทุกภาษา
Exact match	0.0–1.0	สัดส่วนของรายการที่คำทำนายตรงกับคำอ้างอิงทุกประการหลังการ normalize	✅ ทุกภาษา
FST acceptance	0.0–1.0	สัดส่วนของคำในผลลัพธ์ที่ได้รับการยอมรับจาก finite-state transducer (ตัววิเคราะห์สัณฐานวิทยา) คำนวณเฉพาะเมื่อมีการระบุไฟล์ไบนารี FST	✅ ทุกภาษาที่มี FST
Equivalent match	0.0–1.0	สัดส่วนของรายการที่ตรงกับคำอ้างอิงหรือรูปแบบที่ยอมรับได้ — โดยคำนึงถึงลำดับคำ ข้อตกลงด้านการสะกด และความแตกต่างทางภาษาถิ่น	⚡ CRK (กำลังพัฒนาให้รองรับภาษาอื่น)
Semantic score	0.0–1.0	คะแนนการรักษาความหมาย — คำแปลถ่ายทอดความหมายที่ตั้งใจไว้ได้ดีเพียงใดโดยไม่คำนึงถึงรูปแบบพื้นผิว	⚡ CRK (กำลังพัฒนาให้รองรับภาษาอื่น)

เมตริกเพิ่มเติมที่อยู่ในแผน ได้แก่ morphological accuracy, code-switching detection, terminology adherence และ hallucination detection ดู Scoring Specification §2 สำหรับรายการเมตริกทั้ง 19 ตัว

composite score คำนวณอย่างไร?

composite คือค่าเฉลี่ยถ่วงน้ำหนักของเมตริกที่มีอยู่ ซึ่ง normalize เป็นสเกล 0.0–1.0 น้ำหนักถูกกำหนดไว้ในสองโปรไฟล์:

Profile A (ภาษาที่มี FST): 9 เมตริก เมตริกเชิงโครงสร้าง (FST + morphological accuracy) มีน้ำหนัก 40% ของ composite
Profile B (ภาษาที่ไม่มี FST): 8 เมตริก semantic และ chrF++ มีน้ำหนักสูงสุดเท่ากัน

เมื่อเมตริกใดไม่พร้อมใช้งาน น้ำหนักของเมตริกนั้นจะถูกกระจายตามสัดส่วนไปยังเมตริกที่เหลือ ซึ่งหมายความว่า benchmark ในระยะเริ่มต้น (ที่มีเพียง chrF++ และ exact match) ยังคงให้ composite ที่ถูกต้อง — เพียงแต่น้ำหนักที่มีผลจะสะท้อนสิ่งที่มีอยู่เท่านั้น

ตารางน้ำหนักฉบับสมบูรณ์ กฎการ normalize และเหตุผลการยกเว้นอยู่ใน Scoring Specification §4 โค้ด harness สะท้อนตารางเหล่านี้ใน mt_eval_harness/scoring.py chrF++ ถูก normalize โดยหารด้วย 100 ก่อนถ่วงน้ำหนัก ส่วนอัตรา code-switching และ hallucination จะถูกกลับค่า (ยิ่งต่ำยิ่งดี)

quality tier คืออะไร?

quality tier คือป้ายกำกับแบบ heuristic ที่แมปกับช่วงคะแนน composite ช่วยสื่อสารว่าคะแนนหนึ่ง ๆ หมายความว่าอะไร ในทางปฏิบัติ:

Tier	ช่วง Composite	ความหมาย
Baseline	0.00 – 0.30	ต่ำกว่าระดับที่มีประโยชน์ วิธีการต้องการการปรับปรุงอย่างมีนัยสำคัญ
Emerging	0.30 – 0.50	แสดงให้เห็นศักยภาพ คำแปลบางส่วนถูกต้องแต่ยังไม่สม่ำเสมอ
Functional	0.50 – 0.70	ใช้งานได้สำหรับการอ้างอิงโดยมีการตรวจสอบโดยมนุษย์ ไม่เหมาะสำหรับการใช้งานโดยไม่มีการตรวจสอบ
Deployable	0.70 – 0.85	พร้อมสำหรับการใช้งานจริงโดยมีการตรวจสอบเป็นระยะ เป็นตัวกระตุ้นสิทธิ์การโอนความเป็นเจ้าของ
Fluent	0.85 – 1.00	คุณภาพใกล้เคียงเจ้าของภาษา เหมาะสำหรับการใช้งานโดยไม่ต้องมีการดูแล

quality tier และ verification tier ต่างกันอย่างไร?

Quality tier อธิบาย ความหมายของคะแนนอัตโนมัติ (Baseline → Fluent) ส่วน verification tier อธิบาย ว่าใครเป็นผู้ตรวจสอบผลลัพธ์:

Verification Tier	ความหมาย
Self-benchmarked	ผู้ส่งผลงานรัน harness ด้วยตนเอง คะแนนน่าเชื่อถือแต่ยังไม่ได้รับการยืนยัน
GDS Verified	ผู้ดูแลระบบได้ทำซ้ำผลลัพธ์โดยใช้การกำหนดค่าวิธีการที่ส่งมา
Community Validated	ผู้พูดสองภาษาได้ตรวจสอบคำแปลและยืนยันคุณภาพ

วิธีการหนึ่งอาจมีคุณภาพระดับ "Deployable" แต่มีการยืนยันเพียงระดับ "Self-benchmarked" — หมายความว่าคะแนนดูดีแต่ยังไม่มีใครยืนยันอย่างอิสระ

การส่งผลงานและการตัดสิทธิ์

อะไรทำให้การส่งผลงานของฉันถูกตัดสิทธิ์?

การส่งผลงานของคุณจะถูกปฏิเสธหรือถูกตั้งค่าสถานะหากเข้าข่ายดังนี้:

วิธีการของคุณถูก expose กับข้อมูลการประเมิน หากคุณฝึก fine-tune few-shot-prompt หรือใช้รายการใด ๆ จากชุดข้อมูลการประเมินไม่ว่าในรูปแบบใด คะแนนของคุณจะถูกปั้นให้สูงเกินจริง ซึ่งรวมถึงการใช้คำแปลอ้างอิงใน prompt ของคุณด้วย
run card ของคุณไม่ผ่านการตรวจสอบความสมบูรณ์ fingerprint ต้องตรงกับการกำหนดค่า run card ที่ถูกแก้ไขจะถูกปฏิเสธ
วิธีการของคุณไม่ได้ implement TranslationMethod protocol harness คาดหวัง translate(entries, config) → results การ integrate แบบกำหนดเองที่ข้ามผ่าน harness จะไม่ได้รับการยอมรับ

ฉันสามารถส่งผลงานหลายครั้งได้หรือไม่?

ได้ leaderboard ติดตามการส่งผลงานทั้งหมด คุณสามารถทำซ้ำได้ — รันการทดลองหลายสิบครั้งแล้วส่งเฉพาะผลที่ดีที่สุด การส่งผลงานแต่ละครั้งจะบันทึก fingerprint ที่ไม่ซ้ำกัน จึงไม่มีความคลุมเครือว่า run ใดให้คะแนนใด

ฉันจะให้คะแนนของฉันได้รับการยืนยันได้อย่างไร?

Self-benchmarked (อัตโนมัติ): การส่งผลงานทุกครั้งเริ่มต้นที่นี่
GDS Verified: ส่งวิธีการของคุณในรูปแบบ package ที่ทำซ้ำได้ (โค้ด + config + coaching data) ผู้ดูแลระบบจะรันซ้ำกับชุดข้อมูลเดิมและยืนยันว่าคะแนนตรงกัน
Community Validated: สำหรับภาษาพื้นเมือง กระบวนการนี้ต้องการให้ผู้พูดสองภาษาตรวจสอบตัวอย่างคำแปล ไม่สามารถทำโดยอัตโนมัติได้ — ต้องอาศัยการมีส่วนร่วมของชุมชน

submission API พร้อมใช้งานแล้วหรือยัง?

ยังไม่พร้อม endpoint https://mtevalarena.org/api/leaderboard/submit ยังอยู่ในแผน การส่งผลงานในปัจจุบันควรทำผ่าน pull request ไปยัง eval harness repo โดยแนบ run card JSON ของคุณในไดเรกทอรี results/

โมเดลและพารามิเตอร์

ฉันควรใช้โมเดลใด?

ไม่มีโมเดลที่ดีที่สุดเพียงตัวเดียว — ขึ้นอยู่กับคู่ภาษา งบประมาณ และแนวทางของคุณ คำแนะนำทั่วไป:

ประเภทภาษา	จุดเริ่มต้นที่แนะนำ	เหตุผล
High-resource (ฝรั่งเศส สเปน ญี่ปุ่น)	`google/gemini-2.5-flash` หรือ `gpt-4o-mini`	รวดเร็ว ประหยัด baseline แข็งแกร่ง
Low-resource ที่มี LLM coverage บ้าง (Quechua, Yoruba)	`google/gemini-2.5-pro` หรือ `anthropic/claude-sonnet-4`	โมเดลขนาดใหญ่มีความรู้แฝงที่ดีกว่า
Polysynthetic / low-resource มาก (Plains Cree, Inuktitut)	`google/gemini-2.5-pro` พร้อม coaching	ข้อมูล coaching สำคัญกว่าการเลือกโมเดล OMT-1600 รองรับภาษา polysynthetic บางภาษา (เช่น CRK ที่ระดับ R1) แต่ใช้ tokenization แบบ BPE มาตรฐาน — ทดสอบเป็น baseline ใน Arena

eval harness ใช้ OpenRouter ดังนั้นโมเดลใด ๆ ที่มีบน OpenRouter สามารถนำมา benchmark ได้ รัน champollion models --method llm เพื่อดูโมเดลที่มีอยู่

ควรใช้ temperature เท่าไร?

โดยทั่วไปยิ่งต่ำยิ่งดีสำหรับการแปล:

Temperature	ผลกระทบ	แนะนำสำหรับ
0.0 – 0.2	ผลลัพธ์ที่กำหนดได้สูง สม่ำเสมอ	วิธีการสำหรับ production, benchmark ขั้นสุดท้าย
0.3 – 0.5	มีความหลากหลายบ้าง บางครั้งสร้างสรรค์กว่า	การสำรวจ การทำซ้ำในระยะเริ่มต้น
0.6+	ความหลากหลายสูง คาดเดาไม่ได้	ไม่แนะนำสำหรับ MT benchmarking

Temperature ถูกบันทึกใน run card ดังนั้น temperature ที่ต่างกันจะให้ fingerprint ที่ต่างกัน — ถือเป็นการทดลองที่แตกต่างกัน

coaching data ช่วยได้หรือไม่?

ช่วยได้อย่างมีนัยสำคัญ — สำหรับภาษา low-resource coaching data (กฎไวยากรณ์ รายการพจนานุกรม หมายเหตุด้านสไตล์) จะถูก inject เข้าไปใน system prompt ของ LLM สำหรับ Plains Cree วิธีการที่มี coaching มีประสิทธิภาพเหนือกว่าวิธีการ LLM ดิบสำหรับภาษา polysynthetic อย่างสม่ำเสมอ เนื่องจาก LLM ทั่วไปมีการ expose กับภาษา polysynthetic อย่างจำกัดและไม่มีความตระหนักด้านสัณฐานวิทยา แม้แต่ OMT-1600 ซึ่งได้รับการฝึกเฉพาะสำหรับ CRK ก็ยังใช้ tokenization แบบ BPE มาตรฐานที่ไม่สามารถแทนสัณฐานวิทยา polysynthetic ได้ในเชิงโครงสร้าง coaching data ให้บริบทด้านภาษาศาสตร์ที่โมเดลขาดอยู่

สำหรับภาษา high-resource (ฝรั่งเศส สเปน) coaching มีผลกระทบน้อยกว่าเนื่องจากโมเดลมีความรู้พื้นฐานที่แข็งแกร่งอยู่แล้ว

ดู Coaching Data สำหรับข้อกำหนดฉบับสมบูรณ์

FST และการตรวจสอบสัณฐานวิทยา

จะทำอย่างไรหากภาษาของฉันไม่มี FST?

ภาษาจำนวนมากไม่มี finite-state transducer ซึ่งไม่เป็นปัญหา — harness ทำงานได้โดยไม่มี FST composite score จะใช้น้ำหนักแบบ Profile B (ดู Scoring Specification §4.3) ซึ่งเปลี่ยนน้ำหนักไปยังเมตริก semantic และ surface FST acceptance จะถูกทำเครื่องหมายเป็น null ใน run card

registry หลักสำหรับ FST ที่มีอยู่:

Registry	ความครอบคลุม	URL
GiellaLT	Sámi, Cree, Inuktitut และภาษาอื่น ๆ ในแถบอาร์กติก/ซับอาร์กติก	giellalt.uit.no
ALTLab	Plains Cree, Woods Cree, Ojibwe	altlab.artsrn.ualberta.ca
Apertium	~60 คู่ภาษา ส่วนใหญ่เป็นยุโรป	apertium.org
UniMorph	paradigm สัณฐานวิทยาสำหรับ 150+ ภาษา	unimorph.github.io

ฉันสามารถสร้าง FST ได้หรือไม่?

ได้ แต่ไม่ใช่เรื่องง่าย FST เข้ารหัสกฎสัณฐานวิทยาของภาษา — รูปแบบคำที่ถูกต้องทั้งหมด การสร้าง FST ต้องการความรู้ด้านภาษาศาสตร์เชิงลึกของภาษานั้น หากคุณมีไวยากรณ์สัณฐานวิทยา (เช่น จากภาควิชาภาษาศาสตร์) สามารถ compile เป็น FST ได้โดยใช้เครื่องมืออย่าง HFST หรือ Foma

FST gating ทำงานอย่างไรในทางปฏิบัติ?

pipeline แบบ FST-gated ทำงานดังนี้:

LLM สร้างคำแปล
แต่ละคำในผลลัพธ์จะถูกตรวจสอบกับ FST
คำที่ FST ปฏิเสธจะถูกตั้งค่าสถานะว่าไม่ถูกต้องทางสัณฐานวิทยา
วิธีการสามารถลองใหม่พร้อม feedback ("คำ X ไม่ถูกต้อง ลองอีกครั้ง")
หลังจากลองใหม่แล้ว คำที่ยังไม่ถูกต้องจะถูกบันทึกไว้

อัตรา FST acceptance วัดว่ามีคำกี่คำที่ผ่านการตรวจสอบ ดู FST-Gated Pipeline Tutorial สำหรับตัวอย่างที่สมบูรณ์

ข้อมูลและชุดข้อมูล

ฉันสามารถมีส่วนร่วมในการสร้างชุดข้อมูลสำหรับภาษาใหม่ได้หรือไม่?

ได้ ข้อกำหนดขั้นต่ำจาก Benchmark Specification §11:

50 รายการมาตรฐานทอง (ต้นฉบับ + คำแปลอ้างอิงที่ผ่านการยืนยัน)
30 รายการสำหรับพัฒนา (สามารถทับซ้อนกับมาตรฐานทองได้สำหรับ corpus ขนาดเล็ก)
ความยินยอมของชุมชน (สำหรับภาษาพื้นเมือง ต้องได้รับการอนุญาตอย่างชัดเจนจากองค์กรกำกับดูแล)
เอกสารแหล่งที่มา (ข้อมูลมาจากไหน ใช้สัญญาอนุญาตใด)

ชุดข้อมูลใหม่จะเปิด leaderboard track ใหม่โดยอัตโนมัติ ดู For Language Communities สำหรับคู่มือผู้มีส่วนร่วม

ชุดข้อมูลของฉันควรอยู่ในรูปแบบใด?

JSON ที่มีชื่อฟิลด์ตามมาตรฐาน:

{
  "name": "my-language-dev-v1",
  "language_pair": "en-xxx",
  "segment": "development",
  "version": "1.0",
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "[translation in target language]",
      "difficulty": 1,
      "domain": "general"
    }
  ]
}

ดู Datasets สำหรับ schema ฉบับสมบูรณ์และคำจำกัดความของระดับความยาก

อธิปไตยและความเป็นเจ้าของ

ใครเป็นเจ้าของวิธีการที่สร้างขึ้นสำหรับภาษาพื้นเมือง?

สำหรับภาษาพื้นเมือง วิธีการที่บรรลุระดับ Deployable (composite ≥ 0.70) และผ่านการตรวจสอบโดยชุมชนจะกระตุ้นกระบวนการ โอนความเป็นเจ้าของ ความเป็นเจ้าของโค้ดจะโอนจากนักวิจัยไปยังองค์กรกำกับดูแลของชุมชนภาษา

นักวิจัยยังคงมี:

สิทธิ์การตีพิมพ์ (บทความวิชาการเกี่ยวกับวิธีการ)
เครดิตบน leaderboard
สิทธิ์ในการนำ เทคนิค เดียวกันไปใช้กับภาษาอื่น

องค์กรกำกับดูแลได้รับ:

ความเป็นเจ้าของโค้ดวิธีการและ coaching data อย่างสมบูรณ์
การควบคุมการ deploy (เมื่อไร ที่ไหน อย่างไร)
รายได้จากการใช้งาน API (90% ชุมชน 10% โครงสร้างพื้นฐาน)

ฉันสามารถใช้ champollion สำหรับภาษาที่ไม่ใช่ภาษาพื้นเมืองโดยไม่มีข้อกังวลด้านอธิปไตยได้หรือไม่?

ได้ สำหรับภาษามาตรฐาน (ฝรั่งเศส ญี่ปุ่น สเปน ฯลฯ) ไม่มีข้อพิจารณาด้านอธิปไตย ใช้ champollion ตามปกติ — แปล sync และเผยแพร่ตามต้องการ กรอบงานด้านอธิปไตยใช้กับภาษาพื้นเมืองและภาษาที่ชุมชนกำกับดูแลโดยเฉพาะ ซึ่งหลักการกำกับดูแลข้อมูล (OCAP®, CARE, Te Mana Raraunga) กำหนดให้ต้องพิจารณาเป็นพิเศษ

ดูเพิ่มเติม

วิธีการทำงาน — คำอธิบายโซลูชันฉบับสมบูรณ์
Scoring Specification — SSOT สำหรับตรรกะการให้คะแนนทั้งหมด (เมตริก น้ำหนัก tier)
Benchmark Specification — โปรโตคอลการประเมิน รูปแบบ corpus อธิปไตย
ส่งวิธีการ — quickstart แบบทีละขั้นตอน
กฎ Leaderboard — เกณฑ์การส่งผลงาน
Data Sovereignty — OCAP®, CARE และพันธกรณีด้านจริยธรรม

การให้คะแนนและเมตริก​

harness คำนวณเมตริกอะไรบ้าง?​

composite score คำนวณอย่างไร?​

quality tier คืออะไร?​

quality tier และ verification tier ต่างกันอย่างไร?​

การส่งผลงานและการตัดสิทธิ์​

อะไรทำให้การส่งผลงานของฉันถูกตัดสิทธิ์?​

ฉันสามารถส่งผลงานหลายครั้งได้หรือไม่?​

ฉันจะให้คะแนนของฉันได้รับการยืนยันได้อย่างไร?​

submission API พร้อมใช้งานแล้วหรือยัง?​

โมเดลและพารามิเตอร์​

ฉันควรใช้โมเดลใด?​

ควรใช้ temperature เท่าไร?​

coaching data ช่วยได้หรือไม่?​

FST และการตรวจสอบสัณฐานวิทยา​

จะทำอย่างไรหากภาษาของฉันไม่มี FST?​

ฉันสามารถสร้าง FST ได้หรือไม่?​

FST gating ทำงานอย่างไรในทางปฏิบัติ?​

ข้อมูลและชุดข้อมูล​

ฉันสามารถมีส่วนร่วมในการสร้างชุดข้อมูลสำหรับภาษาใหม่ได้หรือไม่?​

ชุดข้อมูลของฉันควรอยู่ในรูปแบบใด?​

อธิปไตยและความเป็นเจ้าของ​

ใครเป็นเจ้าของวิธีการที่สร้างขึ้นสำหรับภาษาพื้นเมือง?​

ฉันสามารถใช้ champollion สำหรับภาษาที่ไม่ใช่ภาษาพื้นเมืองโดยไม่มีข้อกังวลด้านอธิปไตยได้หรือไม่?​

ดูเพิ่มเติม​