ส่งวิธีการแปล
สรุปสำหรับผู้บริหาร คู่มือเริ่มต้นแบบทีละขั้นตอนสำหรับการส่งผลการทดสอบ benchmark ครั้งแรกของคุณไปยัง leaderboard โคลน harness รันกับชุดข้อมูล ตรวจสอบ run card ของคุณ แล้วส่ง ใช้เวลาเพียง 10 นาทีหากคุณมี API key
คู่มือนี้จะแนะนำคุณตลอดกระบวนการส่งผลการทดสอบ benchmark ครั้งแรกไปยัง leaderboard ของ MT Eval Arena
ข้อกำหนดเบื้องต้น
- Python 3.10+
- OpenRouter API key (หรือเทียบเท่าสำหรับผู้ให้บริการโมเดลของคุณ)
- วิธีการแปล — สิ่งใดก็ตามที่สร้างคำแปลจากข้อความต้นฉบับ
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp
ขั้นตอนที่ 1: รัน Harness
Harness จะให้คะแนนวิธีการของคุณเทียบกับชุดข้อมูลมาตรฐาน:
mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
| Flag | หน้าที่ |
|---|---|
--corpus | พาธไปยัง evaluation corpus (.json, .jsonl, .tsv) |
--model | Model slug — ชื่อย่อ (เช่น gemini-pro) หรือ OpenRouter ID แบบเต็ม |
--condition | ชื่อสำหรับวิธีการของคุณ (แสดงบน leaderboard) |
--temperature | Sampling temperature (ค่าต่ำ = ผลลัพธ์แน่นอนกว่า) |
--fst-retries | ตัวเลือกเสริม: จำนวนครั้งที่ลองใหม่สำหรับ FST |
--submit | ส่ง run card ไปยัง leaderboard โดยอัตโนมัติ |
Harness จะสร้าง run card — ไฟล์ JSON แบบ self-contained ที่บรรจุคะแนน, hash ของชุดข้อมูล, model slug และลายนิ้วมือเข้ารหัสที่ผูกผลลัพธ์กับการกำหนดค่าการทดลองที่แน่นอน
ขั้นตอนที่ 2: ตรวจสอบ Run Card ของคุณ
Run card จะถูกบันทึกไว้ที่ results/ ตรวจสอบก่อนส่ง:
cat results/your-run-card.json | python -m json.tool
ฟิลด์สำคัญที่ต้องตรวจสอบ:
scores.chrf_plus_plus— เมตริกคุณภาพหลักของคุณscores.exact_match_rate— สัดส่วนของคำแปลที่สมบูรณ์แบบscores.fst_acceptance_rate— ความถูกต้องทางสัณฐานวิทยา (หากใช้ FST)totals.total_cost_usd— ค่าใช้จ่ายของการรันfingerprint— hash สำหรับการทำซ้ำการทดลอง
ดู ข้อกำหนด Run Card สำหรับ schema ฉบับสมบูรณ์
ขั้นตอนที่ 3: ส่ง
การส่งอัตโนมัติ
หากคุณระบุ --submit ขณะรัน harness run card ของคุณถูกอัปโหลดไปแล้ว
การส่งด้วยตนเอง
ส่ง run card ใดก็ได้ผ่าน API:
curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json
หรืออัปโหลดผ่าน Leaderboard UI
ขั้นตอนถัดไป
- การส่งของคุณจะถูกตรวจสอบความถูกต้อง (dataset hash, ความสมบูรณ์ของ run card)
- ผลลัพธ์จะปรากฏบน leaderboard ในสถานะ Self-benchmarked (ระดับความน่าเชื่อถือ 1)
- เพื่อรับสถานะ GDS Verified ให้ส่งวิธีการของคุณในรูปแบบ installable plugin เพื่อให้ผู้ดูแลระบบสามารถทำซ้ำผลลัพธ์ของคุณได้
- สำหรับวิธีการที่ใช้กับภาษาพื้นเมือง: หากวิธีการของคุณขึ้นสู่อันดับสูงสุด กระบวนการ โอนกรรมสิทธิ์ จะเริ่มต้นขึ้น
ดูเพิ่มเติม
- การใช้งาน Harness — เอกสารอ้างอิง CLI ฉบับสมบูรณ์
- กฎของ Leaderboard — เกณฑ์การส่งและนโยบายป้องกันการโกง
- การสร้างวิธีการแปล — โปรโตคอล TranslationMethod
- ชุดข้อมูล — ชุดข้อมูลสำหรับการประเมินที่มีให้ใช้งาน