คู่มือการสร้าง Corpus
แนวคิด: ก่อนที่คุณจะประเมินวิธีการแปลได้ คุณต้องมี corpus สำหรับการประเมินเสียก่อน คู่มือนี้ครอบคลุมวิธีการสร้างตั้งแต่ต้น — การหาแหล่งข้อมูล ข้อกำหนดด้านรูปแบบ มาตรฐานคุณภาพ การอนุญาตสิทธิ์ และการมีส่วนร่วมกับ Arena
:::info นี่ไม่ใช่วิธีการแปล คู่มือนี้เป็นข้อกำหนดเบื้องต้นสำหรับหลายวิธีการ corpus สำหรับการประเมินที่ดีคือรากฐานที่ทำให้ทุกอย่างเป็นไปได้ แม้แต่คู่ประโยค 50 คู่ที่คัดสรรมาอย่างดีก็เพียงพอที่จะเปิด leaderboard track ใหม่ได้ :::
เมื่อใดควรใช้คู่มือนี้
- คุณต้องการ เพิ่มคู่ภาษาใหม่ ใน Arena leaderboard
- คุณเป็น ครูสอนภาษา ที่ต้องการวัดประสิทธิภาพการแปลของนักเรียน
- คุณเป็น นักภาษาชุมชน ที่มีสิทธิ์เข้าถึงสื่อสองภาษา
- คุณเป็น นักวิจัย ที่ต้องการชุดข้อมูลประเมินมาตรฐานสำหรับคู่ภาษาของคุณ
รูปแบบ Corpus
harness รับข้อมูลในรูปแบบ JSON อย่างง่าย:
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}
แหล่งที่มาของข้อมูล
| แหล่งที่มา | คุณภาพ | ปริมาณ | การอนุญาตสิทธิ์ |
|---|---|---|---|
| ตำราเรียน / สื่อการศึกษา | สูง (ผ่านการตรวจสอบโดยผู้เชี่ยวชาญ) | ต่ำ–ปานกลาง | ตรวจสอบกับสำนักพิมพ์ |
| เอกสารราชการ | ปานกลาง (ภาษาทางการ) | ปานกลาง–สูง | มักเป็นสาธารณสมบัติ |
| พจนานุกรมสองภาษา | สูง (รายการที่ผ่านการตรวจสอบ) | ปานกลาง | แตกต่างกันไป |
| ผู้อาวุโส / เจ้าของภาษาในชุมชน | สูงที่สุด (สัญชาตญาณเจ้าของภาษา) | ต่ำ (เวลาจำกัด) | อยู่ภายใต้การกำกับของชุมชน |
| ตำราศาสนา | ปานกลาง (เฉพาะโดเมน) | สูง | มักเปิดให้ใช้งาน |
| Corpus ที่มีอยู่แล้ว (Hansard, FLORES) | ปานกลาง–สูง | สูง | ตรวจสอบสิทธิ์การใช้งาน |
| สร้างขึ้นเอง | สูงที่สุด | ต่ำ | คุณเป็นเจ้าของ |
มาตรฐานคุณภาพ
corpus สำหรับการประเมินที่ดีควรมี:
- เนื้อหาที่หลากหลาย — ไม่ใช่แค่คำทักทายหรือวลีง่ายๆ ควรรวมถึงคำถาม คำสั่ง ประโยคซับซ้อน และคำศัพท์เฉพาะโดเมน
- การแปลที่ผ่านการตรวจสอบ — ตรวจสอบโดยผู้พูดภาษาได้คล่องอย่างน้อยหนึ่งคน และควรเป็นสองคน
- การสะกดที่สม่ำเสมอ — ใช้อักษรและรูปแบบการสะกดเดียวกันตลอดทั้ง corpus
- แหล่งที่มาที่เป็นอิสระ — ไม่ได้มาจากข้อความเดียวกับที่วิธีการต่างๆ จะใช้ฝึกฝน
- การอนุญาตสิทธิ์ที่ชัดเจน — สิทธิ์การใช้งานที่ระบุชัดเจนว่าอนุญาตให้ใช้เพื่อการประเมิน
:::danger การปนเปื้อนของ Corpus corpus สำหรับการประเมินต้องมีความ เป็นอิสระ จากข้อมูลฝึกฝนทั้งหมด หากวิธีการใดถูกฝึกหรือป้อนข้อมูลจาก corpus สำหรับการประเมิน วิธีการนั้นจะถูกตัดสิทธิ์ ออกแบบ corpus ของคุณให้เป็นข้อมูลที่สงวนไว้ตั้งแต่เริ่มต้น :::
แนวทางด้านขนาด
| ขนาด | สิ่งที่รองรับได้ |
|---|---|
| 50 รายการ | การประเมินขั้นต่ำที่ใช้งานได้ — เพียงพอสำหรับตรวจจับความแตกต่างด้านคุณภาพในระดับกว้าง |
| 100–200 รายการ | การจัดอันดับที่เชื่อถือได้ — เพียงพอสำหรับนัยสำคัญทางสถิติระหว่างวิธีการต่างๆ |
| 500+ รายการ | ระดับงานวิจัย — คะแนน composite ที่แข็งแกร่ง พร้อม confidence interval |
| 1,000+ รายการ | มาตรฐานทองคำ — เทียบเท่าความครอบคลุมของ FLORES devtest |
เริ่มต้นจากขนาดเล็ก 50 รายการก็เพียงพอที่จะเปิด leaderboard track ได้ และสามารถขยายเพิ่มในภายหลัง
การมีส่วนร่วมกับ Arena
- สร้าง corpus ของคุณ ในรูปแบบ JSON ข้างต้น
- กำหนดสิทธิ์การใช้งาน — แนะนำ CC BY-SA 4.0 สำหรับการประเมินแบบเปิด หรือ CC BY-NC-SA 4.0 สำหรับการใช้งานแบบจำกัด
- ส่ง PR ไปยัง eval harness repo พร้อม corpus ของคุณใน
data/ - leaderboard จะเปิดโดยอัตโนมัติ สำหรับคู่ภาษาของคุณเมื่อ corpus ได้รับการ merge แล้ว
สำหรับชุมชนภาษาพื้นเมือง
การสร้าง corpus คือการแสดงออกถึง อธิปไตยทางภาษา corpus ของคุณ เงื่อนไขของคุณ:
- คุณเป็นผู้กำหนดสิทธิ์การใช้งานและเงื่อนไขการเข้าถึง
- คุณสามารถมีส่วนร่วมด้วย ชุดข้อมูลพัฒนาแบบสาธารณะ (สำหรับการพัฒนาวิธีการ) ในขณะที่เก็บ ชุดทดสอบลับ (สำหรับการประเมินอย่างเป็นทางการ) ไว้ภายใต้การควบคุมของชุมชน
- กรอบการทำงานด้านอธิปไตย ปกป้องข้อมูลของคุณในทุกระดับ
แม้แต่ corpus ขนาดเล็กก็ถือเป็น ทรัพย์สินเชิงยุทธศาสตร์ — มันคือ benchmark ที่กำหนดความหมายของ "ดีพอ" สำหรับภาษาของคุณ
ใช้งานร่วมกับ
- Partial Translation — การสร้าง corpus คือขั้นตอนการแปลโดยมนุษย์
- Back-Translation — ข้อมูลสังเคราะห์เสริม corpus ที่มนุษย์สร้างขึ้น
- ทุก cookbook อื่นๆ — ทั้งหมดต้องการ corpus สำหรับการประเมิน
ดูเพิ่มเติม
- Evaluation Datasets — corpus ที่มีอยู่แล้ว (EDTeKLA, FLORES+)
- Data Sovereignty — ความเป็นเจ้าของและการควบคุม
- For Language Communities — การมีส่วนร่วมของชุมชน
- Support a Low-Resource Language — ภาพรวมทั้งหมด