ข้ามไปยังเนื้อหาหลัก

คู่มือการสร้าง Corpus

แนวคิด: ก่อนที่คุณจะประเมินวิธีการแปลได้ คุณต้องมี corpus สำหรับการประเมินเสียก่อน คู่มือนี้ครอบคลุมวิธีการสร้างตั้งแต่ต้น — การหาแหล่งข้อมูล ข้อกำหนดด้านรูปแบบ มาตรฐานคุณภาพ การอนุญาตสิทธิ์ และการมีส่วนร่วมกับ Arena

:::info นี่ไม่ใช่วิธีการแปล คู่มือนี้เป็นข้อกำหนดเบื้องต้นสำหรับหลายวิธีการ corpus สำหรับการประเมินที่ดีคือรากฐานที่ทำให้ทุกอย่างเป็นไปได้ แม้แต่คู่ประโยค 50 คู่ที่คัดสรรมาอย่างดีก็เพียงพอที่จะเปิด leaderboard track ใหม่ได้ :::

เมื่อใดควรใช้คู่มือนี้

  • คุณต้องการ เพิ่มคู่ภาษาใหม่ ใน Arena leaderboard
  • คุณเป็น ครูสอนภาษา ที่ต้องการวัดประสิทธิภาพการแปลของนักเรียน
  • คุณเป็น นักภาษาชุมชน ที่มีสิทธิ์เข้าถึงสื่อสองภาษา
  • คุณเป็น นักวิจัย ที่ต้องการชุดข้อมูลประเมินมาตรฐานสำหรับคู่ภาษาของคุณ

รูปแบบ Corpus

harness รับข้อมูลในรูปแบบ JSON อย่างง่าย:

my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}

แหล่งที่มาของข้อมูล

แหล่งที่มาคุณภาพปริมาณการอนุญาตสิทธิ์
ตำราเรียน / สื่อการศึกษาสูง (ผ่านการตรวจสอบโดยผู้เชี่ยวชาญ)ต่ำ–ปานกลางตรวจสอบกับสำนักพิมพ์
เอกสารราชการปานกลาง (ภาษาทางการ)ปานกลาง–สูงมักเป็นสาธารณสมบัติ
พจนานุกรมสองภาษาสูง (รายการที่ผ่านการตรวจสอบ)ปานกลางแตกต่างกันไป
ผู้อาวุโส / เจ้าของภาษาในชุมชนสูงที่สุด (สัญชาตญาณเจ้าของภาษา)ต่ำ (เวลาจำกัด)อยู่ภายใต้การกำกับของชุมชน
ตำราศาสนาปานกลาง (เฉพาะโดเมน)สูงมักเปิดให้ใช้งาน
Corpus ที่มีอยู่แล้ว (Hansard, FLORES)ปานกลาง–สูงสูงตรวจสอบสิทธิ์การใช้งาน
สร้างขึ้นเองสูงที่สุดต่ำคุณเป็นเจ้าของ

มาตรฐานคุณภาพ

corpus สำหรับการประเมินที่ดีควรมี:

  1. เนื้อหาที่หลากหลาย — ไม่ใช่แค่คำทักทายหรือวลีง่ายๆ ควรรวมถึงคำถาม คำสั่ง ประโยคซับซ้อน และคำศัพท์เฉพาะโดเมน
  2. การแปลที่ผ่านการตรวจสอบ — ตรวจสอบโดยผู้พูดภาษาได้คล่องอย่างน้อยหนึ่งคน และควรเป็นสองคน
  3. การสะกดที่สม่ำเสมอ — ใช้อักษรและรูปแบบการสะกดเดียวกันตลอดทั้ง corpus
  4. แหล่งที่มาที่เป็นอิสระ — ไม่ได้มาจากข้อความเดียวกับที่วิธีการต่างๆ จะใช้ฝึกฝน
  5. การอนุญาตสิทธิ์ที่ชัดเจน — สิทธิ์การใช้งานที่ระบุชัดเจนว่าอนุญาตให้ใช้เพื่อการประเมิน

:::danger การปนเปื้อนของ Corpus corpus สำหรับการประเมินต้องมีความ เป็นอิสระ จากข้อมูลฝึกฝนทั้งหมด หากวิธีการใดถูกฝึกหรือป้อนข้อมูลจาก corpus สำหรับการประเมิน วิธีการนั้นจะถูกตัดสิทธิ์ ออกแบบ corpus ของคุณให้เป็นข้อมูลที่สงวนไว้ตั้งแต่เริ่มต้น :::

แนวทางด้านขนาด

ขนาดสิ่งที่รองรับได้
50 รายการการประเมินขั้นต่ำที่ใช้งานได้ — เพียงพอสำหรับตรวจจับความแตกต่างด้านคุณภาพในระดับกว้าง
100–200 รายการการจัดอันดับที่เชื่อถือได้ — เพียงพอสำหรับนัยสำคัญทางสถิติระหว่างวิธีการต่างๆ
500+ รายการระดับงานวิจัย — คะแนน composite ที่แข็งแกร่ง พร้อม confidence interval
1,000+ รายการมาตรฐานทองคำ — เทียบเท่าความครอบคลุมของ FLORES devtest

เริ่มต้นจากขนาดเล็ก 50 รายการก็เพียงพอที่จะเปิด leaderboard track ได้ และสามารถขยายเพิ่มในภายหลัง

การมีส่วนร่วมกับ Arena

  1. สร้าง corpus ของคุณ ในรูปแบบ JSON ข้างต้น
  2. กำหนดสิทธิ์การใช้งาน — แนะนำ CC BY-SA 4.0 สำหรับการประเมินแบบเปิด หรือ CC BY-NC-SA 4.0 สำหรับการใช้งานแบบจำกัด
  3. ส่ง PR ไปยัง eval harness repo พร้อม corpus ของคุณใน data/
  4. leaderboard จะเปิดโดยอัตโนมัติ สำหรับคู่ภาษาของคุณเมื่อ corpus ได้รับการ merge แล้ว

สำหรับชุมชนภาษาพื้นเมือง

การสร้าง corpus คือการแสดงออกถึง อธิปไตยทางภาษา corpus ของคุณ เงื่อนไขของคุณ:

  • คุณเป็นผู้กำหนดสิทธิ์การใช้งานและเงื่อนไขการเข้าถึง
  • คุณสามารถมีส่วนร่วมด้วย ชุดข้อมูลพัฒนาแบบสาธารณะ (สำหรับการพัฒนาวิธีการ) ในขณะที่เก็บ ชุดทดสอบลับ (สำหรับการประเมินอย่างเป็นทางการ) ไว้ภายใต้การควบคุมของชุมชน
  • กรอบการทำงานด้านอธิปไตย ปกป้องข้อมูลของคุณในทุกระดับ

แม้แต่ corpus ขนาดเล็กก็ถือเป็น ทรัพย์สินเชิงยุทธศาสตร์ — มันคือ benchmark ที่กำหนดความหมายของ "ดีพอ" สำหรับภาษาของคุณ

ใช้งานร่วมกับ

  • Partial Translation — การสร้าง corpus คือขั้นตอนการแปลโดยมนุษย์
  • Back-Translation — ข้อมูลสังเคราะห์เสริม corpus ที่มนุษย์สร้างขึ้น
  • ทุก cookbook อื่นๆ — ทั้งหมดต้องการ corpus สำหรับการประเมิน

ดูเพิ่มเติม