คู่มือการสร้าง Corpus

แนวคิด: ก่อนที่คุณจะประเมินวิธีการแปลได้ คุณต้องมี corpus สำหรับการประเมินเสียก่อน คู่มือนี้ครอบคลุมวิธีการสร้างตั้งแต่ต้น — การหาแหล่งข้อมูล ข้อกำหนดด้านรูปแบบ มาตรฐานคุณภาพ การอนุญาตสิทธิ์ และการมีส่วนร่วมกับ Arena

:::info นี่ไม่ใช่วิธีการแปล คู่มือนี้เป็นข้อกำหนดเบื้องต้นสำหรับหลายวิธีการ corpus สำหรับการประเมินที่ดีคือรากฐานที่ทำให้ทุกอย่างเป็นไปได้ แม้แต่คู่ประโยค 50 คู่ที่คัดสรรมาอย่างดีก็เพียงพอที่จะเปิด leaderboard track ใหม่ได้ :::

เมื่อใดควรใช้คู่มือนี้

คุณต้องการ เพิ่มคู่ภาษาใหม่ ใน Arena leaderboard
คุณเป็น ครูสอนภาษา ที่ต้องการวัดประสิทธิภาพการแปลของนักเรียน
คุณเป็น นักภาษาชุมชน ที่มีสิทธิ์เข้าถึงสื่อสองภาษา
คุณเป็น นักวิจัย ที่ต้องการชุดข้อมูลประเมินมาตรฐานสำหรับคู่ภาษาของคุณ

รูปแบบ Corpus

harness รับข้อมูลในรูปแบบ JSON อย่างง่าย:

my-corpus.json
{
  "metadata": {
    "name": "Quechua Dev v1",
    "version": "1.0.0",
    "source_language": "eng",
    "target_language": "que",
    "entry_count": 75,
    "license": "CC-BY-SA-4.0",
    "author": "Your Name / Organization",
    "description": "75 English-Quechua pairs from educational materials"
  },
  "entries": [
    {
      "id": 1,
      "source": "Hello, how are you?",
      "reference": "Allillanchu, imaynallan kashanki?"
    },
    {
      "id": 2,
      "source": "The sun is shining today",
      "reference": "Kunan p'unchay inti k'anchashan"
    }
  ]
}

แหล่งที่มาของข้อมูล

แหล่งที่มา	คุณภาพ	ปริมาณ	การอนุญาตสิทธิ์
ตำราเรียน / สื่อการศึกษา	สูง (ผ่านการตรวจสอบโดยผู้เชี่ยวชาญ)	ต่ำ–ปานกลาง	ตรวจสอบกับสำนักพิมพ์
เอกสารราชการ	ปานกลาง (ภาษาทางการ)	ปานกลาง–สูง	มักเป็นสาธารณสมบัติ
พจนานุกรมสองภาษา	สูง (รายการที่ผ่านการตรวจสอบ)	ปานกลาง	แตกต่างกันไป
ผู้อาวุโส / เจ้าของภาษาในชุมชน	สูงที่สุด (สัญชาตญาณเจ้าของภาษา)	ต่ำ (เวลาจำกัด)	อยู่ภายใต้การกำกับของชุมชน
ตำราศาสนา	ปานกลาง (เฉพาะโดเมน)	สูง	มักเปิดให้ใช้งาน
Corpus ที่มีอยู่แล้ว (Hansard, FLORES)	ปานกลาง–สูง	สูง	ตรวจสอบสิทธิ์การใช้งาน
สร้างขึ้นเอง	สูงที่สุด	ต่ำ	คุณเป็นเจ้าของ

มาตรฐานคุณภาพ

corpus สำหรับการประเมินที่ดีควรมี:

เนื้อหาที่หลากหลาย — ไม่ใช่แค่คำทักทายหรือวลีง่ายๆ ควรรวมถึงคำถาม คำสั่ง ประโยคซับซ้อน และคำศัพท์เฉพาะโดเมน
การแปลที่ผ่านการตรวจสอบ — ตรวจสอบโดยผู้พูดภาษาได้คล่องอย่างน้อยหนึ่งคน และควรเป็นสองคน
การสะกดที่สม่ำเสมอ — ใช้อักษรและรูปแบบการสะกดเดียวกันตลอดทั้ง corpus
แหล่งที่มาที่เป็นอิสระ — ไม่ได้มาจากข้อความเดียวกับที่วิธีการต่างๆ จะใช้ฝึกฝน
การอนุญาตสิทธิ์ที่ชัดเจน — สิทธิ์การใช้งานที่ระบุชัดเจนว่าอนุญาตให้ใช้เพื่อการประเมิน

:::danger การปนเปื้อนของ Corpus corpus สำหรับการประเมินต้องมีความ เป็นอิสระ จากข้อมูลฝึกฝนทั้งหมด หากวิธีการใดถูกฝึกหรือป้อนข้อมูลจาก corpus สำหรับการประเมิน วิธีการนั้นจะถูกตัดสิทธิ์ ออกแบบ corpus ของคุณให้เป็นข้อมูลที่สงวนไว้ตั้งแต่เริ่มต้น :::

แนวทางด้านขนาด

ขนาด	สิ่งที่รองรับได้
50 รายการ	การประเมินขั้นต่ำที่ใช้งานได้ — เพียงพอสำหรับตรวจจับความแตกต่างด้านคุณภาพในระดับกว้าง
100–200 รายการ	การจัดอันดับที่เชื่อถือได้ — เพียงพอสำหรับนัยสำคัญทางสถิติระหว่างวิธีการต่างๆ
500+ รายการ	ระดับงานวิจัย — คะแนน composite ที่แข็งแกร่ง พร้อม confidence interval
1,000+ รายการ	มาตรฐานทองคำ — เทียบเท่าความครอบคลุมของ FLORES devtest

เริ่มต้นจากขนาดเล็ก 50 รายการก็เพียงพอที่จะเปิด leaderboard track ได้ และสามารถขยายเพิ่มในภายหลัง

การมีส่วนร่วมกับ Arena

สร้าง corpus ของคุณ ในรูปแบบ JSON ข้างต้น
กำหนดสิทธิ์การใช้งาน — แนะนำ CC BY-SA 4.0 สำหรับการประเมินแบบเปิด หรือ CC BY-NC-SA 4.0 สำหรับการใช้งานแบบจำกัด
ส่ง PR ไปยัง eval harness repo พร้อม corpus ของคุณใน data/
leaderboard จะเปิดโดยอัตโนมัติ สำหรับคู่ภาษาของคุณเมื่อ corpus ได้รับการ merge แล้ว

สำหรับชุมชนภาษาพื้นเมือง

การสร้าง corpus คือการแสดงออกถึง อธิปไตยทางภาษา corpus ของคุณ เงื่อนไขของคุณ:

คุณเป็นผู้กำหนดสิทธิ์การใช้งานและเงื่อนไขการเข้าถึง
คุณสามารถมีส่วนร่วมด้วย ชุดข้อมูลพัฒนาแบบสาธารณะ (สำหรับการพัฒนาวิธีการ) ในขณะที่เก็บ ชุดทดสอบลับ (สำหรับการประเมินอย่างเป็นทางการ) ไว้ภายใต้การควบคุมของชุมชน
กรอบการทำงานด้านอธิปไตย ปกป้องข้อมูลของคุณในทุกระดับ

แม้แต่ corpus ขนาดเล็กก็ถือเป็น ทรัพย์สินเชิงยุทธศาสตร์ — มันคือ benchmark ที่กำหนดความหมายของ "ดีพอ" สำหรับภาษาของคุณ

ใช้งานร่วมกับ

Partial Translation — การสร้าง corpus คือขั้นตอนการแปลโดยมนุษย์
Back-Translation — ข้อมูลสังเคราะห์เสริม corpus ที่มนุษย์สร้างขึ้น
ทุก cookbook อื่นๆ — ทั้งหมดต้องการ corpus สำหรับการประเมิน

ดูเพิ่มเติม

Evaluation Datasets — corpus ที่มีอยู่แล้ว (EDTeKLA, FLORES+)
Data Sovereignty — ความเป็นเจ้าของและการควบคุม
For Language Communities — การมีส่วนร่วมของชุมชน
Support a Low-Resource Language — ภาพรวมทั้งหมด

เมื่อใดควรใช้คู่มือนี้​

รูปแบบ Corpus​

แหล่งที่มาของข้อมูล​

มาตรฐานคุณภาพ​

แนวทางด้านขนาด​

การมีส่วนร่วมกับ Arena​

สำหรับชุมชนภาษาพื้นเมือง​

ใช้งานร่วมกับ​

ดูเพิ่มเติม​