ข้ามไปยังเนื้อหาหลัก

ชุดข้อมูลสำหรับการประเมิน

สรุปสำหรับผู้บริหาร หน้านี้อธิบายชุดข้อมูลสำหรับการประเมินที่ใช้ในการทำ benchmarking รวมถึงโครงสร้าง schema ของรายการในคลังข้อมูล ระดับความยาก (1–5) และข้อกำหนดด้านที่มาของข้อมูล ชุดข้อมูลที่พร้อมใช้งานในปัจจุบัน: EDTeKLA Dev v1 (Plains Cree, รวม 548 รายการ: 486 จากตำราเรียน + 62 มาตรฐานทอง) และ FLORES+ Devtest (39 ภาษา, 1,012 รายการต่อภาษา)

ชุดข้อมูลคือเป้าหมายคงที่ที่ harness ใช้ในการประเมิน แต่ละชุดข้อมูลเป็นไฟล์ JSON ที่ประกอบด้วยคู่ข้อความต้นทาง→ปลายทางพร้อมการแปลอ้างอิงมาตรฐานทอง harness จะให้คะแนนผลลัพธ์ของโมเดลโดยเปรียบเทียบกับการอ้างอิงเหล่านี้ และจะไม่แก้ไขข้อมูลเหล่านั้นเด็ดขาด

:::danger ห้ามนำข้อมูลสำหรับการประเมินไปใช้ฝึกโมเดล

⚠️ ชุดข้อมูลเหล่านี้มีไว้สำหรับการประเมินเท่านั้น วิธีการที่ถูกฝึก fine-tuned few-shot-prompted หรือได้รับการเปิดเผยต่อข้อมูลสำหรับการประเมินในรูปแบบใดก็ตาม จะให้คะแนนที่สูงเกินจริงและจะถูกตัดสิทธิ์จาก leaderboard

ใช้คลังข้อมูลแยกต่างหากสำหรับการฝึก ชุดข้อมูลสำหรับการประเมินต้องไม่ถูกเปิดเผยต่อโมเดลของคุณในระหว่างการพัฒนา :::


รูปแบบชุดข้อมูล

ชุดข้อมูลทุกชุดใช้ JSON schema เดียวกัน:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info Schema มาตรฐาน Benchmark Specification กำหนด schema มาตรฐานของคลังข้อมูลและรายการข้อมูล หน้านี้จัดทำเอกสารชุดข้อมูลที่มีอยู่และวิธีการสร้างชุดข้อมูลใหม่ :::

บล็อก dataset ระดับบนสุด

ฟิลด์ประเภทคำอธิบาย
idstringตัวระบุชุดข้อมูลที่ไม่ซ้ำกัน (ใช้ใน run card และ leaderboard)
versionstringSemantic version การเพิ่มค่านี้จะทำให้การเปรียบเทียบ run card ก่อนหน้าใช้ไม่ได้
language_pairstringป้ายชื่อสำหรับแสดงผล (เช่น EN→CRK)
descriptionstringไม่บังคับ สรุปที่มนุษย์อ่านได้
source_languagestringรหัสภาษาต้นทาง BCP 47
target_languagestringรหัสภาษาปลายทาง BCP 47
createdstringวันที่สร้างในรูปแบบ ISO 8601
licensestringตัวระบุสัญญาอนุญาต SPDX
provenancestring[]รายการแท็กที่มาของข้อมูลที่ใช้ในรายการต่าง ๆ

ฟิลด์ของรายการข้อมูล

ฟิลด์ประเภทจำเป็นคำอธิบาย
idintegerตัวระบุรายการที่ไม่ซ้ำกันภายในคลังข้อมูล
sourcestringข้อความต้นทางที่ต้องการแปล
referencestringการแปลอ้างอิงมาตรฐานทอง
difficultyintegerระดับความยาก 1–5 (ดูด้านล่าง)
provenancestringที่มาของรายการนี้ (เช่น gold_standard, textbook, elicited)
registerstringระดับทะเบียนภาษา/ความเป็นทางการ (เช่น conversational, formal, ceremonial)
contextstringหน้าที่ในการสื่อสาร (เช่น greeting, declaration, instruction)
notesstringบริบทเสริมสำหรับผู้ตรวจสอบที่เป็นมนุษย์
morphological_analysisstringการวิเคราะห์ทางสัณฐานวิทยามาตรฐานทอง
variant_classstringป้ายกำกับคลาสสำหรับจัดกลุ่มรูปแบบการแปลที่ยอมรับได้

ชุดข้อมูลที่พร้อมใช้งาน

EDTeKLA Development Set v1

ชุดข้อมูลสำหรับการประเมินชุดแรก สร้างขึ้นสำหรับการแปลภาษาอังกฤษ→Plains Cree (SRO) จัดทำโดย กลุ่มวิจัย EdTeKLA แห่งมหาวิทยาลัย Alberta

คุณสมบัติค่า
IDedtekla-dev-v1
เวอร์ชัน1.0
คู่ภาษาEN → CRK (Plains Cree, อักขรวิธี SRO)
จำนวนรายการรวม 548 รายการ (486 จากตำราเรียน + 62 มาตรฐานทอง) คลังข้อมูล dev มาตรฐานคือ textbook_dev.json (436 รายการ — ชุด dev ของตำราเรียนทั้งหมดจาก 486 รายการ: 436 dev + 50 held-out test)
การกระจายระดับความยากง่าย ปานกลาง ยาก
ที่มาของข้อมูลgold_standard (ตรวจสอบโดยผู้พูดภาษา), textbook (สื่อการศึกษาที่ตีพิมพ์แล้ว)
สัญญาอนุญาตCC BY-NC-SA 4.0

สิ่งที่ชุดข้อมูลนี้ทดสอบ:

  • คำทักทายพื้นฐานและวลีที่ใช้บ่อย
  • ความมีชีวิตของคำนามและ obviation
  • การผันกริยาตามบุคคลและกาล
  • โครงสร้าง locative
  • กระบวนทัศน์ possessive
  • โครงสร้างประโยคซับซ้อน

:::tip โครงสร้างคลังข้อมูล คอลเลกชัน EdTeKLA ทั้งหมดมี 548 รายการที่ผ่านการคัดสรร: 486 รายการจากคลังข้อมูลตำราเรียน (436 dev + 50 held-out) และ 62 รายการจากมาตรฐานทอง itwêwina คลังข้อมูล dev มาตรฐานคือ textbook_dev.json ซึ่งมี 436 รายการ — ชุด dev ของตำราเรียนทั้งหมด แต่ละรายการได้รับการตรวจสอบโดยผู้พูดภาษาที่คล่องแคล่ว หรือนำมาจากตำราเรียนภาษา Cree ที่ตีพิมพ์แล้ว ชุดข้อมูลขนาดเล็กที่มีคุณภาพสูงพร้อมมาตรฐานทองที่ผ่านการตรวจสอบมีประโยชน์มากกว่าชุดข้อมูลขนาดใหญ่ที่มีสัญญาณรบกวน โดยเฉพาะอย่างยิ่งสำหรับภาษาที่มีทรัพยากรน้อย ซึ่งการแปลที่ "ใกล้เคียงพอ" มักไม่ถูกต้องในเชิงสัณฐานวิทยา :::


การสร้างชุดข้อมูลใหม่

หากต้องการสร้างชุดข้อมูลสำหรับคู่ภาษาหรือโดเมนใหม่:

1. จัดโครงสร้าง JSON

ปฏิบัติตาม schema ใน รูปแบบชุดข้อมูล แต่ละรายการต้องมี source, reference, difficulty, provenance, register และ context

2. กำหนด ID ที่ไม่ซ้ำกัน

ใช้ slug ที่สื่อความหมาย: {project}-{split}-v{version} (เช่น edtekla-dev-v1, quechua-test-v1)

3. ตรวจสอบมาตรฐานทอง

ค่า reference ทุกค่าต้องได้รับการตรวจสอบโดยผู้พูดภาษาที่คล่องแคล่ว หรือนำมาจากแหล่งที่ตีพิมพ์และผ่านการทบทวนโดยผู้เชี่ยวชาญ การอ้างอิงที่สร้างโดยเครื่องจะทำให้วัตถุประสงค์ของการประเมินสูญเสียความหมาย

4. กำหนดระดับความยาก

กำหนดระดับความยากเป็นจำนวนเต็มให้แต่ละรายการ:

ระดับคำอธิบายตัวอย่าง
1 — คำศัพท์พื้นฐานคำเดี่ยว คำทักทายทั่วไป ตัวเลข"hello" → "tânisi"
2 — ประโยคง่ายประธาน-กริยา หรือ SVO กาลปัจจุบัน"I see the dog"
3 — ความซับซ้อนปานกลางกาลอดีต/อนาคต possessive animacy"I saw his dog yesterday"
4 — สัณฐานวิทยาซับซ้อนObviation passive voice conjunct order"the woman whose son went to the store"
5 — ขั้นสูงหลายอนุประโยค ทะเบียนภาษาทางการ พิธีกรรม สำนวนย่อหน้าเต็มที่มีน้ำเสียงเหมาะสมกับทะเบียนภาษา

5. ติดแท็กที่มาของข้อมูล

แต่ละรายการควรระบุแหล่งที่มา แท็กที่ใช้บ่อย:

  • gold_standard — ตรวจสอบโดยผู้พูดภาษาที่คล่องแคล่ว
  • textbook — นำมาจากสื่อการศึกษาที่ตีพิมพ์แล้ว
  • elicited — ผลิตผ่านการสัมภาษณ์เชิงโครงสร้าง
  • corpus — สกัดจากคลังข้อมูลคู่ขนาน

6. ตรวจสอบความถูกต้องของไฟล์

รัน harness กับชุดข้อมูลของคุณด้วยโมเดลใดก็ได้ เพื่อตรวจสอบว่า JSON มีรูปแบบถูกต้องและฟิลด์ที่จำเป็นทั้งหมดมีอยู่ครบถ้วน:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

harness จะแสดงข้อผิดพลาดหากพบฟิลด์ที่ขาดหายไป ดัชนีซ้ำกัน หรือการละเมิด schema

7. ส่งเพื่อรวมเข้าในระบบ

เปิด pull request ไปยัง eval harness repository พร้อมไฟล์ชุดข้อมูลของคุณในไดเรกทอรี data/ พร้อมแนบเอกสารระบุวิธีการตรวจสอบและแหล่งที่มาของข้อมูล


FLORES+ Devtest

benchmark หลายภาษาที่ครอบคลุมกว้าง ดูแลโดย Open Language Data Initiative (OLDI) ใช้สำหรับ frontier benchmark หลายโมเดลของ champollion

คุณสมบัติค่า
IDflores-plus-devtest
คู่ภาษาEN → 39 ภาษา (ภาษาธรรมชาติที่ลงทะเบียนใน champollion ทั้งหมด)
จำนวนรายการ1,012 ประโยคต่อภาษา
สัญญาอนุญาตCC BY-SA 4.0
แหล่งที่มาเดิมคือ Meta FLORES-200 ปัจจุบันดูแลโดย OLDI
ที่เก็บข้อมูลfixtures ที่สกัดไว้ล่วงหน้าที่ test/benchmark/fixtures/ ใน champollion repo หลัก

:::danger สำหรับการประเมินเท่านั้น FLORES+ มีไว้สำหรับการประเมินเท่านั้น ผู้ดูแลระบบขอร้องอย่างชัดเจนว่าห้ามนำไปใช้เป็นข้อมูลฝึก ตรวจสอบให้แน่ใจว่าเนื้อหาของ FLORES+ ถูกยกเว้นออกจากคลังข้อมูลฝึกทั้งหมด :::


ดูเพิ่มเติม

  • MT Evaluation — ภาพรวมของกรอบการประเมินและ leaderboard
  • Eval Harness — วิธีการรันการประเมินกับชุดข้อมูลเหล่านี้
  • Run Card Specification — JSON schema สำหรับบันทึกผลลัพธ์
  • Method Leaderboard — คะแนน benchmark แบบเรียลไทม์
  • EdTeKLA Project — กลุ่มวิจัยมหาวิทยาลัย Alberta ผู้อยู่เบื้องหลังชุดข้อมูลภาษา Cree