ข้ามไปยังเนื้อหาหลัก

กรอบการออกแบบคลังข้อมูลสำหรับการประเมิน

เวอร์ชัน: 1.0 สถานะ: ร่าง วัตถุประสงค์: ระเบียบวิธีเชิงระบบสำหรับการสร้างคลังข้อมูลการประเมินที่ให้ผลการประเมินคุณภาพการแปลที่ถูกต้อง เชื่อถือได้ และมีความหมายทางภาษาศาสตร์ เอกสารนี้เป็นแหล่งอ้างอิงหลักสำหรับวิธีการออกแบบ สร้าง และดูแลรักษาชุดข้อมูลการประเมินของ Champollion


1. หลักการออกแบบ

1.1 — เหตุใดจึงไม่ใช้ Benchmark สาธารณะ?

คลังข้อมูลคู่ขนานสาธารณะ (FLORES+, Tatoeba, WMT test sets, OPUS) เปิดให้ใช้งานสำหรับการพัฒนาและดีบักได้ แต่ถูกยกเว้นจากการประเมิน leaderboard อย่างเป็นทางการ เหตุผลนั้นชัดเจน:

การปนเปื้อน (Contamination) LLM รุ่นล่าสุดได้รับการฝึกบนข้อมูลจากการรวบรวมเว็บขนาดใหญ่ ข้อความคู่ขนานใดก็ตามที่เคยเผยแพร่สู่สาธารณะ โดยเฉพาะในชุดข้อมูล benchmark ที่ได้รับการดูแลและอ้างอิงอย่างแพร่หลาย มีแนวโน้มสูงที่จะอยู่ในข้อมูลฝึกของโมเดลเหล่านั้น เมื่อคุณประเมิน GPT-4o บน FLORES+ แล้วได้คะแนน 85 chrF++ คุณไม่สามารถแยกแยะได้ว่า "โมเดลมีความสามารถในการแปลที่ดี" หรือ "โมเดลจำคู่ประโยคเฉพาะเหล่านี้ได้" นี่ไม่ใช่ข้อกังวลเชิงทฤษฎี — งานวิจัยได้แสดงให้เห็น ถึงผลกระทบของการปนเปื้อนที่วัดได้บน MT benchmark

สำหรับ Champollion เรื่องนี้มีความสำคัญอย่างยิ่งเพราะ:

  • leaderboard ของเราเปรียบเทียบวิธีการที่ใช้ LLM เป็นหลัก
  • คุณค่าที่เรานำเสนอคือ การประเมินที่ซื่อสัตย์และเข้มงวด
  • ผู้ใช้เป้าหมายของเรา (ชุมชนภาษา) ตัดสินใจเรื่องการนำไปใช้งานจริงโดยอิงจากคะแนนเหล่านี้

1.2 — ข้อกำหนดหลัก

คลังข้อมูลการประเมินของ Champollion ทุกชุดต้องเป็นไปตามข้อกำหนดต่อไปนี้:

ข้อกำหนดเหตุผล
เขียนโดยมนุษย์ไม่มีข้อมูลสังเคราะห์ ข้อความต้นฉบับและการแปลอ้างอิงทั้งหมดต้องเขียนโดยมนุษย์ LLM อาจช่วยในการจัดแนวและการจัดรูปแบบได้ แต่ห้ามสร้างเนื้อหา
ไม่เผยแพร่สู่สาธารณะในรูปแบบคู่ขนานข้อความต้นฉบับอาจเป็นสาธารณะ การแปลอ้างอิงอาจเป็นสาธารณะ แต่ การจับคู่ เฉพาะนั้นต้องไม่มีอยู่ในรูปแบบคลังข้อมูลคู่ขนานที่ดาวน์โหลดได้
ติดตามที่มาทุกรายการต้องมีการบันทึกแหล่งที่มา: เอกสารต้นฉบับ ผู้แปล ใบอนุญาต และวันที่
อิงข้อมูลทางภาษาศาสตร์การครอบคลุมต้องได้รับการชี้นำจากลักษณะทางประเภทวิทยา ไม่ใช่การสุ่มตัวอย่าง
แบ่งชั้นตามโดเมนรายการต้องครอบคลุมโดเมนข้อความที่กำหนดไว้โดยมีการควบคุมสัดส่วน
แบ่งระดับความยากรายการต้องได้รับการกำหนดระดับความยาก (1–5) ตามความซับซ้อนเชิงโครงสร้าง
ควบคุมเวอร์ชันเวอร์ชันของคลังข้อมูลใช้ content hash คะแนนสามารถเปรียบเทียบได้เฉพาะภายในเวอร์ชันเดียวกันเท่านั้น
ชุมชนตรวจสอบได้การแปลอ้างอิงต้องสามารถตรวจสอบได้โดยสมาชิกชุมชนภาษา

2. การคัดเลือกข้อความต้นฉบับ

2.1 — อนุกรมวิธานโดเมน

Champollion ประเมินการแปลสำหรับ บริบทการนำไปใช้งานจริง ไม่ใช่แบบฝึกหัดทางวิชาการ อนุกรมวิธานโดเมนสะท้อนประเภทข้อความในโลกจริงที่ผู้ใช้งานการแปลพบเจอ:

โดเมนรหัสคำอธิบายแหล่งตัวอย่าง
Software UIuiป้ายปุ่ม รายการเมนู ข้อความแสดงข้อผิดพลาด คำอธิบายเครื่องมือ ขั้นตอนการเริ่มต้นใช้งานสตริงแอปโอเพนซอร์ส พอร์ทัลเอกสาร
ราชการ/การบริหารadminเอกสารราชการ ประกาศทางกฎหมาย แบบฟอร์ม แถลงการณ์นโยบายสิ่งพิมพ์ราชการสาธารณะ เอกสารเทศบาล
การศึกษาeduเนื้อหาตำรา สื่อการสอน ข้อความเชิงคำแนะนำสื่อการศึกษาที่ตีพิมพ์ คู่มือการสอน
บรรยาย/วรรณกรรมlitเรื่องราว ข้อความทางวัฒนธรรม การถอดความประวัติศาสตร์ปากเปล่าหนังสือที่ตีพิมพ์ คลังวัฒนธรรม (โดยได้รับอนุญาต)
บทสนทนาconvบทสนทนา การแลกเปลี่ยนแบบแชท การสื่อสารเป็นลายลักษณ์อักษรแบบไม่เป็นทางการคลังบทสนทนาที่ตีพิมพ์ บทภาพยนตร์ บทสัมภาษณ์
เทคนิคtechเอกสาร API ไฟล์ README ข้อกำหนดทางเทคนิคเอกสารโครงการโอเพนซอร์ส
สุขภาพ/การแพทย์healthข้อมูลทางการแพทย์สำหรับผู้ป่วย สารสาธารณสุขสิ่งพิมพ์สุขภาพของรัฐบาล
ข่าว/สื่อสารมวลชนnewsบทความข่าว ข่าวประชาสัมพันธ์ ข่าวสารปัจจุบันหนังสือพิมพ์ชุมชน สื่อชนพื้นเมือง

2.2 — การกระจายตัวตามโดเมน

คลังข้อมูลการประเมินมาตรฐานควรมุ่งสู่การกระจายตัวดังต่อไปนี้ เปอร์เซ็นต์ที่แน่นอนอาจแตกต่างกันตามคู่ภาษาโดยขึ้นอยู่กับประเภทข้อความที่เกี่ยวข้องมากที่สุดกับชุมชนเป้าหมาย:

โดเมนเป้าหมาย %เหตุผล
Software UI25%บริบทการนำไปใช้งานหลักสำหรับผู้ใช้ champollion CLI
ราชการ/การบริหาร15%การแปลที่มีความสำคัญสูงและมีนัยทางกฎหมาย
การศึกษา15%กรณีการใช้งานหลักสำหรับการฟื้นฟูภาษา
บรรยาย/วรรณกรรม10%ทดสอบความละเอียดอ่อนทางวัฒนธรรมและระดับภาษาวรรณกรรม
บทสนทนา10%ทดสอบระดับภาษาไม่เป็นทางการและรูปแบบการพูดที่เป็นธรรมชาติ
เทคนิค10%ทดสอบความแม่นยำและความสอดคล้องของคำศัพท์
สุขภาพ/การแพทย์10%ความสำคัญสูง ทดสอบคำศัพท์เฉพาะโดเมน
ข่าว/สื่อสารมวลชน5%ทดสอบคำศัพท์ร่วมสมัยและระดับภาษากลาง

2.3 — เกณฑ์การคัดเลือกต้นฉบับ

เมื่อคัดเลือกข้อความต้นฉบับสำหรับคลังข้อมูลใหม่:

  1. ความเข้ากันได้ของใบอนุญาต ข้อความต้นฉบับต้องอยู่ภายใต้ใบอนุญาตที่อนุญาตให้ใช้ในคลังข้อมูลการประเมิน ให้ความสำคัญกับ CC BY, CC BY-SA หรือสาธารณสมบัติ และบันทึกใบอนุญาตไว้

  2. ความทันสมัย ให้ความสำคัญกับข้อความที่ตีพิมพ์ภายใน 10 ปีที่ผ่านมา ภาษามีการพัฒนา โดยเฉพาะคำศัพท์ด้านเทคโนโลยี การปกครอง และการแพทย์

  3. ความหลากหลายของระดับภาษา ภายในแต่ละโดเมน ให้แสวงหาข้อความในระดับความเป็นทางการที่แตกต่างกัน แถลงการณ์ข่าวของรัฐบาล (เป็นทางการ) และโพสต์โซเชียลมีเดียของรัฐบาล (ไม่เป็นทางการ) ต่างก็อยู่ในโดเมน admin แต่มีระดับภาษาที่แตกต่างกัน

  4. ความเกี่ยวข้องทางวัฒนธรรม สำหรับภาษาชนพื้นเมืองและภาษาชนกลุ่มน้อย ให้ความสำคัญกับข้อความที่มีความสำคัญต่อชุมชน เช่น เอกสารการจัดการที่ดิน สื่อการศึกษาในภาษานั้น ข้อความอนุรักษ์วัฒนธรรม มากกว่าข้อความที่มีอยู่ในรูปแบบคู่ขนานโดยบังเอิญ

  5. ห้ามใช้ต้นฉบับที่แปลด้วยเครื่อง หากเอกสาร "คู่ขนาน" ถูกสร้างขึ้นโดยการนำต้นฉบับผ่าน Google Translate แล้วแก้ไขภายหลัง เอกสารนั้นไม่สามารถยอมรับเป็นการแปลอ้างอิงได้ การแปลอ้างอิงต้องเป็นการแปลโดยมนุษย์ที่เป็นอิสระ


3. ระบบระดับความยาก

3.1 — คำนิยามระดับ

ทุกรายการได้รับการกำหนดระดับความยาก (1–5) ตามความซับซ้อนเชิงโครงสร้างของ ข้อความต้นฉบับ ไม่ใช่ความยากในการแปล (ซึ่งแตกต่างกันตามวิธีการ)

ระดับป้ายกำกับลักษณะเชิงโครงสร้าง
1พื้นฐานประโยคง่าย อนุประโยคเดียว กาลปัจจุบัน คำศัพท์ทั่วไป ไม่มีสำนวน ไม่มีโครงสร้างซ้อน
2ระดับกลางประโยคผสม สองอนุประโยคเชื่อมด้วยคำสันธาน กาลอดีต/อนาคต คำศัพท์เฉพาะโดเมนบางส่วน
3ขั้นสูงประโยคซับซ้อน อนุประโยคขึ้นต้น อนุประโยคสัมพันธ์ กาลผสม คำศัพท์เฉพาะโดเมน กริยาวาจกถูกกระทำ
4ผู้เชี่ยวชาญอนุประโยคซ้อนหลายชั้น ระดับภาษากฎหมาย/เทคนิค โครงสร้างเงื่อนไข แนวคิดนามธรรม การอ้างอิงทางวัฒนธรรม
5สูงสุดร้อยแก้วหนาแน่นที่มีความท้าทายหลายอย่างพร้อมกัน: การซ้อนอนุประโยค การอ้างอิงสรรพนามที่กำกวม สำนวนทางวัฒนธรรม ระดับภาษาผสม คำศัพท์หายาก

3.2 — ปัจจัยความยากที่อิงข้อมูลทางภาษาศาสตร์

นอกเหนือจากความซับซ้อนเชิงโครงสร้าง ความยากยังถูกปรับโดย ระยะห่างทางประเภทวิทยา ระหว่างภาษาต้นทางและภาษาปลายทาง ปัจจัยเหล่านี้มาจากลักษณะทางประเภทวิทยาของ WALS และข้อมูลการจำแนกประเภทในบัตรภาษา:

ปัจจัยความยากต่ำความยากสูง
ลำดับคำลำดับพื้นฐานเดียวกัน (เช่น SVO→SVO)ลำดับพื้นฐานต่างกัน (เช่น SVO→SOV)
ประเภทสัณฐานวิทยาประเภทคล้ายกัน (เช่น analytic→analytic)ประเภทต่างกัน (เช่น analytic→polysynthetic)
เพศทางไวยากรณ์ระบบเดียวกันหรือไม่มีเพศต้นทางไม่มีเพศ ปลายทางมีระบบเพศซับซ้อน
ระดับภาษา/การให้เกียรติไม่มีการทำเครื่องหมายระดับภาษาปลายทางมีระบบระดับภาษาซับซ้อน (เช่น ญี่ปุ่น เกาหลี)
อักษรอักษรเดียวกันอักษรต่างกัน (ต้องมีการถ่ายอักษร)
ความมีชีวิตไม่มีการแยกแยะความมีชีวิตปลายทางมีการสอดคล้องตามความมีชีวิต (เช่น Cree)
หลักฐานนิยมไม่มีหลักฐานนิยมปลายทางทำเครื่องหมายแหล่งข้อมูลทางไวยากรณ์

3.3 — การกระจายตัวตามระดับ

คลังข้อมูลมาตรฐานควรมีสัดส่วนโดยประมาณดังนี้:

ระดับเป้าหมาย %เหตุผล
115%กำหนดเส้นฐาน — แม้แต่วิธีการที่ไม่ดีก็ควรจัดการได้
225%การแปลเชิงปฏิบัติที่พบบ่อยที่สุด
330%จุดที่ความแตกต่างของคุณภาพวิธีการเริ่มปรากฏชัด
420%แยกแยะวิธีการที่ดีออกจากวิธีการที่ยอดเยี่ยม
510%การทดสอบเพดาน — วิธีการน้อยมากที่จะจัดการได้ดี

4. คุณภาพการแปลอ้างอิง

4.1 — ข้อกำหนดสำหรับผู้แปล

การแปลอ้างอิงต้องผลิตโดยมนุษย์ที่:

  1. เป็น ผู้พูดที่คล่องแคล่ว ในภาษาปลายทาง (เจ้าของภาษาหรือเทียบเท่า)
  2. รู้หนังสือ ทั้งในภาษาต้นทางและภาษาปลายทาง
  3. มีความรู้ด้านโดเมน สำหรับโดเมนของข้อความ (ผู้แปลการแพทย์สำหรับข้อความสุขภาพ เป็นต้น)
  4. เป็นอิสระ — ผู้แปลต้องไม่มีสิทธิ์เข้าถึงผลลัพธ์ MT ใดๆ สำหรับข้อความเดียวกันระหว่างการแปล

4.2 — คำชี้แจงสำหรับผู้แปล

ผู้แปลทุกคนได้รับคำชี้แจงที่ประกอบด้วย:

  • ระดับภาษา ที่ต้องใช้ (เป็นทางการ บทสนทนา ฯลฯ)
  • กลุ่มเป้าหมาย (ประชาชนทั่วไป ผู้เชี่ยวชาญ เด็ก ฯลฯ)
  • ข้อตกลงด้านคำศัพท์ เฉพาะสำหรับชุมชนภาษา
  • คำแนะนำชัดเจน: "แปลความหมาย ไม่ใช่คำต่อคำ การแปลที่ฟังดูเป็นธรรมชาติมีคุณค่ามากกว่าการแปลตรงตัว"

4.3 — การประกันคุณภาพ

  1. การแปลคู่ ในอุดมคติ แต่ละรายการควรมีการแปลอ้างอิงอิสระสองฉบับโดยผู้แปลต่างคน ในกรณีที่ไม่สามารถทำได้ ให้ให้ความสำคัญกับการแปลคู่สำหรับระดับ 4–5

  2. การตรวจสอบโดยชุมชน การแปลอ้างอิงควรได้รับการตรวจสอบโดยผู้พูดเพิ่มเติมอย่างน้อยหนึ่งคนที่ไม่ได้เป็นผู้ผลิตการแปลนั้น

  3. รูปแบบที่ยอมรับได้ สำหรับแต่ละอ้างอิง ให้บันทึกรูปแบบที่ยอมรับได้ที่ทราบ (ลำดับคำ ข้อตกลงการสะกด รูปแบบถิ่น) สิ่งเหล่านี้ป้อนเข้าสู่เมตริก equivalent_match_rate

4.4 — สิ่งที่ทำให้การอ้างอิงไม่ดี

ปัญหาเหตุใดจึงทำให้การประเมินไม่ถูกต้อง
แปลด้วยเครื่องแล้วแก้ไขภายหลังการแก้ไขภายหลังยังคงโครงสร้าง MT ไว้ ทำให้วิธีการที่ให้การแปลที่เป็นธรรมชาติกว่าได้คะแนนต่ำ
แปลโดยผู้เรียน ไม่ใช่ผู้พูดที่คล่องแคล่วการอ้างอิงอาจมีข้อผิดพลาดที่ทำให้ผลลัพธ์ MT ที่ถูกต้องได้คะแนนต่ำ
แปลตรงตัวเกินไปการแปลที่เป็นธรรมชาติได้คะแนนต่ำเมื่อเทียบกับการอ้างอิงที่แปลตรงตัว
การตีความเดียวสำหรับต้นฉบับที่กำกวมทำให้การตีความทางเลือกที่ถูกต้องได้คะแนนต่ำ

5. การป้องกันการปนเปื้อน

5.1 — แบบจำลองภัยคุกคามการปนเปื้อน

ภัยคุกคามคำอธิบายมาตรการลดความเสี่ยง
การทับซ้อนของข้อมูลฝึกLLM ได้รับการฝึกบนคลังข้อมูลคู่ขนานไม่เผยแพร่คลังข้อมูลคู่ขนานสู่สาธารณะ
การรั่วไหลแบบ few-shotผู้เขียนวิธีการใช้รายการประเมินเป็นตัวอย่าง few-shotการตรวจสอบลายนิ้วมือ: รายการในพรอมต์จะถูกตรวจพบและแจ้งเตือน
การปนเปื้อนทางอ้อมข้อความต้นฉบับมีอยู่ในข้อมูลฝึก LLM (แบบ monolingual)ยอมรับได้ — ข้อความต้นฉบับ monolingual เป็นสิ่งที่คาดหวัง การจับคู่ ต้องเป็นสิ่งใหม่
การปนเปื้อนจากชุมชนผู้ตรวจสอบชุมชนแบ่งปันรายการสู่สาธารณะเงื่อนไขใบอนุญาตห้ามการเผยแพร่ซ้ำของคลังข้อมูลคู่ขนาน

5.2 — ระดับความลับของคลังข้อมูล

ระดับการมองเห็นการใช้งาน
ชุดพัฒนาสาธารณะเปิดเผยทั้งหมดการพัฒนาวิธีการ การดีบัก การทดสอบการถดถอย คะแนนไม่ถูกเผยแพร่ไปยัง leaderboard
ชุดประเมินที่ปิดไว้ข้อความต้นฉบับมองเห็นได้ การอ้างอิงเป็นความลับการประเมิน leaderboard อย่างเป็นทางการ วิธีการได้รับข้อความต้นฉบับและส่งคืนการแปล การให้คะแนนเกิดขึ้นฝั่งเซิร์ฟเวอร์ การอ้างอิงไม่เคยถูกเปิดเผยต่อวิธีการ
ชุดมาตรฐานทองปิดสนิท ควบคุมโดยชุมชนการประเมินที่ผ่านการตรวจสอบโดยชุมชน จัดการโดยองค์กรกำกับดูแล ใช้สำหรับระดับการตรวจสอบ "Community Validated"

5.3 — นโยบายการหมุนเวียน

คลังข้อมูลการประเมินควรหมุนเวียนเป็นระยะ:

  1. หลังจากคลังข้อมูลถูกใช้งานมา 12 เดือน ให้เริ่มสร้างคลังข้อมูลทดแทน
  2. ปลดคลังข้อมูลเก่าไปสู่สถานะ "ชุดพัฒนา" (สาธารณะ)
  3. เลื่อนระดับคลังข้อมูลใหม่ไปสู่ "ชุดประเมินที่ปิดไว้"
  4. วิธีนี้ป้องกันการปนเปื้อนแบบค่อยเป็นค่อยไปผ่านการปรับแต่งซ้ำๆ ต่อเป้าหมายที่ตายตัว

6. ขั้นตอนการสร้างคลังข้อมูล

6.1 — กระบวนการทีละขั้นตอน

Step 1: Language Pair Selection
└─ Identify target language, read language card
└─ Review typological features (WALS), contact influences, scripts
└─ Identify which difficulty factors apply

Step 2: Source Text Curation
└─ Identify candidate source documents per domain
└─ Verify licenses
└─ Extract candidate sentences/segments
└─ Classify by domain and preliminary difficulty tier

Step 3: Segment Selection
└─ Sample segments to match domain distribution (§2.2)
└─ Sample segments to match difficulty distribution (§3.3)
└─ Ensure linguistic phenomenon coverage (§6.2)
└─ Target minimum corpus size (§6.3)

Step 4: Reference Translation
└─ Assign segments to qualified translators
└─ Provide translation brief
└─ Collect translations
└─ Dual-translate Tier 4–5 entries

Step 5: Quality Assurance
└─ Community review of references
└─ Document acceptable variants
└─ Flag and resolve disagreements

Step 6: Metadata & Packaging
└─ Assign final difficulty tiers
└─ Add provenance metadata per entry
└─ Content-hash the corpus for versioning
└─ Package as corpus JSON per harness spec

Step 7: Registration
└─ Register in Supabase datasets table
└─ Add to ATTRIBUTION.md if new sources used
└─ Document in arena website

6.2 — การครอบคลุมปรากฏการณ์ทางภาษาศาสตร์

ทุกคลังข้อมูลควรมีรายการที่ทดสอบปรากฏการณ์ทางภาษาศาสตร์เฉพาะที่เกี่ยวข้องกับคู่ภาษา สิ่งเหล่านี้มาจากฟิลด์ linguisticChallenges และ contactInfluences ในบัตรภาษา:

ปรากฏการณ์สากล (คู่ภาษาทั้งหมด):

  • การแก้ไขสรรพนาม (ตัวอ้างอิงที่กำกวม)
  • การปฏิเสธ (เดี่ยว คู่ ขอบเขต)
  • ตัวบ่งปริมาณ (ทั้งหมด บางส่วน ไม่มี ส่วนใหญ่)
  • การแสดงออกทางเวลา (วันที่สัมพัทธ์ ระยะเวลา)
  • นามเฉพาะ (บุคคล สถานที่ องค์กร)
  • ตัวเลขและการวัด
  • รายการและการแจกแจง

ปรากฏการณ์เฉพาะคู่ (จากบัตรภาษา):

  • สำหรับปลายทาง polysynthetic: สัณฐานวิทยากริยาซับซ้อน การรวมเข้า
  • สำหรับปลายทางที่มีเพศ: การสอดคล้องทางเพศ การอ้างอิงแบบกลาง/ครอบคลุม
  • สำหรับปลายทาง SOV: กริยาท้ายอนุประโยค บุพบทหลัง
  • สำหรับภาษาวรรณยุกต์: ความแตกต่างของความหมายตามวรรณยุกต์
  • สำหรับภาษาที่มีระดับการให้เกียรติ: ตัวทำเครื่องหมายระดับภาษา บริบทสังคม
  • สำหรับภาษาสัมผัส: ขอบเขตการสลับรหัส การรวมคำยืม

6.3 — ขนาดคลังข้อมูลขั้นต่ำ

ความน่าเชื่อถือทางสถิติต้องการจำนวนรายการขั้นต่ำ สิ่งเหล่านี้อิงจากข้อกำหนดช่วงความเชื่อมั่น (confidence interval) แบบ paired bootstrap (จาก significance.py):

วัตถุประสงค์รายการขั้นต่ำแนะนำ
ชุดพัฒนา50100–200
ชุดประเมินที่ปิดไว้100200–500
ชุดมาตรฐานทอง200500+
ขั้นต่ำต่อโดเมน1025+
ขั้นต่ำต่อระดับ1020+

เหตุใดจึงต้องมีขั้นต่ำ 100 รายการสำหรับการประเมิน? เมื่อมีรายการน้อยกว่า ~100 รายการ การทดสอบนัยสำคัญ (significance) แบบ paired bootstrap (1,000 การสุ่มตัวอย่างซ้ำ) ไม่สามารถตรวจจับความแตกต่างที่น้อยกว่า ~5 คะแนน chrF++ ได้อย่างน่าเชื่อถือ เมื่อมี 200+ รายการ เราสามารถตรวจจับความแตกต่าง ~2 คะแนนที่ p<0.05 ได้


7. รูปแบบ JSON ของคลังข้อมูล

ทุกรายการในคลังข้อมูลเป็นไปตามข้อกำหนด harness:

{
"id": "edtekla-dev-v1-042",
"source": "The school board will meet on Tuesday to discuss the new curriculum.",
"reference": "ᑭᓯᑭᓄᐦᐊᒫᑐᐏᓐ ᑲ ᐃᔑ ᐱᒥᐸᔨᐦᑕᐦᒃ ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓇ ᐁ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ ᓂᔓ ᑭᔑᑲᐤ",
"acceptable_variants": [
"ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓐ ᓂᔓ ᑭᔑᑲᐤ ᑲ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ"
],
"domain": "edu",
"difficulty": 3,
"phenomena": ["temporal_expression", "named_entity", "future_tense"],
"provenance": {
"source_doc": "EdTeKLA Module 4, Unit 7",
"source_license": "CC BY-NC-SA 4.0",
"translator": "anonymous-speaker-001",
"translator_qualification": "L1 Plains Cree, certified translator",
"translation_date": "2025-11-15",
"reviewer": "anonymous-speaker-002",
"review_date": "2025-12-01"
}
}

8. มาตรการป้องกันการโกง

8.1 — ความสมบูรณ์ของคลังข้อมูล

มาตรการการดำเนินการ
การแฮชเนื้อหาเวอร์ชันคลังข้อมูล = SHA-256 ของ ID รายการที่เรียงลำดับ + การอ้างอิง การแก้ไขใดๆ จะสร้างเวอร์ชันใหม่
การทำลายนิ้วมือรายการแต่ละรายการมี ID ที่มาจากเนื้อหา หากมีการส่งผลลัพธ์ต่อคลังข้อมูลที่ถูกแก้ไข ลายนิ้วมือจะไม่ตรงกัน
การบังคับใช้ชุดที่ปิดไว้สำหรับการประเมินอย่างเป็นทางการ วิธีการได้รับเฉพาะข้อความต้นฉบับเท่านั้น การอ้างอิงไม่เคยถูกเปิดเผย การให้คะแนนเกิดขึ้นฝั่งเซิร์ฟเวอร์
กำหนดการหมุนเวียนคลังข้อมูลหมุนเวียนทุกปีเพื่อป้องกันการปรับแต่งระยะยาวต่อเป้าหมายที่ตายตัว

8.2 — ความสมบูรณ์ของการส่ง

มาตรการการดำเนินการ
ลายนิ้วมือแบบ deterministicการกำหนดค่าการรัน (โมเดล อุณหภูมิ พรอมต์ เวอร์ชันคลังข้อมูล) ถูกแฮช การกำหนดค่าที่เหมือนกันจะสร้างลายนิ้วมือที่เหมือนกัน
การตรวจจับการเลือกเฉพาะผู้ส่งต้องเปิดเผยการรันทั้งหมด ไม่ใช่เฉพาะที่ดีที่สุด การส่งหลายครั้งที่มีลายนิ้วมือเดียวกันจะถูกแจ้งเตือน
การตรวจสอบการปนเปื้อนหากรายการประเมินปรากฏในพรอมต์หรือข้อมูลการฝึกของวิธีการแบบตรงตัว การส่งนั้นจะถูกตัดสิทธิ์

9. คลังข้อมูลที่มีอยู่

9.1 — EDTeKLA Development Set v1

คุณสมบัติค่า
IDedtekla-dev-v1
คู่ภาษาEN → CRK (Plains Cree, SRO)
รายการ404 (master_corpus.json: 62 gold + 342 textbook); รวม 548 รายการที่มีอยู่
โดเมนการศึกษา (100%)
ระดับ1–5 (การกระจายตัวรอการตรวจสอบต่อรายการ)
ใบอนุญาตCC BY-NC-SA 4.0
สถานะชุดพัฒนา (สาธารณะ)

ข้อจำกัด: โดเมนเดียว (การศึกษาเท่านั้น) ไม่มีการแบ่งชั้นตามโดเมน การกำหนดระดับอาจต้องตรวจสอบ ขนาดคลังข้อมูลเล็กจำกัดพลังทางสถิติสำหรับการทดสอบนัยสำคัญ

9.2 — คลังข้อมูลที่วางแผนไว้

คลังข้อมูลคู่ภาษาสถานะเจ้าของ
คลังข้อมูลเฉพาะ EN → TL (Filipino)EN → TLวางแผนแล้วเจ้าของโครงการ
EN → CRK held-out setEN → CRKอนาคต (ต้องการพันธมิตรชุมชน)องค์กรกำกับดูแลชุมชน

10. การบูรณาการกับบัตรภาษา

กรอบคลังข้อมูลบูรณาการกับระบบบัตรภาษา:

  1. การเลือกโดเมน ได้รับข้อมูลจากฟิลด์ linguisticChallenges ของบัตร — หากภาษามีความท้าทายเฉพาะ (polysynthesis, วรรณยุกต์, animacy) คลังข้อมูลต้องมีรายการที่ทดสอบสิ่งเหล่านั้น

  2. การปรับเทียบความยาก ใช้ฟิลด์ classification ของบัตร — ระยะห่างทางประเภทวิทยาระหว่างตระกูลภาษาต้นทางและปลายทางส่งผลต่อสิ่งที่ถือว่า "ยาก"

  3. การครอบคลุมระดับภาษา ใช้ฟิลด์ registers ของบัตร — หากภาษามีระดับภาษาที่กำหนดไว้ (formal-filipino, taglish-professional, taglish-casual) คลังข้อมูลควรมีรายการในแต่ละระดับภาษา

  4. การทดสอบอิทธิพลจากการสัมผัส ใช้ฟิลด์ contactInfluences ของบัตร — สำหรับภาษาที่มีชั้นการยืมคำหนัก (Filipino: สเปน + อังกฤษ + อาหรับ) ให้มีรายการที่ทดสอบว่าวิธีการจัดการคำยืมได้ถูกต้องหรือแปลมากเกินไป

  5. การจัดการอักษร ใช้ฟิลด์ scripts[] ของบัตร — สำหรับภาษาที่มีหลายอักษร (เซอร์เบีย: ซีริลลิก + ละติน) ให้มีรายการที่ทดสอบการเลือกอักษรที่ถูกต้อง


อ้างอิง

  • Champollion Scoring Specification — กำหนดเมตริกทั้งหมด น้ำหนัก composite และระดับคุณภาพ
  • Champollion Benchmark Specification — โปรโตคอลการประเมิน รูปแบบคลังข้อมูล อธิปไตยข้อมูล
  • WALS (World Atlas of Language Structures) — ฐานข้อมูลลักษณะทางประเภทวิทยา
  • Glottolog — แหล่งอ้างอิงหลักสำหรับการจำแนกประเภทภาษา
  • ISO 639-3 — มาตรฐานการระบุภาษา
  • EdTeKLA — แหล่งที่มาของคลังข้อมูลการประเมินชุดแรก

เอกสารนี้เป็นข้อกำหนดที่มีชีวิต อัปเดตเมื่อมีการสร้างคลังข้อมูลใหม่และได้รับบทเรียนจากประสบการณ์