กรอบการออกแบบคลังข้อมูลสำหรับการประเมิน

เวอร์ชัน: 1.0 สถานะ: ร่าง วัตถุประสงค์: ระเบียบวิธีเชิงระบบสำหรับการสร้างคลังข้อมูลการประเมินที่ให้ผลการประเมินคุณภาพการแปลที่ถูกต้อง เชื่อถือได้ และมีความหมายทางภาษาศาสตร์ เอกสารนี้เป็นแหล่งอ้างอิงหลักสำหรับวิธีการออกแบบ สร้าง และดูแลรักษาชุดข้อมูลการประเมินของ Champollion

1. หลักการออกแบบ

1.1 — เหตุใดจึงไม่ใช้ Benchmark สาธารณะ?

คลังข้อมูลคู่ขนานสาธารณะ (FLORES+, Tatoeba, WMT test sets, OPUS) เปิดให้ใช้งานสำหรับการพัฒนาและดีบักได้ แต่ถูกยกเว้นจากการประเมิน leaderboard อย่างเป็นทางการ เหตุผลนั้นชัดเจน:

การปนเปื้อน (Contamination) LLM รุ่นล่าสุดได้รับการฝึกบนข้อมูลจากการรวบรวมเว็บขนาดใหญ่ ข้อความคู่ขนานใดก็ตามที่เคยเผยแพร่สู่สาธารณะ โดยเฉพาะในชุดข้อมูล benchmark ที่ได้รับการดูแลและอ้างอิงอย่างแพร่หลาย มีแนวโน้มสูงที่จะอยู่ในข้อมูลฝึกของโมเดลเหล่านั้น เมื่อคุณประเมิน GPT-4o บน FLORES+ แล้วได้คะแนน 85 chrF++ คุณไม่สามารถแยกแยะได้ว่า "โมเดลมีความสามารถในการแปลที่ดี" หรือ "โมเดลจำคู่ประโยคเฉพาะเหล่านี้ได้" นี่ไม่ใช่ข้อกังวลเชิงทฤษฎี — งานวิจัยได้แสดงให้เห็น ถึงผลกระทบของการปนเปื้อนที่วัดได้บน MT benchmark

สำหรับ Champollion เรื่องนี้มีความสำคัญอย่างยิ่งเพราะ:

leaderboard ของเราเปรียบเทียบวิธีการที่ใช้ LLM เป็นหลัก
คุณค่าที่เรานำเสนอคือ การประเมินที่ซื่อสัตย์และเข้มงวด
ผู้ใช้เป้าหมายของเรา (ชุมชนภาษา) ตัดสินใจเรื่องการนำไปใช้งานจริงโดยอิงจากคะแนนเหล่านี้

1.2 — ข้อกำหนดหลัก

คลังข้อมูลการประเมินของ Champollion ทุกชุดต้องเป็นไปตามข้อกำหนดต่อไปนี้:

ข้อกำหนด	เหตุผล
เขียนโดยมนุษย์	ไม่มีข้อมูลสังเคราะห์ ข้อความต้นฉบับและการแปลอ้างอิงทั้งหมดต้องเขียนโดยมนุษย์ LLM อาจช่วยในการจัดแนวและการจัดรูปแบบได้ แต่ห้ามสร้างเนื้อหา
ไม่เผยแพร่สู่สาธารณะในรูปแบบคู่ขนาน	ข้อความต้นฉบับอาจเป็นสาธารณะ การแปลอ้างอิงอาจเป็นสาธารณะ แต่ การจับคู่ เฉพาะนั้นต้องไม่มีอยู่ในรูปแบบคลังข้อมูลคู่ขนานที่ดาวน์โหลดได้
ติดตามที่มา	ทุกรายการต้องมีการบันทึกแหล่งที่มา: เอกสารต้นฉบับ ผู้แปล ใบอนุญาต และวันที่
อิงข้อมูลทางภาษาศาสตร์	การครอบคลุมต้องได้รับการชี้นำจากลักษณะทางประเภทวิทยา ไม่ใช่การสุ่มตัวอย่าง
แบ่งชั้นตามโดเมน	รายการต้องครอบคลุมโดเมนข้อความที่กำหนดไว้โดยมีการควบคุมสัดส่วน
แบ่งระดับความยาก	รายการต้องได้รับการกำหนดระดับความยาก (1–5) ตามความซับซ้อนเชิงโครงสร้าง
ควบคุมเวอร์ชัน	เวอร์ชันของคลังข้อมูลใช้ content hash คะแนนสามารถเปรียบเทียบได้เฉพาะภายในเวอร์ชันเดียวกันเท่านั้น
ชุมชนตรวจสอบได้	การแปลอ้างอิงต้องสามารถตรวจสอบได้โดยสมาชิกชุมชนภาษา

2. การคัดเลือกข้อความต้นฉบับ

2.1 — อนุกรมวิธานโดเมน

Champollion ประเมินการแปลสำหรับ บริบทการนำไปใช้งานจริง ไม่ใช่แบบฝึกหัดทางวิชาการ อนุกรมวิธานโดเมนสะท้อนประเภทข้อความในโลกจริงที่ผู้ใช้งานการแปลพบเจอ:

โดเมน	รหัส	คำอธิบาย	แหล่งตัวอย่าง
Software UI	`ui`	ป้ายปุ่ม รายการเมนู ข้อความแสดงข้อผิดพลาด คำอธิบายเครื่องมือ ขั้นตอนการเริ่มต้นใช้งาน	สตริงแอปโอเพนซอร์ส พอร์ทัลเอกสาร
ราชการ/การบริหาร	`admin`	เอกสารราชการ ประกาศทางกฎหมาย แบบฟอร์ม แถลงการณ์นโยบาย	สิ่งพิมพ์ราชการสาธารณะ เอกสารเทศบาล
การศึกษา	`edu`	เนื้อหาตำรา สื่อการสอน ข้อความเชิงคำแนะนำ	สื่อการศึกษาที่ตีพิมพ์ คู่มือการสอน
บรรยาย/วรรณกรรม	`lit`	เรื่องราว ข้อความทางวัฒนธรรม การถอดความประวัติศาสตร์ปากเปล่า	หนังสือที่ตีพิมพ์ คลังวัฒนธรรม (โดยได้รับอนุญาต)
บทสนทนา	`conv`	บทสนทนา การแลกเปลี่ยนแบบแชท การสื่อสารเป็นลายลักษณ์อักษรแบบไม่เป็นทางการ	คลังบทสนทนาที่ตีพิมพ์ บทภาพยนตร์ บทสัมภาษณ์
เทคนิค	`tech`	เอกสาร API ไฟล์ README ข้อกำหนดทางเทคนิค	เอกสารโครงการโอเพนซอร์ส
สุขภาพ/การแพทย์	`health`	ข้อมูลทางการแพทย์สำหรับผู้ป่วย สารสาธารณสุข	สิ่งพิมพ์สุขภาพของรัฐบาล
ข่าว/สื่อสารมวลชน	`news`	บทความข่าว ข่าวประชาสัมพันธ์ ข่าวสารปัจจุบัน	หนังสือพิมพ์ชุมชน สื่อชนพื้นเมือง

2.2 — การกระจายตัวตามโดเมน

คลังข้อมูลการประเมินมาตรฐานควรมุ่งสู่การกระจายตัวดังต่อไปนี้ เปอร์เซ็นต์ที่แน่นอนอาจแตกต่างกันตามคู่ภาษาโดยขึ้นอยู่กับประเภทข้อความที่เกี่ยวข้องมากที่สุดกับชุมชนเป้าหมาย:

โดเมน	เป้าหมาย %	เหตุผล
Software UI	25%	บริบทการนำไปใช้งานหลักสำหรับผู้ใช้ champollion CLI
ราชการ/การบริหาร	15%	การแปลที่มีความสำคัญสูงและมีนัยทางกฎหมาย
การศึกษา	15%	กรณีการใช้งานหลักสำหรับการฟื้นฟูภาษา
บรรยาย/วรรณกรรม	10%	ทดสอบความละเอียดอ่อนทางวัฒนธรรมและระดับภาษาวรรณกรรม
บทสนทนา	10%	ทดสอบระดับภาษาไม่เป็นทางการและรูปแบบการพูดที่เป็นธรรมชาติ
เทคนิค	10%	ทดสอบความแม่นยำและความสอดคล้องของคำศัพท์
สุขภาพ/การแพทย์	10%	ความสำคัญสูง ทดสอบคำศัพท์เฉพาะโดเมน
ข่าว/สื่อสารมวลชน	5%	ทดสอบคำศัพท์ร่วมสมัยและระดับภาษากลาง

2.3 — เกณฑ์การคัดเลือกต้นฉบับ

เมื่อคัดเลือกข้อความต้นฉบับสำหรับคลังข้อมูลใหม่:

ความเข้ากันได้ของใบอนุญาต ข้อความต้นฉบับต้องอยู่ภายใต้ใบอนุญาตที่อนุญาตให้ใช้ในคลังข้อมูลการประเมิน ให้ความสำคัญกับ CC BY, CC BY-SA หรือสาธารณสมบัติ และบันทึกใบอนุญาตไว้
ความทันสมัย ให้ความสำคัญกับข้อความที่ตีพิมพ์ภายใน 10 ปีที่ผ่านมา ภาษามีการพัฒนา โดยเฉพาะคำศัพท์ด้านเทคโนโลยี การปกครอง และการแพทย์
ความหลากหลายของระดับภาษา ภายในแต่ละโดเมน ให้แสวงหาข้อความในระดับความเป็นทางการที่แตกต่างกัน แถลงการณ์ข่าวของรัฐบาล (เป็นทางการ) และโพสต์โซเชียลมีเดียของรัฐบาล (ไม่เป็นทางการ) ต่างก็อยู่ในโดเมน admin แต่มีระดับภาษาที่แตกต่างกัน
ความเกี่ยวข้องทางวัฒนธรรม สำหรับภาษาชนพื้นเมืองและภาษาชนกลุ่มน้อย ให้ความสำคัญกับข้อความที่มีความสำคัญต่อชุมชน เช่น เอกสารการจัดการที่ดิน สื่อการศึกษาในภาษานั้น ข้อความอนุรักษ์วัฒนธรรม มากกว่าข้อความที่มีอยู่ในรูปแบบคู่ขนานโดยบังเอิญ
ห้ามใช้ต้นฉบับที่แปลด้วยเครื่อง หากเอกสาร "คู่ขนาน" ถูกสร้างขึ้นโดยการนำต้นฉบับผ่าน Google Translate แล้วแก้ไขภายหลัง เอกสารนั้นไม่สามารถยอมรับเป็นการแปลอ้างอิงได้ การแปลอ้างอิงต้องเป็นการแปลโดยมนุษย์ที่เป็นอิสระ

3. ระบบระดับความยาก

3.1 — คำนิยามระดับ

ทุกรายการได้รับการกำหนดระดับความยาก (1–5) ตามความซับซ้อนเชิงโครงสร้างของ ข้อความต้นฉบับ ไม่ใช่ความยากในการแปล (ซึ่งแตกต่างกันตามวิธีการ)

ระดับ	ป้ายกำกับ	ลักษณะเชิงโครงสร้าง
1	พื้นฐาน	ประโยคง่าย อนุประโยคเดียว กาลปัจจุบัน คำศัพท์ทั่วไป ไม่มีสำนวน ไม่มีโครงสร้างซ้อน
2	ระดับกลาง	ประโยคผสม สองอนุประโยคเชื่อมด้วยคำสันธาน กาลอดีต/อนาคต คำศัพท์เฉพาะโดเมนบางส่วน
3	ขั้นสูง	ประโยคซับซ้อน อนุประโยคขึ้นต้น อนุประโยคสัมพันธ์ กาลผสม คำศัพท์เฉพาะโดเมน กริยาวาจกถูกกระทำ
4	ผู้เชี่ยวชาญ	อนุประโยคซ้อนหลายชั้น ระดับภาษากฎหมาย/เทคนิค โครงสร้างเงื่อนไข แนวคิดนามธรรม การอ้างอิงทางวัฒนธรรม
5	สูงสุด	ร้อยแก้วหนาแน่นที่มีความท้าทายหลายอย่างพร้อมกัน: การซ้อนอนุประโยค การอ้างอิงสรรพนามที่กำกวม สำนวนทางวัฒนธรรม ระดับภาษาผสม คำศัพท์หายาก

3.2 — ปัจจัยความยากที่อิงข้อมูลทางภาษาศาสตร์

นอกเหนือจากความซับซ้อนเชิงโครงสร้าง ความยากยังถูกปรับโดย ระยะห่างทางประเภทวิทยา ระหว่างภาษาต้นทางและภาษาปลายทาง ปัจจัยเหล่านี้มาจากลักษณะทางประเภทวิทยาของ WALS และข้อมูลการจำแนกประเภทในบัตรภาษา:

ปัจจัย	ความยากต่ำ	ความยากสูง
ลำดับคำ	ลำดับพื้นฐานเดียวกัน (เช่น SVO→SVO)	ลำดับพื้นฐานต่างกัน (เช่น SVO→SOV)
ประเภทสัณฐานวิทยา	ประเภทคล้ายกัน (เช่น analytic→analytic)	ประเภทต่างกัน (เช่น analytic→polysynthetic)
เพศทางไวยากรณ์	ระบบเดียวกันหรือไม่มีเพศ	ต้นทางไม่มีเพศ ปลายทางมีระบบเพศซับซ้อน
ระดับภาษา/การให้เกียรติ	ไม่มีการทำเครื่องหมายระดับภาษา	ปลายทางมีระบบระดับภาษาซับซ้อน (เช่น ญี่ปุ่น เกาหลี)
อักษร	อักษรเดียวกัน	อักษรต่างกัน (ต้องมีการถ่ายอักษร)
ความมีชีวิต	ไม่มีการแยกแยะความมีชีวิต	ปลายทางมีการสอดคล้องตามความมีชีวิต (เช่น Cree)
หลักฐานนิยม	ไม่มีหลักฐานนิยม	ปลายทางทำเครื่องหมายแหล่งข้อมูลทางไวยากรณ์

3.3 — การกระจายตัวตามระดับ

คลังข้อมูลมาตรฐานควรมีสัดส่วนโดยประมาณดังนี้:

ระดับ	เป้าหมาย %	เหตุผล
1	15%	กำหนดเส้นฐาน — แม้แต่วิธีการที่ไม่ดีก็ควรจัดการได้
2	25%	การแปลเชิงปฏิบัติที่พบบ่อยที่สุด
3	30%	จุดที่ความแตกต่างของคุณภาพวิธีการเริ่มปรากฏชัด
4	20%	แยกแยะวิธีการที่ดีออกจากวิธีการที่ยอดเยี่ยม
5	10%	การทดสอบเพดาน — วิธีการน้อยมากที่จะจัดการได้ดี

4. คุณภาพการแปลอ้างอิง

4.1 — ข้อกำหนดสำหรับผู้แปล

การแปลอ้างอิงต้องผลิตโดยมนุษย์ที่:

เป็น ผู้พูดที่คล่องแคล่ว ในภาษาปลายทาง (เจ้าของภาษาหรือเทียบเท่า)
รู้หนังสือ ทั้งในภาษาต้นทางและภาษาปลายทาง
มีความรู้ด้านโดเมน สำหรับโดเมนของข้อความ (ผู้แปลการแพทย์สำหรับข้อความสุขภาพ เป็นต้น)
เป็นอิสระ — ผู้แปลต้องไม่มีสิทธิ์เข้าถึงผลลัพธ์ MT ใดๆ สำหรับข้อความเดียวกันระหว่างการแปล

4.2 — คำชี้แจงสำหรับผู้แปล

ผู้แปลทุกคนได้รับคำชี้แจงที่ประกอบด้วย:

ระดับภาษา ที่ต้องใช้ (เป็นทางการ บทสนทนา ฯลฯ)
กลุ่มเป้าหมาย (ประชาชนทั่วไป ผู้เชี่ยวชาญ เด็ก ฯลฯ)
ข้อตกลงด้านคำศัพท์ เฉพาะสำหรับชุมชนภาษา
คำแนะนำชัดเจน: "แปลความหมาย ไม่ใช่คำต่อคำ การแปลที่ฟังดูเป็นธรรมชาติมีคุณค่ามากกว่าการแปลตรงตัว"

4.3 — การประกันคุณภาพ

การแปลคู่ ในอุดมคติ แต่ละรายการควรมีการแปลอ้างอิงอิสระสองฉบับโดยผู้แปลต่างคน ในกรณีที่ไม่สามารถทำได้ ให้ให้ความสำคัญกับการแปลคู่สำหรับระดับ 4–5
การตรวจสอบโดยชุมชน การแปลอ้างอิงควรได้รับการตรวจสอบโดยผู้พูดเพิ่มเติมอย่างน้อยหนึ่งคนที่ไม่ได้เป็นผู้ผลิตการแปลนั้น
รูปแบบที่ยอมรับได้ สำหรับแต่ละอ้างอิง ให้บันทึกรูปแบบที่ยอมรับได้ที่ทราบ (ลำดับคำ ข้อตกลงการสะกด รูปแบบถิ่น) สิ่งเหล่านี้ป้อนเข้าสู่เมตริก equivalent_match_rate

4.4 — สิ่งที่ทำให้การอ้างอิงไม่ดี

ปัญหา	เหตุใดจึงทำให้การประเมินไม่ถูกต้อง
แปลด้วยเครื่องแล้วแก้ไขภายหลัง	การแก้ไขภายหลังยังคงโครงสร้าง MT ไว้ ทำให้วิธีการที่ให้การแปลที่เป็นธรรมชาติกว่าได้คะแนนต่ำ
แปลโดยผู้เรียน ไม่ใช่ผู้พูดที่คล่องแคล่ว	การอ้างอิงอาจมีข้อผิดพลาดที่ทำให้ผลลัพธ์ MT ที่ถูกต้องได้คะแนนต่ำ
แปลตรงตัวเกินไป	การแปลที่เป็นธรรมชาติได้คะแนนต่ำเมื่อเทียบกับการอ้างอิงที่แปลตรงตัว
การตีความเดียวสำหรับต้นฉบับที่กำกวม	ทำให้การตีความทางเลือกที่ถูกต้องได้คะแนนต่ำ

5. การป้องกันการปนเปื้อน

5.1 — แบบจำลองภัยคุกคามการปนเปื้อน

ภัยคุกคาม	คำอธิบาย	มาตรการลดความเสี่ยง
การทับซ้อนของข้อมูลฝึก	LLM ได้รับการฝึกบนคลังข้อมูลคู่ขนาน	ไม่เผยแพร่คลังข้อมูลคู่ขนานสู่สาธารณะ
การรั่วไหลแบบ few-shot	ผู้เขียนวิธีการใช้รายการประเมินเป็นตัวอย่าง few-shot	การตรวจสอบลายนิ้วมือ: รายการในพรอมต์จะถูกตรวจพบและแจ้งเตือน
การปนเปื้อนทางอ้อม	ข้อความต้นฉบับมีอยู่ในข้อมูลฝึก LLM (แบบ monolingual)	ยอมรับได้ — ข้อความต้นฉบับ monolingual เป็นสิ่งที่คาดหวัง การจับคู่ ต้องเป็นสิ่งใหม่
การปนเปื้อนจากชุมชน	ผู้ตรวจสอบชุมชนแบ่งปันรายการสู่สาธารณะ	เงื่อนไขใบอนุญาตห้ามการเผยแพร่ซ้ำของคลังข้อมูลคู่ขนาน

5.2 — ระดับความลับของคลังข้อมูล

ระดับ	การมองเห็น	การใช้งาน
ชุดพัฒนาสาธารณะ	เปิดเผยทั้งหมด	การพัฒนาวิธีการ การดีบัก การทดสอบการถดถอย คะแนนไม่ถูกเผยแพร่ไปยัง leaderboard
ชุดประเมินที่ปิดไว้	ข้อความต้นฉบับมองเห็นได้ การอ้างอิงเป็นความลับ	การประเมิน leaderboard อย่างเป็นทางการ วิธีการได้รับข้อความต้นฉบับและส่งคืนการแปล การให้คะแนนเกิดขึ้นฝั่งเซิร์ฟเวอร์ การอ้างอิงไม่เคยถูกเปิดเผยต่อวิธีการ
ชุดมาตรฐานทอง	ปิดสนิท ควบคุมโดยชุมชน	การประเมินที่ผ่านการตรวจสอบโดยชุมชน จัดการโดยองค์กรกำกับดูแล ใช้สำหรับระดับการตรวจสอบ "Community Validated"

5.3 — นโยบายการหมุนเวียน

คลังข้อมูลการประเมินควรหมุนเวียนเป็นระยะ:

หลังจากคลังข้อมูลถูกใช้งานมา 12 เดือน ให้เริ่มสร้างคลังข้อมูลทดแทน
ปลดคลังข้อมูลเก่าไปสู่สถานะ "ชุดพัฒนา" (สาธารณะ)
เลื่อนระดับคลังข้อมูลใหม่ไปสู่ "ชุดประเมินที่ปิดไว้"
วิธีนี้ป้องกันการปนเปื้อนแบบค่อยเป็นค่อยไปผ่านการปรับแต่งซ้ำๆ ต่อเป้าหมายที่ตายตัว

6. ขั้นตอนการสร้างคลังข้อมูล

6.1 — กระบวนการทีละขั้นตอน

Step 1: Language Pair Selection
    └─ Identify target language, read language card
    └─ Review typological features (WALS), contact influences, scripts
    └─ Identify which difficulty factors apply

Step 2: Source Text Curation
    └─ Identify candidate source documents per domain
    └─ Verify licenses
    └─ Extract candidate sentences/segments
    └─ Classify by domain and preliminary difficulty tier

Step 3: Segment Selection
    └─ Sample segments to match domain distribution (§2.2)
    └─ Sample segments to match difficulty distribution (§3.3)
    └─ Ensure linguistic phenomenon coverage (§6.2)
    └─ Target minimum corpus size (§6.3)

Step 4: Reference Translation
    └─ Assign segments to qualified translators
    └─ Provide translation brief
    └─ Collect translations
    └─ Dual-translate Tier 4–5 entries

Step 5: Quality Assurance
    └─ Community review of references
    └─ Document acceptable variants
    └─ Flag and resolve disagreements

Step 6: Metadata & Packaging
    └─ Assign final difficulty tiers
    └─ Add provenance metadata per entry
    └─ Content-hash the corpus for versioning
    └─ Package as corpus JSON per harness spec

Step 7: Registration
    └─ Register in Supabase datasets table
    └─ Add to ATTRIBUTION.md if new sources used
    └─ Document in arena website

6.2 — การครอบคลุมปรากฏการณ์ทางภาษาศาสตร์

ทุกคลังข้อมูลควรมีรายการที่ทดสอบปรากฏการณ์ทางภาษาศาสตร์เฉพาะที่เกี่ยวข้องกับคู่ภาษา สิ่งเหล่านี้มาจากฟิลด์ linguisticChallenges และ contactInfluences ในบัตรภาษา:

ปรากฏการณ์สากล (คู่ภาษาทั้งหมด):

การแก้ไขสรรพนาม (ตัวอ้างอิงที่กำกวม)
การปฏิเสธ (เดี่ยว คู่ ขอบเขต)
ตัวบ่งปริมาณ (ทั้งหมด บางส่วน ไม่มี ส่วนใหญ่)
การแสดงออกทางเวลา (วันที่สัมพัทธ์ ระยะเวลา)
นามเฉพาะ (บุคคล สถานที่ องค์กร)
ตัวเลขและการวัด
รายการและการแจกแจง

ปรากฏการณ์เฉพาะคู่ (จากบัตรภาษา):

สำหรับปลายทาง polysynthetic: สัณฐานวิทยากริยาซับซ้อน การรวมเข้า
สำหรับปลายทางที่มีเพศ: การสอดคล้องทางเพศ การอ้างอิงแบบกลาง/ครอบคลุม
สำหรับปลายทาง SOV: กริยาท้ายอนุประโยค บุพบทหลัง
สำหรับภาษาวรรณยุกต์: ความแตกต่างของความหมายตามวรรณยุกต์
สำหรับภาษาที่มีระดับการให้เกียรติ: ตัวทำเครื่องหมายระดับภาษา บริบทสังคม
สำหรับภาษาสัมผัส: ขอบเขตการสลับรหัส การรวมคำยืม

6.3 — ขนาดคลังข้อมูลขั้นต่ำ

ความน่าเชื่อถือทางสถิติต้องการจำนวนรายการขั้นต่ำ สิ่งเหล่านี้อิงจากข้อกำหนดช่วงความเชื่อมั่น (confidence interval) แบบ paired bootstrap (จาก significance.py):

วัตถุประสงค์	รายการขั้นต่ำ	แนะนำ
ชุดพัฒนา	50	100–200
ชุดประเมินที่ปิดไว้	100	200–500
ชุดมาตรฐานทอง	200	500+
ขั้นต่ำต่อโดเมน	10	25+
ขั้นต่ำต่อระดับ	10	20+

เหตุใดจึงต้องมีขั้นต่ำ 100 รายการสำหรับการประเมิน? เมื่อมีรายการน้อยกว่า ~100 รายการ การทดสอบนัยสำคัญ (significance) แบบ paired bootstrap (1,000 การสุ่มตัวอย่างซ้ำ) ไม่สามารถตรวจจับความแตกต่างที่น้อยกว่า ~5 คะแนน chrF++ ได้อย่างน่าเชื่อถือ เมื่อมี 200+ รายการ เราสามารถตรวจจับความแตกต่าง ~2 คะแนนที่ p<0.05 ได้

7. รูปแบบ JSON ของคลังข้อมูล

ทุกรายการในคลังข้อมูลเป็นไปตามข้อกำหนด harness:

{
  "id": "edtekla-dev-v1-042",
  "source": "The school board will meet on Tuesday to discuss the new curriculum.",
  "reference": "ᑭᓯᑭᓄᐦᐊᒫᑐᐏᓐ ᑲ ᐃᔑ ᐱᒥᐸᔨᐦᑕᐦᒃ ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓇ ᐁ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ ᓂᔓ ᑭᔑᑲᐤ",
  "acceptable_variants": [
    "ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓐ ᓂᔓ ᑭᔑᑲᐤ ᑲ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ"
  ],
  "domain": "edu",
  "difficulty": 3,
  "phenomena": ["temporal_expression", "named_entity", "future_tense"],
  "provenance": {
    "source_doc": "EdTeKLA Module 4, Unit 7",
    "source_license": "CC BY-NC-SA 4.0",
    "translator": "anonymous-speaker-001",
    "translator_qualification": "L1 Plains Cree, certified translator",
    "translation_date": "2025-11-15",
    "reviewer": "anonymous-speaker-002",
    "review_date": "2025-12-01"
  }
}

8. มาตรการป้องกันการโกง

8.1 — ความสมบูรณ์ของคลังข้อมูล

มาตรการ	การดำเนินการ
การแฮชเนื้อหา	เวอร์ชันคลังข้อมูล = SHA-256 ของ ID รายการที่เรียงลำดับ + การอ้างอิง การแก้ไขใดๆ จะสร้างเวอร์ชันใหม่
การทำลายนิ้วมือรายการ	แต่ละรายการมี ID ที่มาจากเนื้อหา หากมีการส่งผลลัพธ์ต่อคลังข้อมูลที่ถูกแก้ไข ลายนิ้วมือจะไม่ตรงกัน
การบังคับใช้ชุดที่ปิดไว้	สำหรับการประเมินอย่างเป็นทางการ วิธีการได้รับเฉพาะข้อความต้นฉบับเท่านั้น การอ้างอิงไม่เคยถูกเปิดเผย การให้คะแนนเกิดขึ้นฝั่งเซิร์ฟเวอร์
กำหนดการหมุนเวียน	คลังข้อมูลหมุนเวียนทุกปีเพื่อป้องกันการปรับแต่งระยะยาวต่อเป้าหมายที่ตายตัว

8.2 — ความสมบูรณ์ของการส่ง

มาตรการ	การดำเนินการ
ลายนิ้วมือแบบ deterministic	การกำหนดค่าการรัน (โมเดล อุณหภูมิ พรอมต์ เวอร์ชันคลังข้อมูล) ถูกแฮช การกำหนดค่าที่เหมือนกันจะสร้างลายนิ้วมือที่เหมือนกัน
การตรวจจับการเลือกเฉพาะ	ผู้ส่งต้องเปิดเผยการรันทั้งหมด ไม่ใช่เฉพาะที่ดีที่สุด การส่งหลายครั้งที่มีลายนิ้วมือเดียวกันจะถูกแจ้งเตือน
การตรวจสอบการปนเปื้อน	หากรายการประเมินปรากฏในพรอมต์หรือข้อมูลการฝึกของวิธีการแบบตรงตัว การส่งนั้นจะถูกตัดสิทธิ์

9. คลังข้อมูลที่มีอยู่

9.1 — EDTeKLA Development Set v1

คุณสมบัติ	ค่า
ID	`edtekla-dev-v1`
คู่ภาษา	EN → CRK (Plains Cree, SRO)
รายการ	404 (`master_corpus.json`: 62 gold + 342 textbook); รวม 548 รายการที่มีอยู่
โดเมน	การศึกษา (100%)
ระดับ	1–5 (การกระจายตัวรอการตรวจสอบต่อรายการ)
ใบอนุญาต	CC BY-NC-SA 4.0
สถานะ	ชุดพัฒนา (สาธารณะ)

ข้อจำกัด: โดเมนเดียว (การศึกษาเท่านั้น) ไม่มีการแบ่งชั้นตามโดเมน การกำหนดระดับอาจต้องตรวจสอบ ขนาดคลังข้อมูลเล็กจำกัดพลังทางสถิติสำหรับการทดสอบนัยสำคัญ

9.2 — คลังข้อมูลที่วางแผนไว้

คลังข้อมูล	คู่ภาษา	สถานะ	เจ้าของ
คลังข้อมูลเฉพาะ EN → TL (Filipino)	EN → TL	วางแผนแล้ว	เจ้าของโครงการ
EN → CRK held-out set	EN → CRK	อนาคต (ต้องการพันธมิตรชุมชน)	องค์กรกำกับดูแลชุมชน

10. การบูรณาการกับบัตรภาษา

กรอบคลังข้อมูลบูรณาการกับระบบบัตรภาษา:

การเลือกโดเมน ได้รับข้อมูลจากฟิลด์ linguisticChallenges ของบัตร — หากภาษามีความท้าทายเฉพาะ (polysynthesis, วรรณยุกต์, animacy) คลังข้อมูลต้องมีรายการที่ทดสอบสิ่งเหล่านั้น
การปรับเทียบความยาก ใช้ฟิลด์ classification ของบัตร — ระยะห่างทางประเภทวิทยาระหว่างตระกูลภาษาต้นทางและปลายทางส่งผลต่อสิ่งที่ถือว่า "ยาก"
การครอบคลุมระดับภาษา ใช้ฟิลด์ registers ของบัตร — หากภาษามีระดับภาษาที่กำหนดไว้ (formal-filipino, taglish-professional, taglish-casual) คลังข้อมูลควรมีรายการในแต่ละระดับภาษา
การทดสอบอิทธิพลจากการสัมผัส ใช้ฟิลด์ contactInfluences ของบัตร — สำหรับภาษาที่มีชั้นการยืมคำหนัก (Filipino: สเปน + อังกฤษ + อาหรับ) ให้มีรายการที่ทดสอบว่าวิธีการจัดการคำยืมได้ถูกต้องหรือแปลมากเกินไป
การจัดการอักษร ใช้ฟิลด์ scripts[] ของบัตร — สำหรับภาษาที่มีหลายอักษร (เซอร์เบีย: ซีริลลิก + ละติน) ให้มีรายการที่ทดสอบการเลือกอักษรที่ถูกต้อง

อ้างอิง

Champollion Scoring Specification — กำหนดเมตริกทั้งหมด น้ำหนัก composite และระดับคุณภาพ
Champollion Benchmark Specification — โปรโตคอลการประเมิน รูปแบบคลังข้อมูล อธิปไตยข้อมูล
WALS (World Atlas of Language Structures) — ฐานข้อมูลลักษณะทางประเภทวิทยา
Glottolog — แหล่งอ้างอิงหลักสำหรับการจำแนกประเภทภาษา
ISO 639-3 — มาตรฐานการระบุภาษา
EdTeKLA — แหล่งที่มาของคลังข้อมูลการประเมินชุดแรก

เอกสารนี้เป็นข้อกำหนดที่มีชีวิต อัปเดตเมื่อมีการสร้างคลังข้อมูลใหม่และได้รับบทเรียนจากประสบการณ์

1. หลักการออกแบบ​

1.1 — เหตุใดจึงไม่ใช้ Benchmark สาธารณะ?​

1.2 — ข้อกำหนดหลัก​

2. การคัดเลือกข้อความต้นฉบับ​

2.1 — อนุกรมวิธานโดเมน​

2.2 — การกระจายตัวตามโดเมน​

2.3 — เกณฑ์การคัดเลือกต้นฉบับ​

3. ระบบระดับความยาก​

3.1 — คำนิยามระดับ​

3.2 — ปัจจัยความยากที่อิงข้อมูลทางภาษาศาสตร์​

3.3 — การกระจายตัวตามระดับ​

4. คุณภาพการแปลอ้างอิง​

4.1 — ข้อกำหนดสำหรับผู้แปล​

4.2 — คำชี้แจงสำหรับผู้แปล​

4.3 — การประกันคุณภาพ​

4.4 — สิ่งที่ทำให้การอ้างอิงไม่ดี​

5. การป้องกันการปนเปื้อน​

5.1 — แบบจำลองภัยคุกคามการปนเปื้อน​

5.2 — ระดับความลับของคลังข้อมูล​

5.3 — นโยบายการหมุนเวียน​

6. ขั้นตอนการสร้างคลังข้อมูล​

6.1 — กระบวนการทีละขั้นตอน​

6.2 — การครอบคลุมปรากฏการณ์ทางภาษาศาสตร์​

6.3 — ขนาดคลังข้อมูลขั้นต่ำ​

7. รูปแบบ JSON ของคลังข้อมูล​

8. มาตรการป้องกันการโกง​

8.1 — ความสมบูรณ์ของคลังข้อมูล​

8.2 — ความสมบูรณ์ของการส่ง​

9. คลังข้อมูลที่มีอยู่​

9.1 — EDTeKLA Development Set v1​

9.2 — คลังข้อมูลที่วางแผนไว้​

10. การบูรณาการกับบัตรภาษา​

อ้างอิง​