กรอบการออกแบบคลังข้อมูลสำหรับการประเมิน
เวอร์ชัน: 1.0 สถานะ: ร่าง วัตถุประสงค์: ระเบียบวิธีเชิงระบบสำหรับการสร้างคลังข้อมูลการประเมินที่ให้ผลการประเมินคุณภาพการแปลที่ถูกต้อง เชื่อถือได้ และมีความหมายทางภาษาศาสตร์ เอกสารนี้เป็นแหล่งอ้างอิงหลักสำหรับวิธีการออกแบบ สร้าง และดูแลรักษาชุดข้อมูลการประเมินของ Champollion
1. หลักการออกแบบ
1.1 — เหตุใดจึงไม่ใช้ Benchmark สาธารณะ?
คลังข้อมูลคู่ขนานสาธารณะ (FLORES+, Tatoeba, WMT test sets, OPUS) เปิดให้ใช้งานสำหรับการพัฒนาและดีบักได้ แต่ถูกยกเว้นจากการประเมิน leaderboard อย่างเป็นทางการ เหตุผลนั้นชัดเจน:
การปนเปื้อน (Contamination) LLM รุ่นล่าสุดได้รับการฝึกบนข้อมูลจากการรวบรวมเว็บขนาดใหญ่ ข้อความคู่ขนานใดก็ตามที่เคยเผยแพร่สู่สาธารณะ โดยเฉพาะในชุดข้อมูล benchmark ที่ได้รับการดูแลและอ้างอิงอย่างแพร่หลาย มีแนวโน้มสูงที่จะอยู่ในข้อมูลฝึกของโมเดลเหล่านั้น เมื่อคุณประเมิน GPT-4o บน FLORES+ แล้วได้คะแนน 85 chrF++ คุณไม่สามารถแยกแยะได้ว่า "โมเดลมีความสามารถในการแปลที่ดี" หรือ "โมเดลจำคู่ประโยคเฉพาะเหล่านี้ได้" นี่ไม่ใช่ข้อกังวลเชิงทฤษฎี — งานวิจัยได้แสดงให้เห็น ถึงผลกระทบของการปนเปื้อนที่วัดได้บน MT benchmark
สำหรับ Champollion เรื่องนี้มีความสำคัญอย่างยิ่งเพราะ:
- leaderboard ของเราเปรียบเทียบวิธีการที่ใช้ LLM เป็นหลัก
- คุณค่าที่เรานำเสนอคือ การประเมินที่ซื่อสัตย์และเข้มงวด
- ผู้ใช้เป้าหมายของเรา (ชุมชนภาษา) ตัดสินใจเรื่องการนำไปใช้งานจริงโดยอิงจากคะแนนเหล่านี้
1.2 — ข้อกำหนดหลัก
คลังข้อมูลการประเมินของ Champollion ทุกชุดต้องเป็นไปตามข้อกำหนดต่อไปนี้:
| ข้อกำหนด | เหตุผล |
|---|---|
| เขียนโดยมนุษย์ | ไม่มีข้อมูลสังเคราะห์ ข้อความต้นฉบับและการแปลอ้างอิงทั้งหมดต้องเขียนโดยมนุษย์ LLM อาจช่วยในการจัดแนวและการจัดรูปแบบได้ แต่ห้ามสร้างเนื้อหา |
| ไม่เผยแพร่สู่สาธารณะในรูปแบบคู่ขนาน | ข้อความต้นฉบับอาจเป็นสาธารณะ การแปลอ้างอิงอาจเป็นสาธารณะ แต่ การจับคู่ เฉพาะนั้นต้องไม่มีอยู่ในรูปแบบคลังข้อมูลคู่ขนานที่ดาวน์โหลดได้ |
| ติดตามที่มา | ทุกรายการต้องมีการบันทึกแหล่งที่มา: เอกสารต้นฉบับ ผู้แปล ใบอนุญาต และวันที่ |
| อิงข้อมูลทางภาษาศาสตร์ | การครอบคลุมต้องได้รับการชี้นำจากลักษณะทางประเภทวิทยา ไม่ใช่การสุ่มตัวอย่าง |
| แบ่งชั้นตามโดเมน | รายการต้องครอบคลุมโดเมนข้อความที่กำหนดไว้โดยมีการควบคุมสัดส่วน |
| แบ่งระดับความยาก | รายการต้องได้รับการกำหนดระดับความยาก (1–5) ตามความซับซ้อนเชิงโครงสร้าง |
| ควบคุมเวอร์ชัน | เวอร์ชันของคลังข้อมูลใช้ content hash คะแนนสามารถเปรียบเทียบได้เฉพาะภายในเวอร์ชันเดียวกันเท่านั้น |
| ชุมชนตรวจสอบได้ | การแปลอ้างอิงต้องสามารถตรวจสอบได้โดยสมาชิกชุมชนภาษา |
2. การคัดเลือกข้อความต้นฉบับ
2.1 — อนุกรมวิธานโดเมน
Champollion ประเมินการแปลสำหรับ บริบทการนำไปใช้งานจริง ไม่ใช่แบบฝึกหัดทางวิชาการ อนุกรมวิธานโดเมนสะท้อนประเภทข้อความในโลกจริงที่ผู้ใช้งานการแปลพบเจอ:
| โดเมน | รหัส | คำอธิบาย | แหล่งตัวอย่าง |
|---|---|---|---|
| Software UI | ui | ป้ายปุ่ม รายการเมนู ข้อความแสดงข้อผิดพลาด คำอธิบายเครื่องมือ ขั้นตอนการเริ่มต้นใช้งาน | สตริงแอปโอเพนซอร์ส พอร์ทัลเอกสาร |
| ราชการ/การบริหาร | admin | เอกสารราชการ ประกาศทางกฎหมาย แบบฟอร์ม แถลงการณ์นโยบาย | สิ่งพิมพ์ราชการสาธารณะ เอกสารเทศบาล |
| การศึกษา | edu | เนื้อหาตำรา สื่อการสอน ข้อความเชิงคำแนะนำ | สื่อการศึกษาที่ตีพิมพ์ คู่มือการสอน |
| บรรยาย/วรรณกรรม | lit | เรื่องราว ข้อความทางวัฒนธรรม การถอดความประวัติศาสตร์ปากเปล่า | หนังสือที่ตีพิมพ์ คลังวัฒนธรรม (โดยได้รับอนุญาต) |
| บทสนทนา | conv | บทสนทนา การแลกเปลี่ยนแบบแชท การสื่อสารเป็นลายลักษณ์อักษรแบบไม่เป็นทางการ | คลังบทสนทนาที่ตีพิมพ์ บทภาพยนตร์ บทสัมภาษณ์ |
| เทคนิค | tech | เอกสาร API ไฟล์ README ข้อกำหนดทางเทคนิค | เอกสารโครงการโอเพนซอร์ส |
| สุขภาพ/การแพทย์ | health | ข้อมูลทางการแพทย์สำหรับผู้ป่วย สารสาธารณสุข | สิ่งพิมพ์สุขภาพของรัฐบาล |
| ข่าว/สื่อสารมวลชน | news | บทความข่าว ข่าวประชาสัมพันธ์ ข่าวสารปัจจุบัน | หนังสือพิมพ์ชุมชน สื่อชนพื้นเมือง |
2.2 — การกระจายตัวตามโดเมน
คลังข้อมูลการประเมินมาตรฐานควรมุ่งสู่การกระจายตัวดังต่อไปนี้ เปอร์เซ็นต์ที่แน่นอนอาจแตกต่างกันตามคู่ภาษาโดยขึ้นอยู่กับประเภทข้อความที่เกี่ยวข้องมากที่สุดกับชุมชนเป้าหมาย:
| โดเมน | เป้าหมาย % | เหตุผล |
|---|---|---|
| Software UI | 25% | บริบทการนำไปใช้งานหลักสำหรับผู้ใช้ champollion CLI |
| ราชการ/การบริหาร | 15% | การแปลที่มีความสำคัญสูงและมีนัยทางกฎหมาย |
| การศึกษา | 15% | กรณีการใช้งานหลักสำหรับการฟื้นฟูภาษา |
| บรรยาย/วรรณกรรม | 10% | ทดสอบความละเอียดอ่อนทางวัฒนธรรมและระดับภาษาวรรณกรรม |
| บทสนทนา | 10% | ทดสอบระดับภาษาไม่เป็นทางการและรูปแบบการพูดที่เป็นธรรมชาติ |
| เทคนิค | 10% | ทดสอบความแม่นยำและความสอดคล้องของคำศัพท์ |
| สุขภาพ/การแพทย์ | 10% | ความสำคัญสูง ทดสอบคำศัพท์เฉพาะโดเมน |
| ข่าว/สื่อสารมวลชน | 5% | ทดสอบคำศัพท์ร่วมสมัยและระดับภาษากลาง |
2.3 — เกณฑ์การคัดเลือกต้นฉบับ
เมื่อคัดเลือกข้อความต้นฉบับสำหรับคลังข้อมูลใหม่:
-
ความเข้ากันได้ของใบอนุญาต ข้อความต้นฉบับต้องอยู่ภายใต้ใบอนุญาตที่อนุญาตให้ใช้ในคลังข้อมูลการประเมิน ให้ความสำคัญกับ CC BY, CC BY-SA หรือสาธารณสมบัติ และบันทึกใบอนุญาตไว้
-
ความทันสมัย ให้ความสำคัญกับข้อความที่ตีพิมพ์ภายใน 10 ปีที่ผ่านมา ภาษามีการพัฒนา โดยเฉพาะคำศัพท์ด้านเทคโนโลยี การปกครอง และการแพทย์
-
ความหลากหลายของระดับภาษา ภายในแต่ละโดเมน ให้แสวงหาข้อความในระดับความเป็นทางการที่แตกต่างกัน แถลงการณ์ข่าวของรัฐบาล (เป็นทางการ) และโพสต์โซเชียลมีเดียของรัฐบาล (ไม่เป็นทางการ) ต่างก็อยู่ในโดเมน
adminแต่มีระดับภาษาที่แตกต่างกัน -
ความเกี่ยวข้องทางวัฒนธรรม สำหรับภาษาชนพื้นเมืองและภาษาชนกลุ่มน้อย ให้ความสำคัญกับข้อความที่มีความสำคัญต่อชุมชน เช่น เอกสารการจัดการที่ดิน สื่อการศึกษาในภาษานั้น ข้อความอนุรักษ์วัฒนธรรม มากกว่าข้อความที่มีอยู่ในรูปแบบคู่ขนานโดยบังเอิญ
-
ห้ามใช้ต้นฉบับที่แปลด้วยเครื่อง หากเอกสาร "คู่ขนาน" ถูกสร้างขึ้นโดยการนำต้นฉบับผ่าน Google Translate แล้วแก้ไขภายหลัง เอกสารนั้นไม่สามารถยอมรับเป็นการแปลอ้างอิงได้ การแปลอ้างอิงต้องเป็นการแปลโดยมนุษย์ที่เป็นอิสระ
3. ระบบระดับความยาก
3.1 — คำนิยามระดับ
ทุกรายการได้รับการกำหนดระดับความยาก (1–5) ตามความซับซ้อนเชิงโครงสร้างของ ข้อความต้นฉบับ ไม่ใช่ความยากในการแปล (ซึ่งแตกต่างกันตามวิธีการ)
| ระดับ | ป้ายกำกับ | ลักษณะเชิงโครงสร้าง |
|---|---|---|
| 1 | พื้นฐาน | ประโยคง่าย อนุประโยคเดียว กาลปัจจุบัน คำศัพท์ทั่วไป ไม่มีสำนวน ไม่มีโครงสร้างซ้อน |
| 2 | ระดับกลาง | ประโยคผสม สองอนุประโยคเชื่อมด้วยคำสันธาน กาลอดีต/อนาคต คำศัพท์เฉพาะโดเมนบางส่วน |
| 3 | ขั้นสูง | ประโยคซับซ้อน อนุประโยคขึ้นต้น อนุประโยคสัมพันธ์ กาลผสม คำศัพท์เฉพาะโดเมน กริยาวาจกถูกกระทำ |
| 4 | ผู้เชี่ยวชาญ | อนุประโยคซ้อนหลายชั้น ระดับภาษากฎหมาย/เทคนิค โครงสร้างเงื่อนไข แนวคิดนามธรรม การอ้างอิงทางวัฒนธรรม |
| 5 | สูงสุด | ร้อยแก้วหนาแน่นที่มีความท้าทายหลายอย่างพร้อมกัน: การซ้อนอนุประโยค การอ้างอิงสรรพนามที่กำกวม สำนวนทางวัฒนธรรม ระดับภาษาผสม คำศัพท์หายาก |
3.2 — ปัจจัยความยากที่อิงข้อมูลทางภาษาศาสตร์
นอกเหนือจากความซับซ้อนเชิงโครงสร้าง ความยากยังถูกปรับโดย ระยะห่างทางประเภทวิทยา ระหว่างภาษาต้นทางและภาษาปลายทาง ปัจจัยเหล่านี้มาจากลักษณะทางประเภทวิทยาของ WALS และข้อมูลการจำแนกประเภทในบัตรภาษา:
| ปัจจัย | ความยากต่ำ | ความยากสูง |
|---|---|---|
| ลำดับคำ | ลำดับพื้นฐานเดียวกัน (เช่น SVO→SVO) | ลำดับพื้นฐานต่างกัน (เช่น SVO→SOV) |
| ประเภทสัณฐานวิทยา | ประเภทคล้ายกัน (เช่น analytic→analytic) | ประเภทต่างกัน (เช่น analytic→polysynthetic) |
| เพศทางไวยากรณ์ | ระบบเดียวกันหรือไม่มีเพศ | ต้นทางไม่มีเพศ ปลายทางมีระบบเพศซับซ้อน |
| ระดับภาษา/การให้เกียรติ | ไม่มีการทำเครื่องหมายระดับภาษา | ปลายทางมีระบบระดับภาษาซับซ้อน (เช่น ญี่ปุ่น เกาหลี) |
| อักษร | อักษรเดียวกัน | อักษรต่างกัน (ต้องมีการถ่ายอักษร) |
| ความมีชีวิต | ไม่มีการแยกแยะความมีชีวิต | ปลายทางมีการสอดคล้องตามความมีชีวิต (เช่น Cree) |
| หลักฐานนิยม | ไม่มีหลักฐานนิยม | ปลายทางทำเครื่องหมายแหล่งข้อมูลทางไวยากรณ์ |
3.3 — การกระจายตัวตามระดับ
คลังข้อมูลมาตรฐานควรมีสัดส่วนโดยประมาณดังนี้:
| ระดับ | เป้าหมาย % | เหตุผล |
|---|---|---|
| 1 | 15% | กำหนดเส้นฐาน — แม้แต่วิธีการที่ไม่ดีก็ควรจัดการได้ |
| 2 | 25% | การแปลเชิงปฏิบัติที่พบบ่อยที่สุด |
| 3 | 30% | จุดที่ความแตกต่างของคุณภาพวิธีการเริ่มปรากฏชัด |
| 4 | 20% | แยกแยะวิธีการที่ดีออกจากวิธีการที่ยอดเยี่ยม |
| 5 | 10% | การทดสอบเพดาน — วิธีการน้อยมากที่จะจัดการได้ดี |
4. คุณภาพการแปลอ้างอิง
4.1 — ข้อกำหนดสำหรับผู้แปล
การแปลอ้างอิงต้องผลิตโดยมนุษย์ที่:
- เป็น ผู้พูดที่คล่องแคล่ว ในภาษาปลายทาง (เจ้าของภาษาหรือเทียบเท่า)
- รู้หนังสือ ทั้งในภาษาต้นทางและภาษาปลายทาง
- มีความรู้ด้านโดเมน สำหรับโดเมนของข้อความ (ผู้แปลการแพทย์สำหรับข้อความสุขภาพ เป็นต้น)
- เป็นอิสระ — ผู้แปลต้องไม่มีสิทธิ์เข้าถึงผลลัพธ์ MT ใดๆ สำหรับข้อความเดียวกันระหว่างการแปล
4.2 — คำชี้แจงสำหรับผู้แปล
ผู้แปลทุกคนได้รับคำชี้แจงที่ประกอบด้วย:
- ระดับภาษา ที่ต้องใช้ (เป็นทางการ บทสนทนา ฯลฯ)
- กลุ่มเป้าหมาย (ประชาชนทั่วไป ผู้เชี่ยวชาญ เด็ก ฯลฯ)
- ข้อตกลงด้านคำศัพท์ เฉพาะสำหรับชุมชนภาษา
- คำแนะนำชัดเจน: "แปลความหมาย ไม่ใช่คำต่อคำ การแปลที่ฟังดูเป็นธรรมชาติมีคุณค่ามากกว่าการแปลตรงตัว"
4.3 — การประกันคุณภาพ
-
การแปลคู่ ในอุดมคติ แต่ละรายการควรมีการแปลอ้างอิงอิสระสองฉบับโดยผู้แปลต่างคน ในกรณีที่ไม่สามารถทำได้ ให้ให้ความสำคัญกับการแปลคู่สำหรับระดับ 4–5
-
การตรวจสอบโดยชุมชน การแปลอ้างอิงควรได้รับการตรวจสอบโดยผู้พูดเพิ่มเติมอย่างน้อยหนึ่งคนที่ไม่ได้เป็นผู้ผลิตการแปลนั้น
-
รูปแบบที่ยอมรับได้ สำหรับแต่ละอ้างอิง ให้บันทึกรูปแบบที่ยอมรับได้ที่ทราบ (ลำดับคำ ข้อตกลงการสะกด รูปแบบถิ่น) สิ่งเหล่านี้ป้อนเข้าสู่เมตริก
equivalent_match_rate
4.4 — สิ่งที่ทำให้การอ้างอิงไม่ดี
| ปัญหา | เหตุใดจึงทำให้การประเมินไม่ถูกต้อง |
|---|---|
| แปลด้วยเครื่องแล้วแก้ไขภายหลัง | การแก้ไขภายหลังยังคงโครงสร้าง MT ไว้ ทำให้วิธีการที่ให้การแปลที่เป็นธรรมชาติกว่าได้คะแนนต่ำ |
| แปลโดยผู้เรียน ไม่ใช่ผู้พูดที่คล่องแคล่ว | การอ้างอิงอาจมีข้อผิดพลาดที่ทำให้ผลลัพธ์ MT ที่ถูกต้องได้คะแนนต่ำ |
| แปลตรงตัวเกินไป | การแปลที่เป็นธรรมชาติได้คะแนนต่ำเมื่อเทียบกับการอ้างอิงที่แปลตรงตัว |
| การตีความเดียวสำหรับต้นฉบับที่กำกวม | ทำให้การตีความทางเลือกที่ถูกต้องได้คะแนนต่ำ |
5. การป้องกันการปนเปื้อน
5.1 — แบบจำลองภัยคุกคามการปนเปื้อน
| ภัยคุกคาม | คำอธิบาย | มาตรการลดความเสี่ยง |
|---|---|---|
| การทับซ้อนของข้อมูลฝึก | LLM ได้รับการฝึกบนคลังข้อมูลคู่ขนาน | ไม่เผยแพร่คลังข้อมูลคู่ขนานสู่สาธารณะ |
| การรั่วไหลแบบ few-shot | ผู้เขียนวิธีการใช้รายการประเมินเป็นตัวอย่าง few-shot | การตรวจสอบลายนิ้วมือ: รายการในพรอมต์จะถูกตรวจพบและแจ้งเตือน |
| การปนเปื้อนทางอ้อม | ข้อความต้นฉบับมีอยู่ในข้อมูลฝึก LLM (แบบ monolingual) | ยอมรับได้ — ข้อความต้นฉบับ monolingual เป็นสิ่งที่คาดหวัง การจับคู่ ต้องเป็นสิ่งใหม่ |
| การปนเปื้อนจากชุมชน | ผู้ตรวจสอบชุมชนแบ่งปันรายการสู่สาธารณะ | เงื่อนไขใบอนุญาตห้ามการเผยแพร่ซ้ำของคลังข้อมูลคู่ขนาน |
5.2 — ระดับความลับของคลังข้อมูล
| ระดับ | การมองเห็น | การใช้งาน |
|---|---|---|
| ชุดพัฒนาสาธารณะ | เปิดเผยทั้งหมด | การพัฒนาวิธีการ การดีบัก การทดสอบการถดถอย คะแนนไม่ถูกเผยแพร่ไปยัง leaderboard |
| ชุดประเมินที่ปิดไว้ | ข้อความต้นฉบับมองเห็นได้ การอ้างอิงเป็นความลับ | การประเมิน leaderboard อย่างเป็นทางการ วิธีการได้รับข้อความต้นฉบับและส่งคืนการแปล การให้คะแนนเกิดขึ้นฝั่งเซิร์ฟเวอร์ การอ้างอิงไม่เคยถูกเปิดเผยต่อวิธีการ |
| ชุดมาตรฐานทอง | ปิดสนิท ควบคุมโดยชุมชน | การประเมินที่ผ่านการตรวจสอบโดยชุมชน จัดการโดยองค์กรกำกับดูแล ใช้สำหรับระดับการตรวจสอบ "Community Validated" |
5.3 — นโยบายการหมุนเวียน
คลังข้อมูลการประเมินควรหมุนเวียนเป็นระยะ:
- หลังจากคลังข้อมูลถูกใช้งานมา 12 เดือน ให้เริ่มสร้างคลังข้อมูลทดแทน
- ปลดคลังข้อมูลเก่าไปสู่สถานะ "ชุดพัฒนา" (สาธารณะ)
- เลื่อนระดับคลังข้อมูลใหม่ไปสู่ "ชุดประเมินที่ปิดไว้"
- วิธีนี้ป้องกันการปนเปื้อนแบบค่อยเป็นค่อยไปผ่านการปรับแต่งซ้ำๆ ต่อเป้าหมายที่ตายตัว
6. ขั้นตอนการสร้างคลังข้อมูล
6.1 — กระบวนการทีละขั้นตอน
Step 1: Language Pair Selection
└─ Identify target language, read language card
└─ Review typological features (WALS), contact influences, scripts
└─ Identify which difficulty factors apply
Step 2: Source Text Curation
└─ Identify candidate source documents per domain
└─ Verify licenses
└─ Extract candidate sentences/segments
└─ Classify by domain and preliminary difficulty tier
Step 3: Segment Selection
└─ Sample segments to match domain distribution (§2.2)
└─ Sample segments to match difficulty distribution (§3.3)
└─ Ensure linguistic phenomenon coverage (§6.2)
└─ Target minimum corpus size (§6.3)
Step 4: Reference Translation
└─ Assign segments to qualified translators
└─ Provide translation brief
└─ Collect translations
└─ Dual-translate Tier 4–5 entries
Step 5: Quality Assurance
└─ Community review of references
└─ Document acceptable variants
└─ Flag and resolve disagreements
Step 6: Metadata & Packaging
└─ Assign final difficulty tiers
└─ Add provenance metadata per entry
└─ Content-hash the corpus for versioning
└─ Package as corpus JSON per harness spec
Step 7: Registration
└─ Register in Supabase datasets table
└─ Add to ATTRIBUTION.md if new sources used
└─ Document in arena website
6.2 — การครอบคลุมปรากฏการณ์ทางภาษาศาสตร์
ทุกคลังข้อมูลควรมีรายการที่ทดสอบปรากฏการณ์ทางภาษาศาสตร์เฉพาะที่เกี่ยวข้องกับคู่ภาษา สิ่งเหล่านี้มาจากฟิลด์ linguisticChallenges และ contactInfluences ในบัตรภาษา:
ปรากฏการณ์สากล (คู่ภาษาทั้งหมด):
- การแก้ไขสรรพนาม (ตัวอ้างอิงที่กำกวม)
- การปฏิเสธ (เดี่ยว คู่ ขอบเขต)
- ตัวบ่งปริมาณ (ทั้งหมด บางส่วน ไม่มี ส่วนใหญ่)
- การแสดงออกทางเวลา (วันที่สัมพัทธ์ ระยะเวลา)
- นามเฉพาะ (บุคคล สถานที่ องค์กร)
- ตัวเลขและการวัด
- รายการและการแจกแจง
ปรากฏการณ์เฉพาะคู่ (จากบัตรภาษา):
- สำหรับปลายทาง polysynthetic: สัณฐานวิทยากริยาซับซ้อน การรวมเข้า
- สำหรับปลายทางที่มีเพศ: การสอดคล้องทางเพศ การอ้างอิงแบบกลาง/ครอบคลุม
- สำหรับปลายทาง SOV: กริยาท้ายอนุประโยค บุพบทหลัง
- สำหรับภาษาวรรณยุกต์: ความแตกต่างของความหมายตามวรรณยุกต์
- สำหรับภาษาที่มีระดับการให้เกียรติ: ตัวทำเครื่องหมายระดับภาษา บริบทสังคม
- สำหรับภาษาสัมผัส: ขอบเขตการสลับรหัส การรวมคำยืม
6.3 — ขนาดคลังข้อมูลขั้นต่ำ
ความน่าเชื่อถือทางสถิติต้องการจำนวนรายการขั้นต่ำ สิ่งเหล่านี้อิงจากข้อกำหนดช่วงความเชื่อมั่น (confidence interval) แบบ paired bootstrap (จาก significance.py):
| วัตถุประสงค์ | รายการขั้นต่ำ | แนะนำ |
|---|---|---|
| ชุดพัฒนา | 50 | 100–200 |
| ชุดประเมินที่ปิดไว้ | 100 | 200–500 |
| ชุดมาตรฐานทอง | 200 | 500+ |
| ขั้นต่ำต่อโดเมน | 10 | 25+ |
| ขั้นต่ำต่อระดับ | 10 | 20+ |
เหตุใดจึงต้องมีขั้นต่ำ 100 รายการสำหรับการประเมิน? เมื่อมีรายการน้อยกว่า ~100 รายการ การทดสอบนัยสำคัญ (significance) แบบ paired bootstrap (1,000 การสุ่มตัวอย่างซ้ำ) ไม่สามารถตรวจจับความแตกต่างที่น้อยกว่า ~5 คะแนน chrF++ ได้อย่างน่าเชื่อถือ เมื่อมี 200+ รายการ เราสามารถตรวจจับความแตกต่าง ~2 คะแนนที่ p<0.05 ได้
7. รูปแบบ JSON ของคลังข้อมูล
ทุกรายการในคลังข้อมูลเป็นไปตามข้อกำหนด harness:
{
"id": "edtekla-dev-v1-042",
"source": "The school board will meet on Tuesday to discuss the new curriculum.",
"reference": "ᑭᓯᑭᓄᐦᐊᒫᑐᐏᓐ ᑲ ᐃᔑ ᐱᒥᐸᔨᐦᑕᐦᒃ ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓇ ᐁ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ ᓂᔓ ᑭᔑᑲᐤ",
"acceptable_variants": [
"ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓐ ᓂᔓ ᑭᔑᑲᐤ ᑲ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ"
],
"domain": "edu",
"difficulty": 3,
"phenomena": ["temporal_expression", "named_entity", "future_tense"],
"provenance": {
"source_doc": "EdTeKLA Module 4, Unit 7",
"source_license": "CC BY-NC-SA 4.0",
"translator": "anonymous-speaker-001",
"translator_qualification": "L1 Plains Cree, certified translator",
"translation_date": "2025-11-15",
"reviewer": "anonymous-speaker-002",
"review_date": "2025-12-01"
}
}
8. มาตรการป้องกันการโกง
8.1 — ความสมบูรณ์ของคลังข้อมูล
| มาตรการ | การดำเนินการ |
|---|---|
| การแฮชเนื้อหา | เวอร์ชันคลังข้อมูล = SHA-256 ของ ID รายการที่เรียงลำดับ + การอ้างอิง การแก้ไขใดๆ จะสร้างเวอร์ชันใหม่ |
| การทำลายนิ้วมือรายการ | แต่ละรายการมี ID ที่มาจากเนื้อหา หากมีการส่งผลลัพธ์ต่อคลังข้อมูลที่ถูกแก้ไข ลายนิ้วมือจะไม่ตรงกัน |
| การบังคับใช้ชุดที่ปิดไว้ | สำหรับการประเมินอย่างเป็นทางการ วิธีการได้รับเฉพาะข้อความต้นฉบับเท่านั้น การอ้างอิงไม่เคยถูกเปิดเผย การให้คะแนนเกิดขึ้นฝั่งเซิร์ฟเวอร์ |
| กำหนดการหมุนเวียน | คลังข้อมูลหมุนเวียนทุกปีเพื่อป้องกันการปรับแต่งระยะยาวต่อเป้าหมายที่ตายตัว |
8.2 — ความสมบูรณ์ของการส่ง
| มาตรการ | การดำเนินการ |
|---|---|
| ลายนิ้วมือแบบ deterministic | การกำหนดค่าการรัน (โมเดล อุณหภูมิ พรอมต์ เวอร์ชันคลังข้อมูล) ถูกแฮช การกำหนดค่าที่เหมือนกันจะสร้างลายนิ้วมือที่เหมือนกัน |
| การตรวจจับการเลือกเฉพาะ | ผู้ส่งต้องเปิดเผยการรันทั้งหมด ไม่ใช่เฉพาะที่ดีที่สุด การส่งหลายครั้งที่มีลายนิ้วมือเดียวกันจะถูกแจ้งเตือน |
| การตรวจสอบการปนเปื้อน | หากรายการประเมินปรากฏในพรอมต์หรือข้อมูลการฝึกของวิธีการแบบตรงตัว การส่งนั้นจะถูกตัดสิทธิ์ |
9. คลังข้อมูลที่มีอยู่
9.1 — EDTeKLA Development Set v1
| คุณสมบัติ | ค่า |
|---|---|
| ID | edtekla-dev-v1 |
| คู่ภาษา | EN → CRK (Plains Cree, SRO) |
| รายการ | 404 (master_corpus.json: 62 gold + 342 textbook); รวม 548 รายการที่มีอยู่ |
| โดเมน | การศึกษา (100%) |
| ระดับ | 1–5 (การกระจายตัวรอการตรวจสอบต่อรายการ) |
| ใบอนุญาต | CC BY-NC-SA 4.0 |
| สถานะ | ชุดพัฒนา (สาธารณะ) |
ข้อจำกัด: โดเมนเดียว (การศึกษาเท่านั้น) ไม่มีการแบ่งชั้นตามโดเมน การกำหนดระดับอาจต้องตรวจสอบ ขนาดคลังข้อมูลเล็กจำกัดพลังทางสถิติสำหรับการทดสอบนัยสำคัญ
9.2 — คลังข้อมูลที่วางแผนไว้
| คลังข้อมูล | คู่ภาษา | สถานะ | เจ้าของ |
|---|---|---|---|
| คลังข้อมูลเฉพาะ EN → TL (Filipino) | EN → TL | วางแผนแล้ว | เจ้าของโครงการ |
| EN → CRK held-out set | EN → CRK | อนาคต (ต้องการพันธมิตรชุมชน) | องค์กรกำกับดูแลชุมชน |
10. การบูรณาการกับบัตรภาษา
กรอบคลังข้อมูลบูรณาการกับระบบบัตรภาษา:
-
การเลือกโดเมน ได้รับข้อมูลจากฟิลด์
linguisticChallengesของบัตร — หากภาษามีความท้าทายเฉพาะ (polysynthesis, วรรณยุกต์, animacy) คลังข้อมูลต้องมีรายการที่ทดสอบสิ่งเหล่านั้น -
การปรับเทียบความยาก ใช้ฟิลด์
classificationของบัตร — ระยะห่างทางประเภทวิทยาระหว่างตระกูลภาษาต้นทางและปลายทางส่งผลต่อสิ่งที่ถือว่า "ยาก" -
การครอบคลุมระดับภาษา ใช้ฟิลด์
registersของบัตร — หากภาษามีระดับภาษาที่กำหนดไว้ (formal-filipino, taglish-professional, taglish-casual) คลังข้อมูลควรมีรายการในแต่ละระดับภาษา -
การทดสอบอิทธิพลจากการสัมผัส ใช้ฟิลด์
contactInfluencesของบัตร — สำหรับภาษาที่มีชั้นการยืมคำหนัก (Filipino: สเปน + อังกฤษ + อาหรับ) ให้มีรายการที่ทดสอบว่าวิธีการจัดการคำยืมได้ถูกต้องหรือแปลมากเกินไป -
การจัดการอักษร ใช้ฟิลด์
scripts[]ของบัตร — สำหรับภาษาที่มีหลายอักษร (เซอร์เบีย: ซีริลลิก + ละติน) ให้มีรายการที่ทดสอบการเลือกอักษรที่ถูกต้อง
อ้างอิง
- Champollion Scoring Specification — กำหนดเมตริกทั้งหมด น้ำหนัก composite และระดับคุณภาพ
- Champollion Benchmark Specification — โปรโตคอลการประเมิน รูปแบบคลังข้อมูล อธิปไตยข้อมูล
- WALS (World Atlas of Language Structures) — ฐานข้อมูลลักษณะทางประเภทวิทยา
- Glottolog — แหล่งอ้างอิงหลักสำหรับการจำแนกประเภทภาษา
- ISO 639-3 — มาตรฐานการระบุภาษา
- EdTeKLA — แหล่งที่มาของคลังข้อมูลการประเมินชุดแรก
เอกสารนี้เป็นข้อกำหนดที่มีชีวิต อัปเดตเมื่อมีการสร้างคลังข้อมูลใหม่และได้รับบทเรียนจากประสบการณ์