การแปลบางส่วน (มนุษย์ + เครื่อง)
แนวคิด: แปลตัวอย่างที่เป็นตัวแทนด้วยมนุษย์ พิสูจน์ว่าวิธีการของเครื่องตรงกับสไตล์ของมนุษย์ในตัวอย่างนั้น จากนั้นแปลส่วนที่เหลือจำนวนมากด้วยเครื่องอัตโนมัติ — ผสมผสานคุณภาพของมนุษย์เข้ากับขนาดของเครื่อง โดยมนุษย์เป็นผู้กำหนดมาตรฐาน และเครื่องปฏิบัติตาม
:::info นี่คือ cookbook ไม่ใช่การนำไปใช้งานสำเร็จรูป คู่มือนี้ร่างขั้นตอนการทำงานแบบผสมผสานระหว่างมนุษย์และเครื่อง เหมาะเป็นพิเศษสำหรับหน่วยงานแปลภาษา นักภาษาชุมชน และบริบทด้านการศึกษา :::
เมื่อใดควรใช้วิธีนี้
- คุณมีผู้พูดภาษาที่คล่องแคล่วแต่เวลาของพวกเขามีจำกัด
- คุณต้องแปลปริมาณมาก แต่มีเพียงส่วนเล็กน้อยที่ต้องการความสมบูรณ์แบบ
- คุณต้องการกำหนดเกณฑ์คุณภาพด้วยการแปลของมนุษย์ แล้วขยายขนาดด้วย MT
- คุณทำงานในบริบทด้านการศึกษาหรือชุมชน ที่การตรวจสอบโดยมนุษย์ในส่วนย่อยเป็นไปได้
วิธีการทำงาน
[Full corpus: 1,000 entries]
│
├── [100 entries] ──→ Human translator ──→ Gold translations
│ │
│ ▼
│ Train / prompt machine
│ method to match style
│ │
└── [900 entries] ──→ Machine method ──→ Auto translations
│
▼
[Optional: human review
of flagged entries]
- เลือกตัวอย่างที่เป็นตัวแทน — ครอบคลุมประเภทประโยค ความยาว และหัวข้อที่หลากหลาย
- แปลตัวอย่างด้วยมนุษย์ — กำหนดมาตรฐานทองคำสำหรับสไตล์ ระดับภาษา และคำศัพท์เฉพาะ
- กำหนดค่าวิธีการของเครื่อง — ใช้การแปลของมนุษย์เป็นข้อมูลสำหรับการ coaching, ตัวอย่าง few-shot หรือข้อมูล fine-tuning
- ให้คะแนนเครื่องบนตัวอย่างของมนุษย์ — เครื่องตรงกับสไตล์ของมนุษย์หรือไม่?
- แปลส่วนที่เหลือด้วยเครื่องอัตโนมัติ — หากคุณภาพของเครื่องเป็นที่ยอมรับในตัวอย่าง
- การตรวจสอบโดยมนุษย์ (ไม่บังคับ) — ทำเครื่องหมายผลลัพธ์ที่มีความเชื่อมั่นต่ำเพื่อให้ผู้พูดตรวจสอบ
การประกันคุณภาพ: การทดสอบความตรงกันของสไตล์
# Translate the human-translated sample with your machine method
python eval/baseline_experiment.py \
--dataset data/human-sample.json \
--condition coached-v3
# Compare: does the machine match the human translator's choices?
# Look at: chrF++ (similarity), FST acceptance (validity),
# and qualitative patterns (register, formality, terminology)
การเลือกตัวอย่าง
ครอบคลุมการกระจาย รายการ 100 รายการของคุณควรประกอบด้วย:
- วลีสั้น (1–3 คำ) และประโยคเต็ม
- คำศัพท์ทั่วไปและคำศัพท์เฉพาะโดเมน
- โครงสร้างง่ายและโครงสร้างซับซ้อน
- คุณลักษณะทางไวยากรณ์หลายรูปแบบ (คำถาม คำสั่ง ประโยคเงื่อนไข)
อย่าเลือกเฉพาะรายการที่ง่าย ตัวอย่างต้องรวมรายการที่วิธีการของคุณมีแนวโน้มจะมีปัญหา — นั่นคือจุดที่คุณภาพของมนุษย์มีความสำคัญที่สุด
ขั้นตอนการตรวจสอบโดยชุมชน
สำหรับชุมชนภาษาพื้นเมือง แนวทางนี้ให้ความเคารพต่อเวลาของผู้พูด:
- ผู้พูดแปล 50–100 รายการ (ทำงานอย่างมีสมาธิ 2–4 ชั่วโมง)
- เครื่องแปล 900 รายการที่เหลือ โดยใช้งานของผู้พูดเป็นข้อมูล coaching
- ผู้พูดตรวจสอบรายการที่ถูกทำเครื่องหมาย — เฉพาะรายการที่เครื่องมีความเชื่อมั่นน้อยที่สุด (อีก 1–2 ชั่วโมง)
- ผลลัพธ์: การแปล 1,000 รายการที่มีคุณภาพใกล้เคียงมนุษย์ โดยใช้เวลาของผู้พูดประมาณ 5 ชั่วโมง แทนที่จะเป็น ~50 ชั่วโมง
ข้อดีและข้อเสีย
| ✅ ผสมผสานคุณภาพของมนุษย์เข้ากับขนาดของเครื่อง | ❌ ต้องการการลงทุนเริ่มต้นจากมนุษย์ |
| ✅ ให้ความเคารพต่อความพร้อมของผู้พูดที่มีจำกัด | ❌ เครื่องอาจไม่สามารถจับความละเอียดอ่อนของสไตล์ได้ทั้งหมด |
| ✅ ขั้นตอนการประกันคุณภาพที่เป็นธรรมชาติ | ❌ การเลือกตัวอย่างส่งผลต่อคุณภาพโดยรวม |
| ✅ เหมาะอย่างยิ่งสำหรับบริบทชุมชน/การศึกษา | ❌ คอขวดการตรวจสอบโดยมนุษย์สำหรับรายการที่ถูกทำเครื่องหมาย |
ใช้ร่วมกันได้ดีกับ
- Coached LLM Prompting — การแปลของมนุษย์เป็นข้อมูล coaching
- Few-Shot Prompting — การแปลของมนุษย์เป็นตัวอย่าง in-context
- Corpus Creation — ตัวอย่างของมนุษย์คือการสร้าง corpus นั่นเอง
ดูเพิ่มเติม
- สำหรับชุมชนภาษา — รูปแบบการมีส่วนร่วมของชุมชน
- Data Sovereignty — ความเป็นเจ้าของข้อมูลการแปล
- สนับสนุนภาษาที่มีทรัพยากรน้อย