ข้ามไปยังเนื้อหาหลัก

การแปลบางส่วน (มนุษย์ + เครื่อง)

แนวคิด: แปลตัวอย่างที่เป็นตัวแทนด้วยมนุษย์ พิสูจน์ว่าวิธีการของเครื่องตรงกับสไตล์ของมนุษย์ในตัวอย่างนั้น จากนั้นแปลส่วนที่เหลือจำนวนมากด้วยเครื่องอัตโนมัติ — ผสมผสานคุณภาพของมนุษย์เข้ากับขนาดของเครื่อง โดยมนุษย์เป็นผู้กำหนดมาตรฐาน และเครื่องปฏิบัติตาม

:::info นี่คือ cookbook ไม่ใช่การนำไปใช้งานสำเร็จรูป คู่มือนี้ร่างขั้นตอนการทำงานแบบผสมผสานระหว่างมนุษย์และเครื่อง เหมาะเป็นพิเศษสำหรับหน่วยงานแปลภาษา นักภาษาชุมชน และบริบทด้านการศึกษา :::

เมื่อใดควรใช้วิธีนี้

  • คุณมีผู้พูดภาษาที่คล่องแคล่วแต่เวลาของพวกเขามีจำกัด
  • คุณต้องแปลปริมาณมาก แต่มีเพียงส่วนเล็กน้อยที่ต้องการความสมบูรณ์แบบ
  • คุณต้องการกำหนดเกณฑ์คุณภาพด้วยการแปลของมนุษย์ แล้วขยายขนาดด้วย MT
  • คุณทำงานในบริบทด้านการศึกษาหรือชุมชน ที่การตรวจสอบโดยมนุษย์ในส่วนย่อยเป็นไปได้

วิธีการทำงาน

[Full corpus: 1,000 entries]

├── [100 entries] ──→ Human translator ──→ Gold translations
│ │
│ ▼
│ Train / prompt machine
│ method to match style
│ │
└── [900 entries] ──→ Machine method ──→ Auto translations


[Optional: human review
of flagged entries]
  1. เลือกตัวอย่างที่เป็นตัวแทน — ครอบคลุมประเภทประโยค ความยาว และหัวข้อที่หลากหลาย
  2. แปลตัวอย่างด้วยมนุษย์ — กำหนดมาตรฐานทองคำสำหรับสไตล์ ระดับภาษา และคำศัพท์เฉพาะ
  3. กำหนดค่าวิธีการของเครื่อง — ใช้การแปลของมนุษย์เป็นข้อมูลสำหรับการ coaching, ตัวอย่าง few-shot หรือข้อมูล fine-tuning
  4. ให้คะแนนเครื่องบนตัวอย่างของมนุษย์ — เครื่องตรงกับสไตล์ของมนุษย์หรือไม่?
  5. แปลส่วนที่เหลือด้วยเครื่องอัตโนมัติ — หากคุณภาพของเครื่องเป็นที่ยอมรับในตัวอย่าง
  6. การตรวจสอบโดยมนุษย์ (ไม่บังคับ) — ทำเครื่องหมายผลลัพธ์ที่มีความเชื่อมั่นต่ำเพื่อให้ผู้พูดตรวจสอบ

การประกันคุณภาพ: การทดสอบความตรงกันของสไตล์

# Translate the human-translated sample with your machine method
python eval/baseline_experiment.py \
--dataset data/human-sample.json \
--condition coached-v3

# Compare: does the machine match the human translator's choices?
# Look at: chrF++ (similarity), FST acceptance (validity),
# and qualitative patterns (register, formality, terminology)

การเลือกตัวอย่าง

ครอบคลุมการกระจาย รายการ 100 รายการของคุณควรประกอบด้วย:

  • วลีสั้น (1–3 คำ) และประโยคเต็ม
  • คำศัพท์ทั่วไปและคำศัพท์เฉพาะโดเมน
  • โครงสร้างง่ายและโครงสร้างซับซ้อน
  • คุณลักษณะทางไวยากรณ์หลายรูปแบบ (คำถาม คำสั่ง ประโยคเงื่อนไข)

อย่าเลือกเฉพาะรายการที่ง่าย ตัวอย่างต้องรวมรายการที่วิธีการของคุณมีแนวโน้มจะมีปัญหา — นั่นคือจุดที่คุณภาพของมนุษย์มีความสำคัญที่สุด

ขั้นตอนการตรวจสอบโดยชุมชน

สำหรับชุมชนภาษาพื้นเมือง แนวทางนี้ให้ความเคารพต่อเวลาของผู้พูด:

  1. ผู้พูดแปล 50–100 รายการ (ทำงานอย่างมีสมาธิ 2–4 ชั่วโมง)
  2. เครื่องแปล 900 รายการที่เหลือ โดยใช้งานของผู้พูดเป็นข้อมูล coaching
  3. ผู้พูดตรวจสอบรายการที่ถูกทำเครื่องหมาย — เฉพาะรายการที่เครื่องมีความเชื่อมั่นน้อยที่สุด (อีก 1–2 ชั่วโมง)
  4. ผลลัพธ์: การแปล 1,000 รายการที่มีคุณภาพใกล้เคียงมนุษย์ โดยใช้เวลาของผู้พูดประมาณ 5 ชั่วโมง แทนที่จะเป็น ~50 ชั่วโมง

ข้อดีและข้อเสีย

✅ ผสมผสานคุณภาพของมนุษย์เข้ากับขนาดของเครื่อง❌ ต้องการการลงทุนเริ่มต้นจากมนุษย์
✅ ให้ความเคารพต่อความพร้อมของผู้พูดที่มีจำกัด❌ เครื่องอาจไม่สามารถจับความละเอียดอ่อนของสไตล์ได้ทั้งหมด
✅ ขั้นตอนการประกันคุณภาพที่เป็นธรรมชาติ❌ การเลือกตัวอย่างส่งผลต่อคุณภาพโดยรวม
✅ เหมาะอย่างยิ่งสำหรับบริบทชุมชน/การศึกษา❌ คอขวดการตรวจสอบโดยมนุษย์สำหรับรายการที่ถูกทำเครื่องหมาย

ใช้ร่วมกันได้ดีกับ

  • Coached LLM Prompting — การแปลของมนุษย์เป็นข้อมูล coaching
  • Few-Shot Prompting — การแปลของมนุษย์เป็นตัวอย่าง in-context
  • Corpus Creation — ตัวอย่างของมนุษย์คือการสร้าง corpus นั่นเอง

ดูเพิ่มเติม