การแปลบางส่วน (มนุษย์ + เครื่อง)

แนวคิด: แปลตัวอย่างที่เป็นตัวแทนด้วยมนุษย์ พิสูจน์ว่าวิธีการของเครื่องตรงกับสไตล์ของมนุษย์ในตัวอย่างนั้น จากนั้นแปลส่วนที่เหลือจำนวนมากด้วยเครื่องอัตโนมัติ — ผสมผสานคุณภาพของมนุษย์เข้ากับขนาดของเครื่อง โดยมนุษย์เป็นผู้กำหนดมาตรฐาน และเครื่องปฏิบัติตาม

:::info นี่คือ cookbook ไม่ใช่การนำไปใช้งานสำเร็จรูป คู่มือนี้ร่างขั้นตอนการทำงานแบบผสมผสานระหว่างมนุษย์และเครื่อง เหมาะเป็นพิเศษสำหรับหน่วยงานแปลภาษา นักภาษาชุมชน และบริบทด้านการศึกษา :::

เมื่อใดควรใช้วิธีนี้

คุณมีผู้พูดภาษาที่คล่องแคล่วแต่เวลาของพวกเขามีจำกัด
คุณต้องแปลปริมาณมาก แต่มีเพียงส่วนเล็กน้อยที่ต้องการความสมบูรณ์แบบ
คุณต้องการกำหนดเกณฑ์คุณภาพด้วยการแปลของมนุษย์ แล้วขยายขนาดด้วย MT
คุณทำงานในบริบทด้านการศึกษาหรือชุมชน ที่การตรวจสอบโดยมนุษย์ในส่วนย่อยเป็นไปได้

วิธีการทำงาน

[Full corpus: 1,000 entries]
        │
        ├── [100 entries] ──→ Human translator ──→ Gold translations
        │                                              │
        │                                              ▼
        │                                    Train / prompt machine
        │                                    method to match style
        │                                              │
        └── [900 entries] ──→ Machine method ──→ Auto translations
                                                       │
                                                       ▼
                                              [Optional: human review
                                               of flagged entries]

เลือกตัวอย่างที่เป็นตัวแทน — ครอบคลุมประเภทประโยค ความยาว และหัวข้อที่หลากหลาย
แปลตัวอย่างด้วยมนุษย์ — กำหนดมาตรฐานทองคำสำหรับสไตล์ ระดับภาษา และคำศัพท์เฉพาะ
กำหนดค่าวิธีการของเครื่อง — ใช้การแปลของมนุษย์เป็นข้อมูลสำหรับการ coaching, ตัวอย่าง few-shot หรือข้อมูล fine-tuning
ให้คะแนนเครื่องบนตัวอย่างของมนุษย์ — เครื่องตรงกับสไตล์ของมนุษย์หรือไม่?
แปลส่วนที่เหลือด้วยเครื่องอัตโนมัติ — หากคุณภาพของเครื่องเป็นที่ยอมรับในตัวอย่าง
การตรวจสอบโดยมนุษย์ (ไม่บังคับ) — ทำเครื่องหมายผลลัพธ์ที่มีความเชื่อมั่นต่ำเพื่อให้ผู้พูดตรวจสอบ

การประกันคุณภาพ: การทดสอบความตรงกันของสไตล์

# Translate the human-translated sample with your machine method
python eval/baseline_experiment.py \
  --dataset data/human-sample.json \
  --condition coached-v3

# Compare: does the machine match the human translator's choices?
# Look at: chrF++ (similarity), FST acceptance (validity),
# and qualitative patterns (register, formality, terminology)

การเลือกตัวอย่าง

ครอบคลุมการกระจาย รายการ 100 รายการของคุณควรประกอบด้วย:

วลีสั้น (1–3 คำ) และประโยคเต็ม
คำศัพท์ทั่วไปและคำศัพท์เฉพาะโดเมน
โครงสร้างง่ายและโครงสร้างซับซ้อน
คุณลักษณะทางไวยากรณ์หลายรูปแบบ (คำถาม คำสั่ง ประโยคเงื่อนไข)

อย่าเลือกเฉพาะรายการที่ง่าย ตัวอย่างต้องรวมรายการที่วิธีการของคุณมีแนวโน้มจะมีปัญหา — นั่นคือจุดที่คุณภาพของมนุษย์มีความสำคัญที่สุด

ขั้นตอนการตรวจสอบโดยชุมชน

สำหรับชุมชนภาษาพื้นเมือง แนวทางนี้ให้ความเคารพต่อเวลาของผู้พูด:

ผู้พูดแปล 50–100 รายการ (ทำงานอย่างมีสมาธิ 2–4 ชั่วโมง)
เครื่องแปล 900 รายการที่เหลือ โดยใช้งานของผู้พูดเป็นข้อมูล coaching
ผู้พูดตรวจสอบรายการที่ถูกทำเครื่องหมาย — เฉพาะรายการที่เครื่องมีความเชื่อมั่นน้อยที่สุด (อีก 1–2 ชั่วโมง)
ผลลัพธ์: การแปล 1,000 รายการที่มีคุณภาพใกล้เคียงมนุษย์ โดยใช้เวลาของผู้พูดประมาณ 5 ชั่วโมง แทนที่จะเป็น ~50 ชั่วโมง

ข้อดีและข้อเสีย


✅ ผสมผสานคุณภาพของมนุษย์เข้ากับขนาดของเครื่อง	❌ ต้องการการลงทุนเริ่มต้นจากมนุษย์
✅ ให้ความเคารพต่อความพร้อมของผู้พูดที่มีจำกัด	❌ เครื่องอาจไม่สามารถจับความละเอียดอ่อนของสไตล์ได้ทั้งหมด
✅ ขั้นตอนการประกันคุณภาพที่เป็นธรรมชาติ	❌ การเลือกตัวอย่างส่งผลต่อคุณภาพโดยรวม
✅ เหมาะอย่างยิ่งสำหรับบริบทชุมชน/การศึกษา	❌ คอขวดการตรวจสอบโดยมนุษย์สำหรับรายการที่ถูกทำเครื่องหมาย

ใช้ร่วมกันได้ดีกับ

Coached LLM Prompting — การแปลของมนุษย์เป็นข้อมูล coaching
Few-Shot Prompting — การแปลของมนุษย์เป็นตัวอย่าง in-context
Corpus Creation — ตัวอย่างของมนุษย์คือการสร้าง corpus นั่นเอง

ดูเพิ่มเติม

สำหรับชุมชนภาษา — รูปแบบการมีส่วนร่วมของชุมชน
Data Sovereignty — ความเป็นเจ้าของข้อมูลการแปล
สนับสนุนภาษาที่มีทรัพยากรน้อย

เมื่อใดควรใช้วิธีนี้​

วิธีการทำงาน​

การประกันคุณภาพ: การทดสอบความตรงกันของสไตล์​

การเลือกตัวอย่าง​

ขั้นตอนการตรวจสอบโดยชุมชน​

ข้อดีและข้อเสีย​

ใช้ร่วมกันได้ดีกับ​

ดูเพิ่มเติม​