การแปลภาษาไม่ใช่การฟื้นฟูภาษา
จุดยืน การแปลด้วยเครื่องแปลงข้อความระหว่างภาษา การฟื้นฟูภาษาสร้างผู้พูดใหม่ ทั้งสองเป็นกิจกรรมที่แตกต่างกันโดยมีเกณฑ์ความสำเร็จที่ต่างกัน และไม่มีคะแนนจากลีดเดอร์บอร์ดใดเปลี่ยนแปลงข้อเท็จจริงนี้ได้ เราสร้าง MT ในฐานะโครงสร้างพื้นฐานที่รับใช้เป้าหมายของชุมชน — ไม่ใช่เป็นสิ่งทดแทนการถ่ายทอดภาษาระหว่างรุ่น เด็กเรียนภาษาจากผู้คน ไม่ใช่จากเครื่องจักร
ในปี 2026 เป็นเรื่องง่ายที่จะเชื่อว่าซอฟต์แวร์สามารถแก้ไขทุกอย่างได้ รวมถึงภาษาที่กำลังสูญเสียผู้พูด เราต้องการอธิบายอย่างชัดเจนว่าเหตุใดความเชื่อนั้นจึงผิด — และสิ่งที่เทคโนโลยีการแปล สามารถ มีส่วนร่วมได้อย่างซื่อสัตย์
บทความนี้มีอยู่เพราะนักภาษาศาสตร์ที่เราเชิญมาวิจารณ์โครงการนี้ได้หยิบยกข้อโต้แย้งอย่างหนักแน่นว่า ระบบแปลภาษาอังกฤษ→ Cree ที่สมบูรณ์แบบจะไม่แก้ปัญหาการถ่ายทอด (เด็กไม่เรียนภาษาที่บ้าน) ปัญหาด้านศักดิ์ศรี (ภาษาอังกฤษในฐานะภาษาแห่งอำนาจทางเศรษฐกิจ) หรือปัญหาด้านการสอน (โรงเรียนแบบ immersion และครูที่ผ่านการฝึกอบรมไม่เพียงพอ) ยิ่งไปกว่านั้นอาจทำให้สถานการณ์แย่ลง โดยสร้างภาพลวงตาว่า "คอมพิวเตอร์พูด Cree ได้" และลดความเร่งด่วนของการถ่ายทอดโดยมนุษย์ลง เรายอมรับคำวิจารณ์ส่วนใหญ่นั้น และเราเผยแพร่คำตอบของเราที่นี่แทนที่จะปิดบังไว้
สิ่งที่การฟื้นฟูภาษาต้องการจริงๆ
วรรณกรรมวิจัยด้านการฟื้นฟูภาษามีความสอดคล้องกันในประเด็นหนึ่ง: ภาษาอยู่รอดได้เมื่อมีการถ่ายทอดระหว่างรุ่น — เมื่อพ่อแม่ ปู่ย่าตายาย และชุมชนพูดภาษานั้นกับเด็ก และเด็กเติบโตขึ้นมาพูดตอบกลับ (Fishman 1991; Hinton & Hale 2001) ทุกอย่างอื่น — โรงเรียน สื่อ พจนานุกรม แอปพลิเคชัน — สนับสนุนการถ่ายทอดนั้น หรือไม่ก็ไม่มีประโยชน์ใดเลย
ไม่มีระบบแปลใดมีส่วนร่วมในการแลกเปลี่ยนนั้น โมเดลที่แปลงเอกสารภาษาอังกฤษเป็น Plains Cree ไม่ได้สร้างผู้พูด มันไม่ได้จัดหาบุคลากรสำหรับห้องเรียนแบบ immersion ฝึกอบรมครู หรือนั่งอยู่กับเด็กที่โต๊ะในครัว หากงานของเราถูกอธิบายว่า "กำลังช่วยชีวิตภาษา" คำอธิบายนั้นผิด และเราจะพูดเช่นนั้น
สิ่งที่ MT ทำไม่ได้
กล่าวอย่างตรงไปตรงมา เพื่อไม่ให้เกิดความคลุมเครือในภายหลัง:
- มันไม่สามารถแทนที่ผู้พูดได้ ผลลัพธ์ที่ไม่มีผู้พูดที่คล่องแคล่วตรวจสอบคือร่างเอกสาร ไม่ใช่ข้อความ กฎการให้คะแนน ของเราเองถือว่าคะแนนอัตโนมัติทุกคะแนนเป็นตัวแทน เฉพาะการตรวจสอบโดยมนุษย์เท่านั้นที่ยืนยันความสามารถในการใช้งาน
- มันไม่สามารถสอนภาษาแรกได้ เด็กเรียนรู้ภาษาผ่านความสัมพันธ์และการแช่ตัวในภาษา ไม่ใช่ผ่านเอกสารที่แปลแล้ว
- มันสามารถสร้างภาพลวงตาที่เป็นอันตรายได้ การสาธิตที่ "พูด" ภาษาหนึ่งอาจบ่งชี้ว่าภาษานั้นปลอดภัยทั้งที่ไม่ใช่ ความเสี่ยงด้านศักดิ์ศรีนี้เป็นเรื่องจริง และเราถือว่ามันเป็นคำถามเปิดที่ต้องตรวจสอบ ร่วมกับ ชุมชน ไม่ใช่ประเด็นที่ต้องจัดการ
- มันไม่สามารถตัดสินใจอะไรได้ ว่าระบบแปลควรมีอยู่สำหรับภาษาหนึ่งหรือไม่ และจะใช้ที่ไหน เป็นการตัดสินใจของชุมชน — รวมถึงการตัดสินใจที่จะไม่นำไปใช้งานเลย การควบคุมนั้นถูกสร้างไว้ในสถาปัตยกรรม การโอนความเป็นเจ้าของ และ อธิปไตยข้อมูล และรวมถึงบริบทด้วย: ชุมชนอาจยอมรับ MT สำหรับเอกสารทางการและปฏิเสธสำหรับสื่อการเรียนในห้องเรียน
สิ่งที่ MT ทำได้อย่างซื่อสัตย์
เมื่อเทียบกับพื้นหลังนั้น มีสิ่งที่เป็นรูปธรรมและมีขอบเขตชัดเจนที่โครงสร้างพื้นฐานการแปลมีส่วนร่วม — แต่ละอย่างรับใช้ผู้ที่กำลังทำงานจริงอยู่แล้ว
1. ปริมาณงานสำหรับนักแปลที่มีภาระงานล้นมือ สำนักงานแปลของชุมชนเผชิญกับเอกสารที่ ควร มีอยู่ในภาษานั้นมากกว่าที่นักแปลมนุษย์จะผลิตได้ตั้งแต่ต้น ร่างจากเครื่องเปลี่ยนงานจาก "แปลทุกอย่าง" เป็น "ตรวจสอบและแก้ไข" — และการศึกษาแบบควบคุมพบว่าการแก้ไขหลังการแปล (post-editing) เร็วกว่าการแปลตั้งแต่ต้นอย่างมีนัยสำคัญ โดยรักษาหรือปรับปรุงคุณภาพ (Plitt & Masselot 2010; Green, Heer & Manning 2013) เราอธิบายขั้นตอนการทำงานนี้อย่างละเอียดใน จาก Benchmark สู่การใช้งานประจำวัน ข้อควรระวัง: การศึกษาเหล่านั้นครอบคลุมคู่ภาษาที่มีทรัพยากรสูง เรายังไม่มีหลักฐานเทียบเท่าสำหรับภาษาแบบ polysynthetic ซึ่งเป็นส่วนหนึ่งของสิ่งที่โครงการนี้ตั้งขึ้นเพื่อวัด
2. ความได้เปรียบในทางปฏิบัติสำหรับสิทธิทางภาษา สิทธิในการรับบริการของรัฐบาลในภาษาพื้นเมืองมีอยู่ในกฎหมายในหลายเขตอำนาจศาล สิ่งที่มักขาดหายไปคือความสามารถในทางปฏิบัติในการผลิตการแปลด้วยความเร็วที่ระบบราชการต้องการ ชุมชนที่สามารถเปลี่ยนเอกสารนโยบายห้าสิบหน้าเป็นการแปลที่ผ่านการตรวจสอบภายในไม่กี่วันแทนที่จะเป็นหลายเดือนอยู่ในตำแหน่งการเจรจาต่อรองที่แข็งแกร่งกว่า เทคโนโลยีไม่ได้สร้างสิทธิ แต่ทำให้สิทธินั้นยากที่จะเพิกเฉย
3. โครงสร้างพื้นฐานทางภาษาที่นำกลับมาใช้ใหม่ได้ ตัววิเคราะห์สัณฐานวิทยา (FST) ที่เราใช้เพื่อตรวจสอบว่าผลลัพธ์การแปลมีคำจริง — ไม่ใช่คำที่ถูกสร้างขึ้นมา — เข้ารหัส เหตุผล ว่าทำไมรูปแบบคำแต่ละคำจึงถูกต้อง เครื่องมือเดียวกันนั้นเป็นรากฐานสำหรับเครื่องมือการเรียนรู้: ตัวฝึกการผันคำ ตัวช่วยเขียนที่แก้ไขข้อผิดพลาด ตัวสำรวจสัณฐานวิทยา เครื่องมือตรวจสอบและเครื่องมือการสอนเป็นสิ่งประดิษฐ์เดียวกัน นี่คือเส้นทาง ไม่ใช่คำสัญญา — เครื่องมือการเรียนรู้ต้องการการสร้าง และว่าจะสร้างหรือไม่เป็นการตัดสินใจของชุมชน
4. การสนับสนุนผู้เรียนภาษาที่สอง การฟื้นฟูภาษาไม่ได้มีเพียงเด็กที่เรียนรู้ภาษาแรก แต่ยังรวมถึงผู้ใหญ่ที่เรียนเป็นภาษาที่สอง — ผู้ที่อาจไม่มีวันถึงระดับความคล่องแคล่วของผู้อาวุโส แต่สามารถอ่านเอกสารของชุมชน มีส่วนร่วมด้วยความเข้าใจ และยกระดับการปรากฏตัวสาธารณะของภาษาโดยการใช้งาน สำหรับกลุ่มนี้ ตัวช่วยการแปลเป็นเครื่องมือที่แท้จริง เช่นเดียวกับที่พจนานุกรมเป็นเครื่องมือ
5. เหตุผลให้งานได้รับการสนับสนุนทางการเงินและเป็นเจ้าของในบ้าน ในโมเดลของเรา วิธีการที่ได้รับการพิสูจน์แล้ว โอนไปยังความเป็นเจ้าของของชุมชน และรายได้จาก API ไหลไปยังชุมชนเป็นส่วนใหญ่ (โมเดลเศรษฐกิจ) ผู้พูด ได้รับค่าตอบแทนสำหรับความเชี่ยวชาญของพวกเขา ไม่ใช่ถูกขอให้อาสา ไม่มีสิ่งใดในนั้นที่เป็นการฟื้นฟูภาษาเช่นกัน — แต่มันนำทรัพยากรไปสู่ผู้ที่ทำการฟื้นฟูภาษา แทนที่จะนำออกไปจากพวกเขา
กรอบความคิดที่ซื่อสัตย์
สาขานี้มีประวัติยาวนานของโครงการเทคโนโลยีที่มาพร้อมกับเรื่องเล่าการช่วยเหลือและจากไปพร้อมกับสิ่งตีพิมพ์ (Bird 2020) เราพยายามยึดถือการอ้างสิทธิ์ที่แคบกว่า: MT คือโครงสร้างพื้นฐาน โครงสร้างพื้นฐานรับใช้เป้าหมายที่กำหนดโดยผู้อื่น ถนนไม่ได้ตัดสินใจว่าคุณจะเดินทางไปที่ไหน เทคโนโลยีนี้ไม่ได้ตัดสินใจว่าภาษาจะอยู่รอดหรือไม่ ผู้พูด ครอบครัว และชุมชนต่างหากที่ตัดสินใจ — และกรอบของ UNESCO International Decade of Indigenous Languages ถูกต้องที่วางชนพื้นเมือง ไม่ใช่เครื่องมือ ไว้ที่ศูนย์กลาง
หากชุมชนสรุปว่าเทคโนโลยีการแปลช่วยเป้าหมายของพวกเขา เราต้องการให้มันเป็นเวอร์ชันที่ดีที่สุดและรับผิดชอบมากที่สุดเท่าที่จะเป็นไปได้ — เป็นเจ้าของโดยพวกเขา ได้รับการตรวจสอบโดยผู้พูดของพวกเขา นำไปใช้ตามเงื่อนไขของพวกเขา หากชุมชนสรุปว่ามันไม่ช่วย ข้อสรุปนั้นเป็นผลลัพธ์ที่ถูกต้องของโครงการนี้ ไม่ใช่ความล้มเหลวของมัน ทั้งสองครึ่งของประโยคนั้นเป็นพันธะสัญญา
สิ่งนี้หมายความว่าอะไรสำหรับคุณ
:::info หากคุณเป็นสมาชิกชุมชน โครงการนี้จะไม่บอกคุณว่าแอปสามารถช่วยภาษาของคุณได้ — มันทำไม่ได้ สิ่งที่มันเสนอมีขอบเขตชัดเจน: การแปลเอกสารที่เร็วขึ้นภายใต้การตรวจสอบของผู้พูดที่คล่องแคล่ว โครงสร้างพื้นฐานที่ชุมชนของคุณสามารถเป็นเจ้าของได้อย่างสมบูรณ์ และค่าตอบแทนสำหรับความเชี่ยวชาญของผู้พูด ว่าจะใช้สิ่งใดและอย่างไรเป็นการตัดสินใจของชุมชนคุณ รวมถึงการตัดสินใจที่จะไม่ใช้มัน ดู สำหรับชุมชนภาษา และ การรายงานข้อผิดพลาดและการเป็นเจ้าของการแก้ไข :::
:::info หากคุณเป็นนักวิจัย ถือว่า "MT สำหรับภาษาที่ใกล้สูญพันธุ์" เป็นการอ้างสิทธิ์โครงสร้างพื้นฐาน ไม่ใช่การอ้างสิทธิ์การฟื้นฟูภาษา และคำถามการประเมินของคุณจะเปลี่ยนไป: ไม่ใช่ "คะแนน BLEU สูงหรือไม่?" แต่ "สิ่งนี้ลดภาระงานของผู้ที่ทำงานจริงได้อย่างวัดผลได้หรือไม่ ตามเงื่อนไขของพวกเขา?" ข้อกำหนด benchmark และ วิธีการทำงาน §8 (ความตึงเครียดและข้อจำกัด) คือที่ที่เรายึดตัวเองตามมาตรฐานนั้น :::
:::info หากคุณเป็นผู้พัฒนา สร้างสำหรับขั้นตอนการทำงาน post-editing ไม่ใช่การสาธิต ผู้ใช้วิธีการของคุณคือผู้พูดที่คล่องแคล่วที่กำลังแก้ไขร่าง และโหมดความล้มเหลวที่เลวร้ายที่สุดคือคำที่ถูกสร้างขึ้นมาซึ่งดูสมเหตุสมผลสำหรับผู้ที่ไม่ใช่ผู้พูด — ซึ่งเป็นเหตุผลที่การตรวจสอบสัณฐานวิทยาเป็นประตูสำหรับทุกอย่างที่นี่ เริ่มต้นด้วย ส่งวิธีการ และ จาก Benchmark สู่การใช้งานประจำวัน :::
แหล่งอ้างอิง
- Fishman, J. A. (1991). Reversing Language Shift: Theoretical and Empirical Foundations of Assistance to Threatened Languages. Multilingual Matters.
- Hinton, L., & Hale, K. (eds.) (2001). The Green Book of Language Revitalization in Practice. Academic Press.
- Plitt, M., & Masselot, F. (2010). "A Productivity Test of Statistical Machine Translation Post-Editing in a Typical Localisation Context." The Prague Bulletin of Mathematical Linguistics, 93, 7–16. PDF
- Green, S., Heer, J., & Manning, C. D. (2013). "The Efficacy of Human Post-Editing for Language Translation." Proceedings of CHI 2013. Paper
- Bird, S. (2020). "Decolonising Speech and Language Technology." Proceedings of COLING 2020, 3504–3519. Paper
- UNESCO. International Decade of Indigenous Languages 2022–2032. idil2022-2032.org
ดูเพิ่มเติม
- วิธีที่ผู้พูดได้รับค่าตอบแทน — โมเดลค่าตอบแทนในตัวเลข
- จาก Benchmark สู่การใช้งานประจำวัน — เส้นทาง post-editing
- วิธีการทำงาน — สถาปัตยกรรมแพลตฟอร์มทั้งหมด รวมถึง §8 เกี่ยวกับความตึงเครียดที่เรายังไม่ได้แก้ไข