จาก Pāṇini ถึง Transformers: ภาษา การคำนวณ และงานแปลที่ยังไม่สิ้นสุด

ประวัติศาสตร์ของแนวคิดเบื้องหลัง champollion

"เมื่อฉันมองบทความภาษารัสเซีย ฉันบอกตัวเองว่า 'บทความนี้เขียนเป็นภาษาอังกฤษจริงๆ แต่ถูกเข้ารหัสด้วยสัญลักษณ์แปลกๆ บางอย่าง บัดนี้ฉันจะดำเนินการถอดรหัสมัน'" — Warren Weaver, 1949

บทนำ

ความฝันเรื่องเครื่องจักรที่สามารถแปลระหว่างภาษามนุษย์นั้นเก่าแก่กว่าคอมพิวเตอร์เสียอีก ในแง่หนึ่ง มันคือปัญหา ดั้งเดิม ของปัญญาประดิษฐ์ — เก่าแก่กว่าโปรแกรมเล่นหมากรุก เก่าแก่กว่าระบบผู้เชี่ยวชาญ เก่าแก่กว่าโครงข่ายประสาทเทียม ความปรารถนานี้มักถูกกรอบด้วยอุปมาอุปไมยแบบยุโรป เช่น หอคอยบาเบล ซึ่งมองความหลากหลายทางภาษาว่าเป็นการลงโทษหรือปัญหาที่ต้องแก้ไข โดยมองข้ามความจริงที่ว่าสังคมพื้นเมืองก่อนการติดต่อกับโลกภายนอกได้จัดการกับความหลากหลายทางภาษาอันน่าทึ่งมาช้านาน ผ่านภาษาการค้าที่ซับซ้อน (เช่น Chinook Jargon) และระบบสัญลักษณ์ (เช่น Plains Indian Sign Language) โดยไม่ได้แสวงหาการรวมเป็นหนึ่งเดียวแบบสากล

แต่ประวัติศาสตร์ที่นำมาสู่ช่วงเวลานี้ — สู่โลกที่โมเดลภาษาขนาดใหญ่สามารถแปลภาษาฝรั่งเศสได้พอใช้ แต่กลับสร้างเนื้อหาไร้สาระในภาษา Cree — ไม่ใช่เส้นตรง มันคือการถักทอของเส้นด้ายอย่างน้อยสี่เส้น ได้แก่ การศึกษาภาษาอย่างเป็นทางการ ทฤษฎีทางคณิตศาสตร์ของการคำนวณ การปฏิวัติทางสถิติในการเรียนรู้ของเครื่อง และประวัติศาสตร์อันมืดมนที่อธิบายว่า เหตุใด ภาษาที่ต้องการเทคโนโลยีมากที่สุดจึงเป็นภาษาที่เทคโนโลยีนั้นไม่มีอยู่ เส้นด้ายที่สี่คือประวัติศาสตร์ของการปราบปรามภาษาพื้นเมืองและการฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรมโดยอาณานิคม — การทำลายล้างภาษาพื้นเมืองอย่างจงใจและเป็นระบบในทุกทวีปที่มหาอำนาจยุโรปสถาปนาอำนาจ หากไม่เข้าใจประวัติศาสตร์นั้น ปัญหาทางเทคนิคจะดูเหมือนเป็นอุบัติเหตุจากการขาดแคลนข้อมูล แต่มันไม่ใช่อุบัติเหตุ

บทความนี้ติดตามเส้นด้ายทั้งสี่เส้นตั้งแต่จุดกำเนิดจนถึงจุดบรรจบในปัจจุบัน ต้องยอมรับว่ามันค่อนข้างเป็นแบบ Whiggish — มันเล่าเรื่องราวราวกับว่ามันนำมาสู่ที่นี่เสมอ แน่นอนว่าประวัติศาสตร์ไม่รู้ว่ากำลังมุ่งไปที่ไหน แต่เส้นด้ายเหล่านั้นมีอยู่จริง ความเชื่อมโยงเป็นของแท้ และการเข้าใจมันเป็นสิ่งจำเป็นต่อการเข้าใจว่าเหตุใดโครงการอย่าง champollion จึงมีอยู่ เหตุใดจึงถูกสร้างขึ้นในแบบที่เป็น และเหตุใดจึงมีความสำคัญในขณะนี้

I. ไวยากรณ์ของทุกสิ่ง: จาก Pāṇini ถึง Chomsky

ไวยากรณ์เชิงรูปแบบชุดแรก (ราวศตวรรษที่ 4 ก่อนคริสตกาล)

เรื่องราวเริ่มต้นไม่ใช่ในมหาวิทยาลัยยุโรป แต่ในอินเดียโบราณ กับนักปราชญ์ชื่อ Pāṇini ราวศตวรรษที่ 4 ก่อนคริสตกาล Pāṇini ได้ประพันธ์ Aṣṭādhyāyī — ไวยากรณ์ภาษาสันสกฤตที่ประกอบด้วยกฎประมาณ 4,000 ข้อ นี่ไม่ใช่ไวยากรณ์ในความหมายที่หลวมๆ แบบการสอน มันคือไวยากรณ์ เชิงสร้าง: ชุดกฎจำกัดที่สามารถสร้างทุกถ้อยคำที่ถูกต้องในภาษาได้ในหลักการ

ระบบของ Pāṇini ใช้สิ่งที่เราจะเรียกในปัจจุบันว่ากฎการเขียนใหม่เชิงรูปแบบ พร้อมตัวแปร การเรียกซ้ำ และการประยุกต์ใช้แบบเรียงลำดับ นักภาษาศาสตร์ Paul Kiparsky ได้โต้แย้งว่า Aṣṭādhyāyī คือ "ไวยากรณ์เชิงสร้างที่สมบูรณ์ที่สุดของภาษาใดๆ ที่เคยเขียนขึ้น" (Kiparsky, 1993) นักวิทยาการคอมพิวเตอร์ Gerard Huet ได้แสดงให้เห็นว่ากฎของ Pāṇini สามารถจำลองเป็น finite-state transducer ได้ — รูปแบบการคำนวณเดียวกันที่ยี่สิบห้าศตวรรษต่อมาจะกลายเป็นศูนย์กลางของการวิเคราะห์สัณฐานวิทยาของภาษาโพลีซินเทติก

Pāṇini ไม่รู้ว่าตนกำลังทำวิทยาการคอมพิวเตอร์ แต่เขากำลังทำอยู่

ศิลาโรเซตตาและการกำเนิดของภาษาศาสตร์เปรียบเทียบ (1799)

ตลอดประวัติศาสตร์ที่บันทึกไว้ส่วนใหญ่ การศึกษาภาษาเป็นการศึกษาภาษา ของตนเอง เป็นหลัก หรืออย่างมากที่สุดก็คือการศึกษาภาษาศักดิ์สิทธิ์หรือภาษาคลาสสิกเพื่อวัตถุประสงค์ทางพิธีกรรม การปฏิวัติทางปัญญาที่สร้างภาษาศาสตร์สมัยใหม่เริ่มต้นด้วยหิน

ศิลาโรเซตตา ซึ่งค้นพบโดยทหารของนโปเลียนในปี 1799 มีพระราชกฤษฎีกาเดียวกันในสามอักษร ได้แก่ อักษรเฮียโรกลิฟิกอียิปต์ อักษรเดโมติก และภาษากรีกโบราณ การถอดรหัสอักษรเฮียโรกลิฟิกของ Jean-François Champollion ในปี 1822 ไม่ใช่แค่ชัยชนะทางโบราณคดี มันแสดงให้เห็นหลักการที่จะกลายเป็นรากฐาน: ภาษาสามารถเข้าใจได้ ผ่านกันและกัน การแปลไม่ใช่แค่ทักษะเชิงปฏิบัติ มันเป็นวิธีการสืบสวนทางวิทยาศาสตร์

William Jones และสมมติฐาน Indo-European (1786)

แม้กระทั่งก่อน Champollion นักภาษาศาสตร์ชาวอังกฤษ Sir William Jones ได้กล่าวสุนทรพจน์อันโด่งดังต่อ Asiatic Society of Bengal ในปี 1786 โดยสังเกตว่าภาษาสันสกฤตมีความสัมพันธ์กับภาษากรีกและละติน "ทั้งในรากของกริยาและในรูปแบบของไวยากรณ์ มากกว่าที่จะเกิดขึ้นโดยบังเอิญได้" Jones เสนอว่าทั้งสามสืบเชื้อสายมาจากบรรพบุรุษร่วมกัน "ซึ่งบางทีอาจไม่มีอยู่อีกต่อไปแล้ว"

นี่คือการกำเนิดของภาษาศาสตร์ประวัติศาสตร์และเปรียบเทียบ มันสถาปนาว่าภาษาไม่ใช่สิ่งที่แยกตัวและหยุดนิ่ง แต่เป็นสมาชิกของตระกูล — เชื่อมโยงกันด้วยสายเลือด ถูกหล่อหลอมโดยเวลา อยู่ภายใต้กฎการเปลี่ยนแปลงที่สม่ำเสมอ มันเป็นทฤษฎีวิวัฒนาการในแบบของมันเองหลายทศวรรษก่อน Darwin

ต้นไม้ภาษาของ August Schleicher (1861)

August Schleicher นักภาษาศาสตร์ชาวเยอรมัน ทำให้ความเชื่อมโยงกับ Darwin ชัดเจนขึ้น ในปี 1861 — เพียงสองปีหลังจาก On the Origin of Species — Schleicher ตีพิมพ์แบบจำลอง Stammbaum (ต้นไม้ตระกูล) ของภาษา Indo-European แผนภาพของเขาดูแทบจะแยกไม่ออกจากต้นไม้วิวัฒนาการในชีววิทยา ภาษา เช่นเดียวกับสปีชีส์ แตกแขนง แยกออก และบางครั้งก็สูญพันธุ์

ต้นไม้ของ Schleicher เป็นการทำให้ง่ายเกินไป (ภาษายัง บรรจบกัน ผ่านการติดต่อ การยืม และการสร้างภาษาครีโอล) แต่แบบจำลองนี้พิสูจน์ว่ามีประสิทธิผลอย่างมาก มันสถาปนาหลักการว่าความหลากหลายทางภาษาไม่ใช่สัญญาณรบกวนแบบสุ่ม แต่เป็นข้อมูลที่มีโครงสร้าง ซึ่งสามารถวิเคราะห์ได้อย่างเป็นระบบ และมันตั้งคำถามโดยนัยที่ยังคงเป็นศูนย์กลางของโครงการของเรา: จะเกิดอะไรขึ้นกับกิ่งก้านที่กำลังจะตาย?

Ferdinand de Saussure และสถาปัตยกรรมของภาษา (1916)

การปฏิวัติครั้งต่อไปมาจาก Ferdinand de Saussure ซึ่ง Cours de linguistique générale (ตีพิมพ์หลังเสียชีวิตในปี 1916 จากบันทึกของนักศึกษา) ได้สถาปนาภาษาศาสตร์เชิงโครงสร้าง Saussure ได้แยกความแตกต่างอย่างชัดเจนระหว่าง langue (ระบบนามธรรมของภาษา) และ parole (การพูดจริง) เขาโต้แย้งว่าสัญลักษณ์ทางภาษาเป็น สิ่งตามอำเภอใจ — คำว่า "ต้นไม้" ไม่มีความเชื่อมโยงโดยธรรมชาติกับต้นไม้ — และความหมายเกิดขึ้นจาก ความแตกต่าง ภายในระบบ ไม่ใช่จากเนื้อหาเชิงบวกใดๆ

แผนภาพสำคัญของ Saussure — วงรีที่แบ่งระหว่าง signifié (ตัวถูกหมาย แนวคิด) และ signifiant (ตัวหมาย ภาพเสียง) เชื่อมโยงด้วยลูกศรที่แสดงความสัมพันธ์ที่แยกไม่ออก — กลายเป็นหนึ่งในภาพที่ถูกทำซ้ำมากที่สุดในมนุษยศาสตร์ มันสถาปนาหลักการว่าภาษาคือ ระบบของระบบ ที่แต่ละองค์ประกอบได้รับคุณค่าจากความสัมพันธ์กับองค์ประกอบอื่นๆ ทั้งหมด

สิ่งนี้มีนัยสำคัญต่อการแปล หากความหมายเป็นเชิงสัมพันธ์และเชิงระบบ การแปลก็ไม่ใช่เรื่องของการสลับคำ มันต้องการความเข้าใจสถาปัตยกรรมทั้งหมดของภาษา ภาษาสองภาษาอาจแบ่งโลกออกในแบบที่แตกต่างกันโดยพื้นฐาน — ข้อมูลเชิงลึกที่ต่อมาจะถูกพัฒนา (และบางครั้งพูดเกินจริง) โดย Edward Sapir และ Benjamin Lee Whorf

Sapir, Bloomfield และการศึกษาภาษาพื้นเมือง

ในอเมริกาเหนือ ต้นศตวรรษที่ 20 นำมาซึ่งประเพณีการทำงานภาคสนามทางภาษาศาสตร์ที่แตกต่างออกไป Edward Sapir และ Leonard Bloomfield ทำงานอย่างกว้างขวางกับภาษาพื้นเมือง — Sapir กับ Navajo, Nootka และอื่นๆ อีกมาก; Bloomfield กับ Menomini และภาษา Algonquian อื่นๆ พวกเขาพบโครงสร้างทางภาษาที่แตกต่างอย่างสิ้นเชิงจากสิ่งใดๆ ในตระกูล Indo-European

โดยเฉพาะ Sapir ได้พัฒนากรอบการจำแนกประเภทที่จัดประเภทภาษาตามแกนหลายแกน รวมถึงความแตกต่างที่สำคัญระหว่างภาษา วิเคราะห์ (เช่น ภาษาอังกฤษ ที่คำมักสั้นและความหมายถูกส่งผ่านลำดับคำ) และภาษา โพลีซินเทติก (เช่น ภาษา Cree ที่คำเดียวสามารถเข้ารหัสสิ่งที่ภาษาอังกฤษจะแสดงเป็นประโยคทั้งประโยค) รูปแบบกริยา Cree เดียวอาจรวมประธาน กรรม กาล ลักษณะ หลักฐาน และองค์ประกอบปรับแต่งหลายอย่างไว้ในคำเดียวที่ซับซ้อนทางสัณฐานวิทยา

งานนี้สถาปนาข้อเท็จจริงสองประการที่ยังคงเป็นศูนย์กลางของโครงการของเรา ประการแรก: ภาษาของโลกมีความหลากหลายทางโครงสร้างมากกว่าที่แบบจำลองที่เน้นยุโรปใดๆ จะแนะนำ ประการที่สอง: ภาษาเหล่านี้หลายภาษาตกอยู่ในอันตรายแล้ว อย่างไรก็ตาม ในขณะที่นักภาษาศาสตร์เชิงโครงสร้างยุคแรกบันทึกความซับซ้อนนี้ พวกเขามักมีส่วนร่วมใน "มานุษยวิทยาการกู้ภัย" — แบบจำลองทางวิชาการแบบสกัดที่ปฏิบัติต่อชนพื้นเมืองเพียงในฐานะ "ผู้ให้ข้อมูล" เพื่อสร้างอาชีพทางวิชาการตะวันตก แนวทางนี้ตัดภาษาออกจากรากฐานทางญาณวิทยา ปูทางสำหรับการปฏิบัติต่อภาษาเป็นข้อมูลที่ไม่มีตัวตนและสกัดได้ แทนที่จะเป็นระบบที่มีชีวิตและสัมพันธ์กัน

การปฏิวัติของ Chomsky (1957)

ในปี 1957 นักภาษาศาสตร์ MIT อายุ 28 ปีชื่อ Noam Chomsky ตีพิมพ์ Syntactic Structures หนังสือบางเล่มที่ระเบิดเหมือนระเบิดในสาขานี้ Chomsky โต้แย้งว่าเป้าหมายของภาษาศาสตร์ควรเป็นการค้นพบ ไวยากรณ์เชิงสร้าง ของภาษา — ชุดกฎจำกัดที่สามารถสร้างประโยคที่ถูกต้องทางไวยากรณ์ทั้งหมดและเฉพาะประโยคเหล่านั้นของภาษานั้น

ที่ยั่วยุกว่านั้น Chomsky เสนอ ลำดับชั้น Chomsky: การจำแนกไวยากรณ์เชิงรูปแบบตามพลังการคำนวณ ลำดับชั้นมีสี่ระดับ:

ประเภท 3 (Regular): รู้จักโดย finite automata รูปแบบง่ายๆ
ประเภท 2 (Context-Free): รู้จักโดย pushdown automata โครงสร้างแบบเรียกซ้ำเช่นวงเล็บซ้อน
ประเภท 1 (Context-Sensitive): รู้จักโดย linear bounded automata การพึ่งพาที่ซับซ้อนกว่า
ประเภท 0 (Recursively Enumerable): รู้จักโดย Turing machines ทุกสิ่งที่คำนวณได้

Chomsky โต้แย้งว่าภาษาธรรมชาติต้องการไวยากรณ์ context-free อย่างน้อย และอาจมากกว่านั้น นี่คือสะพานโดยตรงระหว่างภาษาศาสตร์และทฤษฎีทางคณิตศาสตร์ของการคำนวณ เครื่องมือเชิงรูปแบบเดียวกันที่ Alan Turing พัฒนาขึ้นเพื่อใช้เหตุผลเกี่ยวกับขีดจำกัดของการคำนวณสามารถนำมาใช้กับภาษามนุษย์ได้

Chomsky ยังเสนอแนวคิดของ Universal Grammar — ว่าความสามารถในการใช้ภาษาเป็นสิ่งที่มีมาแต่กำเนิด ว่าภาษามนุษย์ทั้งหมดมีคุณสมบัติเชิงโครงสร้างเชิงลึกร่วมกัน และว่าความหลากหลายของรูปแบบพื้นผิวปิดบังความเป็นหนึ่งเดียวที่อยู่เบื้องล่าง สิ่งนี้ยังคงเป็นที่ถกเถียง (นักประเภทวิทยาและนักหน้าที่นิยมหลายคนไม่เห็นด้วย) แต่เครื่องมือเชิงรูปแบบที่ Chomsky แนะนำ — กฎโครงสร้างวลี ไวยากรณ์การแปลง ลำดับชั้นเอง — กลายเป็นรากฐานของภาษาศาสตร์เชิงคำนวณ

II. ความฝันเรื่องการแปลสากล

เครื่องคิดของ Ramon Llull (1305)

ความฝันเรื่องการทำให้ความคิดเป็นกลไก — และพร้อมกับมัน ความฝันเรื่องการแปลด้วยกลไก — เก่าแก่อย่างน่าทึ่ง Ramon Llull นักลึกลับชาวคาตาลันในศตวรรษที่ 13 ออกแบบ Ars Magna: ระบบของแผ่นดิสก์วงกลมซ้อนกันที่หมุนได้ จารึกด้วยแนวคิดพื้นฐาน ซึ่งการรวมกันของมันมีจุดมุ่งหมายเพื่อสร้างความจริงที่เป็นไปได้ทั้งหมด วงล้อของ Llull เป็นเครื่องตรรกะเชิงผสมเครื่องแรกในแง่หนึ่ง Leibniz ต่อมาอ้าง Llull เป็นแรงบันดาลใจ

Athanasius Kircher และ Polygraphia Nova (1663)

Athanasius Kircher นักปราชญ์เยซูอิตผู้ยิ่งใหญ่ ตีพิมพ์ Polygraphia Nova et Universalis ในปี 1663 — ระบบ "การเขียนสากล" ที่มีจุดมุ่งหมายเพื่อให้การสื่อสารข้ามอุปสรรคทางภาษาเป็นไปได้ ระบบของ Kircher กำหนดตัวเลขให้กับแนวคิด ซึ่งสามารถถอดรหัสเป็นภาษาใดก็ได้ด้วยตารางที่เหมาะสม มันเป็นภาษากลางในสาระสำคัญ — การแสดงความหมายที่เป็นอิสระจากภาษา

ระบบนี้ไม่ได้ทำงานได้ดีนัก แต่ แนวคิด ยังคงอยู่: ว่าระหว่างภาษาใดๆ สองภาษามีพื้นที่แนวคิดร่วมกัน และการแปลเป็นเรื่องของการแมปผ่านมัน สมมติฐานภาษากลางนี้ไม่ใช่แค่การทดลองทางวิทยาศาสตร์ที่บกพร่อง มันเป็นการขยายการควบคุมแบบอาณานิคมทางญาณวิทยา ซึ่งไม่สามารถแมปออนโทโลยีที่แตกต่างกันได้ นักปรัชญา W.V.O. Quine ต่อมาจะทำให้ความล้มเหลวนี้เป็นทางการด้วยแนวคิดของ ความไม่แน่นอนของการแปล (1960) โดยโต้แย้งว่าการแปลแบบรากฐานนั้นไม่แน่นอนโดยธรรมชาติ การแมปสากลที่ปราศจากบริบทระหว่างระบบภาษาที่แตกต่างกันโดยพื้นฐานเป็นความเป็นไปไม่ได้ทางปรัชญา ไม่ใช่แค่อุปสรรคทางวิศวกรรม

John Wilkins และภาษาปรัชญา (1668)

เพียงห้าปีหลังจาก Kircher นักปรัชญาธรรมชาติชาวอังกฤษ John Wilkins ตีพิมพ์ An Essay towards a Real Character, and a Philosophical Language — ความพยายามสร้างภาษาที่โครงสร้างของมัน สะท้อนโครงสร้างของความเป็นจริงอย่างสมบูรณ์แบบ แนวคิดทุกอย่างจะถูกจำแนกในอนุกรมวิธานอันยิ่งใหญ่ และชื่อของมันจะเข้ารหัสตำแหน่งของมันในอนุกรมวิธานนั้น

โครงการของ Wilkins ล้มเหลว (ความเป็นจริงพิสูจน์ว่าต้านทานการจำแนกที่เป็นระเบียบ) แต่มันคาดการณ์บางสิ่งที่สำคัญ: แนวคิดที่ว่าภาษาสามารถ ออกแบบ ได้ ว่าความสัมพันธ์ระหว่างคำและความหมายสามารถทำให้เป็นระบบและชัดเจนได้ นี่คือในแง่ลึก สิ่งที่นักภาษาศาสตร์เชิงคำนวณทำเมื่อพวกเขาสร้างออนโทโลยีและกราฟความรู้

Leibniz และ Characteristica Universalis

Gottfried Wilhelm Leibniz ผู้ประดิษฐ์แคลคูลัสอย่างอิสระและออกแบบเครื่องคิดเลขกลไก ฝันถึง characteristica universalis — ภาษาเชิงรูปแบบสากลที่ความรู้ของมนุษย์ทั้งหมดสามารถแสดงออกได้ — และ calculus ratiocinator — เครื่องจักรที่สามารถใช้เหตุผลในภาษานั้น "หากข้อโต้แย้งจะเกิดขึ้น" Leibniz เขียน "จะไม่มีความจำเป็นต้องโต้เถียงระหว่างนักปรัชญาสองคนมากกว่าระหว่างนักบัญชีสองคน เพราะมันจะเพียงพอที่จะหยิบดินสอขึ้นมา นั่งลงที่กระดานชนวน และพูดกันว่า: ให้เราคำนวณ"

Leibniz ยังประดิษฐ์เลขคณิตฐานสอง — ระบบตัวเลขที่ศตวรรษต่อมาจะกลายเป็นภาษาของคอมพิวเตอร์ดิจิทัล บทความปี 1703 ของเขา Explication de l'Arithmétique Binaire แสดงให้เห็นว่าตัวเลขใดๆ สามารถแสดงได้โดยใช้เพียง 0 และ 1 เขามองว่านี่เป็นการสะท้อนการสร้างสรรค์ของพระเจ้า (บางสิ่งจากความว่างเปล่า) แต่มันจะพิสูจน์ว่าเป็นรากฐานของการคำนวณดิจิทัลทั้งหมด

บันทึกความจำของ Warren Weaver (1949)

ยุคสมัยใหม่ของการแปลด้วยเครื่องเริ่มต้นด้วยบันทึกความจำ ในเดือนกรกฎาคม 1949 Warren Weaver นักคณิตศาสตร์และผู้บริหารวิทยาศาสตร์ชาวอเมริกัน เขียนถึง Norbert Wiener เสนอว่าคอมพิวเตอร์อิเล็กทรอนิกส์ใหม่อาจนำมาใช้กับการแปลได้ บันทึกความจำของเขามีข้อความที่น่าทึ่งที่อ้างไว้ที่ต้นบทความนี้: แนวคิดที่ว่าข้อความภาษารัสเซียนั้น "เขียนเป็นภาษาอังกฤษจริงๆ แต่... เข้ารหัสด้วยสัญลักษณ์แปลกๆ บางอย่าง"

อุปมาอุปไมยของ Weaver มาจากการวิเคราะห์รหัสในช่วงสงคราม — แนวคิดที่ว่าการแปลเป็นปัญหา การถอดรหัส โดยพื้นฐาน นี่ไม่ใช่แค่การเปรียบเทียบ เครื่องมือทางสถิติและทฤษฎีสารสนเทศเดียวกันที่ถูกพัฒนาขึ้นเพื่อทำลายรหัสของศัตรูอาจ Weaver แนะนำ นำมาใช้กับปัญหาการแปลได้

บันทึกความจำนั้นมองโลกในแง่ดีอย่างมาก แต่มันเปิดตัวโปรแกรมการวิจัย ภายในห้าปี การสาธิตการแปลด้วยเครื่องครั้งแรกจะเกิดขึ้น

III. เครื่องจักรแห่งความคิด: การคำนวณและสารสนเทศ

George Boole และพีชคณิตของตรรกะ (1854)

ในปี 1854 George Boole ตีพิมพ์ An Investigation of the Laws of Thought — งานที่ลดการใช้เหตุผลเชิงตรรกะให้เป็นการดำเนินการทางพีชคณิต Boole แสดงให้เห็นว่าข้อเสนอของตรรกะสามารถจัดการได้โดยใช้กฎเดียวกับพีชคณิต โดย AND สอดคล้องกับการคูณ OR กับการบวก และ NOT กับส่วนเติมเต็ม

พีชคณิต Boolean ดูเหมือนเป็นความอยากรู้ทางคณิตศาสตร์ในขณะนั้น มันจะกลายเป็นหลักการทำงานของวงจรดิจิทัลทุกวงจรที่เคยสร้างขึ้น

Charles Babbage และ Ada Lovelace (1837–1843)

Charles Babbage ออกแบบ (แต่ไม่เคยสร้างเสร็จ) Analytical Engine — คอมพิวเตอร์กลไกไอน้ำอเนกประสงค์ ต่างจาก Difference Engine รุ่นก่อนของเขา (เครื่องคิดเลขเฉพาะทาง) Analytical Engine มีหน่วยความจำ ("the Store") หน่วยประมวลผล ("the Mill") การแตกแขนงแบบมีเงื่อนไข และการวนซ้ำ มันเป็น Turing-complete ในหลักการ

Ada Lovelace ทำงานจากคำอธิบายของ Engine เขียนชุดบันทึกโดยละเอียดที่รวมถึงสิ่งที่ถือกันอย่างกว้างขวางว่าเป็นโปรแกรมคอมพิวเตอร์ที่ตีพิมพ์ชุดแรก: อัลกอริทึมสำหรับคำนวณตัวเลข Bernoulli (Note G, 1843) แต่การมีส่วนร่วมที่ลึกซึ้งที่สุดของ Lovelace เป็นเชิงแนวคิด เธอเห็นว่า Engine สามารถจัดการ สัญลักษณ์ ไม่ใช่แค่ตัวเลข "Analytical Engine ทอรูปแบบพีชคณิต" เธอเขียน "เช่นเดียวกับที่กี่ Jacquard ทอดอกไม้และใบไม้" นัยยะ — ว่าการคำนวณสามารถนำมาใช้กับโดเมนใดๆ ที่มีโครงสร้างเชิงรูปแบบ รวมถึงภาษา — เป็นการมองการณ์ไกล

Alan Turing และเครื่องสากล (1936)

ในปี 1936 Alan Turing ตีพิมพ์ "On Computable Numbers, with an Application to the Entscheidungsproblem" — บทความที่นิยามการคำนวณพร้อมกัน พิสูจน์ขีดจำกัดของมัน และประดิษฐ์คอมพิวเตอร์สมัยใหม่ (ในรูปแบบนามธรรม)

ข้อมูลเชิงลึกสำคัญของ Turing คือ เครื่องสากล: เครื่องเดียวที่ เมื่อได้รับคำสั่งที่เหมาะสมที่เข้ารหัสบนเทปของมัน สามารถจำลอง เครื่องอื่นๆ ได้ สิ่งนี้สถาปนาว่าไม่มีความแตกต่างที่สำคัญระหว่างฮาร์ดแวร์และซอฟต์แวร์ ระหว่างเครื่องและโปรแกรม อุปกรณ์เดียว ที่ตั้งโปรแกรมอย่างเหมาะสม สามารถคำนวณทุกสิ่งที่คำนวณได้เลย

งานของ Turing ยังสถาปนาขีดจำกัดของการคำนวณ (ปัญหาการหยุด) และวางรากฐานสำหรับการสำรวจปัญญาประดิษฐ์ในภายหลัง บทความปี 1950 ของเขา "Computing Machinery and Intelligence" ซึ่งเสนอ Turing Test อันโด่งดัง กรอบคำถามเรื่องปัญญาประดิษฐ์อย่างชัดเจนในแง่ของ ภาษา: เครื่องจักรมีปัญญาหากผ่านการสนทนาไม่สามารถแยกแยะจากมนุษย์ได้

Claude Shannon และทฤษฎีสารสนเทศ (1948)

ในปี 1948 Claude Shannon ตีพิมพ์ "A Mathematical Theory of Communication" ใน Bell System Technical Journal — บทความที่ก่อตั้งสาขาทฤษฎีสารสนเทศ Shannon แสดงให้เห็นว่าการสื่อสารสามารถจำลองเป็นระบบได้: แหล่งสารสนเทศ สร้าง ข้อความ ซึ่ง ตัวส่ง เข้ารหัสเป็น สัญญาณ ซึ่งผ่าน ช่องทาง (ที่อยู่ภายใต้ สัญญาณรบกวน) ซึ่ง ตัวรับ ถอดรหัสกลับเป็นข้อความสำหรับ ปลายทาง

การมีส่วนร่วมสำคัญของ Shannon คือแนวคิดของ เอนโทรปี — การวัดความไม่แน่นอนหรือเนื้อหาสารสนเทศของข้อความ เขาพิสูจน์ว่าสำหรับช่องทางใดๆ ที่มีระดับสัญญาณรบกวนที่กำหนด มีอัตราสูงสุดที่สารสนเทศสามารถส่งได้อย่างน่าเชื่อถือ (ความจุช่องทาง) และอัตรานี้สามารถบรรลุได้ด้วยการเข้ารหัสที่ฉลาดเพียงพอ

ความเชื่อมโยงกับการแปลนั้นลึกซึ้ง Shannon เอง ในบทความปี 1951 ใช้ทฤษฎีสารสนเทศเพื่อวิเคราะห์โครงสร้างทางสถิติของภาษาอังกฤษ เขาแสดงให้เห็นว่าข้อความภาษาอังกฤษมีความซ้ำซ้อนสูง — ว่าเจ้าของภาษา เมื่อได้รับลำดับตัวอักษร สามารถทำนายตัวอักษรถัดไปได้อย่างแม่นยำ ความซ้ำซ้อนนี้คือสิ่งที่ทำให้การสื่อสารทนทานต่อสัญญาณรบกวน แต่ยังหมายความว่า เนื้อหาสารสนเทศ ของภาษานั้นต่ำกว่าที่จำนวนสัญลักษณ์ดิบจะแนะนำมาก

Warren Weaver เห็นความเชื่อมโยงทันที: หากการแปลคือการถอดรหัส และหากโครงสร้างทางสถิติของภาษาสามารถจำลองได้ การแปลก็เป็นปัญหาทฤษฎีสารสนเทศ ข้อมูลเชิงลึกนี้ใช้เวลาหลายทศวรรษกว่าจะออกผล แต่เมื่อมันออกผล มันก็เปลี่ยนแปลงสาขานี้

Von Neumann และคอมพิวเตอร์โปรแกรมที่เก็บไว้ (1945)

รายงานปี 1945 ของ John von Neumann เกี่ยวกับ EDVAC (Electronic Discrete Variable Automatic Computer) อธิบายสิ่งที่เราเรียกในปัจจุบันว่า สถาปัตยกรรม von Neumann: คอมพิวเตอร์ที่มีหน่วยความจำเดียวสำหรับทั้งข้อมูลและคำสั่ง หน่วยประมวลผลกลาง และกลไกอินพุต/เอาต์พุต สถาปัตยกรรมนี้ — ข้อมูลและโปรแกรมใช้หน่วยความจำเดียวกัน ประมวลผลตามลำดับโดย CPU — ยังคงเป็นการออกแบบพื้นฐานของคอมพิวเตอร์เกือบทุกเครื่องที่ใช้งานอยู่ในปัจจุบัน

สถาปัตยกรรม von Neumann ทำให้ซอฟต์แวร์เป็นไปได้ในทางปฏิบัติ โปรแกรมสามารถเก็บ แก้ไข และแม้แต่สร้างโดยโปรแกรมอื่นได้ นี่คือเงื่อนไขทางเทคโนโลยีสำหรับทุกสิ่งที่ตามมา: คอมไพเลอร์ ระบบปฏิบัติการ และในที่สุดกรอบงานโครงข่ายประสาทเทียมที่ขับเคลื่อนการแปลด้วยเครื่องสมัยใหม่

IV. การแปลด้วยเครื่อง: ปัญหา AI ชุดแรก

การทดลอง Georgetown-IBM และสงครามเย็น (1954)

เมื่อวันที่ 7 มกราคม 1954 นักวิจัยจาก Georgetown University และ IBM สาธิตระบบการแปลด้วยเครื่องสาธารณะชุดแรก ระบบแปลประโยคภาษารัสเซีย 60 ประโยคเป็นภาษาอังกฤษโดยใช้คำศัพท์ 250 คำและกฎไวยากรณ์หกข้อ ประโยคเหล่านั้นถูกเลือกอย่างระมัดระวังให้อยู่ในขีดความสามารถของระบบ แต่การสาธิตสร้างความตื่นเต้นอย่างมาก

New York Times รายงานว่าการทดลองนี้บ่งบอกถึงอนาคตที่ "เครื่องแปลอิเล็กทรอนิกส์แบบกดปุ่ม" จะทำให้วรรณกรรมทางวิทยาศาสตร์ทั้งหมดของโลกเข้าถึงได้ทันที อย่างไรก็ตาม ความมองโลกในแง่ดีต่อสาธารณะนี้ปิดบังความเป็นจริงทางวัตถุของวัตถุประสงค์และแหล่งทุนของโครงการ การทดลอง Georgetown-IBM — และสาขาการแปลด้วยเครื่องยุคแรกโดยทั่วไป — ไม่ได้ขับเคลื่อนโดยความปรารถนาแบบอุดมคติเพื่อการสื่อสารสากล มันได้รับทุนจากกองทัพสหรัฐและหน่วยงานข่าวกรอง (รวมถึง CIA และ DARPA) ในฐานะความจำเป็นเร่งด่วนในสงครามเย็นเพื่อเฝ้าระวังและดักจับข้อความทางวิทยาศาสตร์และการทหารของโซเวียต

มุมมองของภาษาในฐานะ "รหัสที่ต้องถอด" (ตามที่ Weaver กล่าว) ผูกพันโดยธรรมชาติกับการเฝ้าระวังแบบทหาร นักวิจัยทำนายว่าการแปลด้วยเครื่องจะเป็นปัญหาที่แก้ไขได้ภายในห้าปี พวกเขาผิดพลาดไปกว่าครึ่งศตวรรษ

รายงาน ALPAC และฤดูหนาว AI ครั้งแรก (1966)

ในปี 1966 Automatic Language Processing Advisory Committee (ALPAC) ซึ่งจัดตั้งโดยรัฐบาลสหรัฐ ออกรายงานที่ทำลายล้าง หลังจากทบทวนการวิจัย MT หนึ่งทศวรรษ ALPAC สรุปว่าการแปลด้วยเครื่องช้ากว่า ไม่แม่นยำกว่า และแพงกว่าการแปลโดยมนุษย์ และแนะนำให้เปลี่ยนทิศทางการให้ทุนไปสู่การวิจัยพื้นฐานในภาษาศาสตร์เชิงคำนวณ

รายงาน ALPAC ฆ่าการให้ทุนวิจัย MT ในสหรัฐอเมริกาได้อย่างมีประสิทธิภาพเป็นเวลากว่าทศวรรษ มันเป็น "ฤดูหนาว AI" ครั้งแรก — รูปแบบที่จะซ้ำ: คำสัญญาที่ฟุ่มเฟือย ผลลัพธ์ที่ปานกลาง ความผิดหวัง การล่มสลายของการให้ทุน

แต่รายงานยังมีข้อมูลเชิงลึกที่ลึกซึ้งกว่า การแปลด้วยเครื่องล้มเหลว ส่วนหนึ่งเพราะภาษายากกว่าที่ใครคาดไว้ แนวทางตามกฎ — การเขียนกฎไวยากรณ์ที่ชัดเจนเพื่อวิเคราะห์และสร้างประโยค — ทำงานได้สำหรับกรณีง่ายๆ แต่พังทลายอย่างหายนะกับข้อความจริง ภาษามีความกำกวมมากเกินไป ขึ้นอยู่กับบริบทมากเกินไป มีชีวิต มากเกินไปสำหรับกฎที่เปราะบางจะจับได้

MT แบบตามกฎและแบบถ่ายโอน (ทศวรรษ 1970–1980)

การวิจัยดำเนินต่อไป อย่างเงียบๆ มากขึ้น ตลอดทศวรรษ 1970 และ 1980 ระบบอย่าง SYSTRAN (ซึ่งขับเคลื่อนบริการแปลยุคแรกของคณะกรรมาธิการยุโรป) ใช้พจนานุกรมที่สร้างด้วยมือขนาดใหญ่และกฎการถ่ายโอนเพื่อแมประหว่างคู่ภาษา ระบบเหล่านี้สามารถสร้างการแปลร่างที่มีประโยชน์สำหรับโดเมนที่จำกัด แต่ต้องการความพยายามทางวิศวกรรมอย่างมากสำหรับแต่ละคู่ภาษา และไม่ค่อยจัดการข้อความที่ไม่จำกัดได้อย่างสง่างาม

ปัญหาพื้นฐานชัดเจน: ภาษาไม่ใช่รหัส คุณไม่สามารถแปลโดยการค้นหาคำในพจนานุกรมและจัดเรียงใหม่ตามกฎไวยากรณ์ เพราะความหมายขึ้นอยู่กับบริบท ความรู้เกี่ยวกับโลก เจตนาของผู้พูด ประวัติศาสตร์ทั้งหมดของการสนทนา แนวทางภาษากลาง — การแปลผ่านการแสดงนามธรรมที่เป็นอิสระจากภาษา — มีความสง่างามในทางทฤษฎีแต่เป็นไปไม่ได้ในทางปฏิบัติ ไม่มีใครสามารถนิยามภาษากลางได้

การปฏิวัติทางสถิติ (ทศวรรษ 1990)

การก้าวกระโดดมาไม่ใช่จากกฎที่ดีกว่า แต่จากข้อมูลที่ดีกว่า ในช่วงปลายทศวรรษ 1980 และต้นทศวรรษ 1990 นักวิจัยที่ IBM (Peter Brown, Stephen Della Pietra, Vincent Della Pietra และ Robert Mercer) พัฒนาชุดแบบจำลองทางสถิติสำหรับการแปลด้วยเครื่อง — IBM Models 1 ถึง 5 อันโด่งดัง

ข้อมูลเชิงลึกสำคัญคือแนวคิดเก่าของ Weaver ที่ในที่สุดก็ถูกทำให้เข้มงวด: การแปลในฐานะการถอดรหัส ให้ประโยคต่างประเทศ f หาประโยคภาษาอังกฤษ e ที่ทำให้ P(e|f) สูงสุด โดยทฤษฎีของ Bayes สิ่งนี้เทียบเท่ากับการทำให้ P(f|e) × P(e) สูงสุด — แบบจำลองการแปล (ประโยคต่างประเทศนี้มีความน่าจะเป็นเท่าใดเมื่อกำหนดประโยคภาษาอังกฤษนี้?) คูณด้วย แบบจำลองภาษา (ประโยคภาษาอังกฤษนี้มีความน่าจะเป็นเท่าใดด้วยตัวเอง?)

IBM models เรียนรู้ความน่าจะเป็นเหล่านี้จาก คลังข้อมูลคู่ขนาน ขนาดใหญ่ — คอลเลกชันของข้อความที่มีอยู่ในทั้งสองภาษา (เช่น Hansards ของรัฐสภาแคนาดา ซึ่งตีพิมพ์ทั้งภาษาอังกฤษและฝรั่งเศส) ไม่จำเป็นต้องมีกฎที่สร้างด้วยมือ ระบบเรียนรู้การแปลโดยการสังเกตตัวอย่างการแปลของมนุษย์หลายล้านตัวอย่าง

Statistical MT ทำงานได้ดีกว่า rule-based MT อย่างมากสำหรับภาษาที่มีข้อมูลคู่ขนานอุดมสมบูรณ์ มันยังแนะนำโครงสร้างพื้นฐานที่สำคัญ: คะแนน BLEU (Papineni et al., 2002) ซึ่งเป็นตัวชี้วัดสำหรับการประเมินคุณภาพการแปลโดยอัตโนมัติโดยการเปรียบเทียบผลลัพธ์ของเครื่องกับการแปลอ้างอิงของมนุษย์ BLEU ทำให้สามารถวัดความก้าวหน้าเชิงปริมาณและดำเนินการทดลองขนาดใหญ่ได้

แต่ statistical MT มีสมมติฐานที่ร้ายแรงฝังอยู่: มันต้องการ คลังข้อมูลคู่ขนาน สำหรับคู่ภาษาหลักของโลก — อังกฤษ-ฝรั่งเศส อังกฤษ-จีน อังกฤษ-สเปน — ข้อมูลคู่ขนานมีอุดมสมบูรณ์ สำหรับภาษาส่วนใหญ่ของโลกที่มี 7,000 ภาษา มันไม่มีอยู่เลย

การปฏิวัติของโครงข่ายประสาทเทียม: Seq2Seq, Attention, Transformers (2014–2017)

การเปลี่ยนแปลงครั้งต่อไปมาพร้อมกับการเรียนรู้เชิงลึก ในปี 2014 Ilya Sutskever, Oriol Vinyals และ Quoc Le สาธิตแบบจำลอง sequence-to-sequence (seq2seq) สำหรับ MT: โครงข่ายประสาทเทียมที่สามารถอ่านประโยคทั้งประโยคในภาษาหนึ่งและสร้างการแปลในอีกภาษาหนึ่ง โดยไม่มีการจัดตำแหน่งหรือตารางวลีที่ชัดเจน

ในปี 2015 Dzmitry Bahdanau, Kyunghyun Cho และ Yoshua Bengio แนะนำ กลไก attention — ช่วยให้ตัวถอดรหัส "มองย้อนกลับ" ไปยังส่วนต่างๆ ของประโยคต้นทางในขณะที่สร้างแต่ละคำของการแปล สิ่งนี้ปรับปรุงประสิทธิภาพอย่างมากสำหรับประโยคยาว

และในปี 2017 Vaswani et al. ที่ Google ตีพิมพ์ "Attention Is All You Need" แนะนำสถาปัตยกรรม Transformer Transformer ละทิ้งการเรียกซ้ำทั้งหมด ประมวลผลลำดับทั้งหมดพร้อมกันโดยใช้ self-attention มันฝึกได้เร็วกว่า ขยายขนาดได้ง่ายกว่า และสร้างการแปลที่ดีกว่าสิ่งใดๆ ที่มีมาก่อน

Transformers นำไปสู่โมเดลภาษาขนาดใหญ่ (LLMs) ของทศวรรษ 2020 โดยตรง: GPT, BERT, PaLM, LLaMA และลูกหลานของพวกมัน โมเดลเหล่านี้ ที่ฝึกบนข้อความจำนวนมหาศาลจากอินเทอร์เน็ต สามารถแปลระหว่างคู่ภาษาหลายร้อยคู่ด้วยความคล่องแคล่วที่น่าทึ่ง

แต่ "ความคล่องแคล่วที่น่าทึ่ง" ไม่เหมือนกับ "ความแม่นยำที่เชื่อถือได้" และสำหรับภาษาทรัพยากรต่ำของโลก สถานการณ์นั้นเลวร้ายกว่าที่ดูเหมือนมาก

V. ประวัติศาสตร์อีกด้าน: ภาษา อำนาจ และการฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรม

สี่ส่วนก่อนหน้าเล่าเรื่องของแนวคิด — ของนักไวยากรณ์ นักคณิตศาสตร์ และวิศวกรที่สร้างสู่การแปลด้วยเครื่อง แต่มีประวัติศาสตร์อีกด้าน ที่ดำเนินไปพร้อมกัน ที่อธิบายว่า เหตุใด ภาษาที่ต้องการเทคโนโลยีการแปลมากที่สุดจึงเป็นภาษาที่ไม่มีเทคโนโลยีนั้น นี่ไม่ใช่เรื่องราวเกี่ยวกับการขาดแคลนข้อมูลในฐานะข้อเท็จจริงที่เป็นกลาง มันเป็นเรื่องราวเกี่ยวกับการทำลายล้างโดยเจตนา

เหตุผลที่ Plains Cree ไม่มีการสนับสนุนการแปลด้วยเครื่องไม่ใช่เป็นหลักเพราะ Cree เป็นภาษาที่ยากสำหรับคอมพิวเตอร์ (แม้ว่ามันจะเป็น) มันเป็นเพราะเป็นเวลากว่าศตวรรษ รัฐบาลของแคนาดาและสหรัฐอเมริกาดำเนินโครงการอย่างเป็นระบบเพื่อกำจัดภาษาพื้นเมืองออกจากปากของเด็กๆ "การขาดแคลนข้อมูล" ที่ทำให้ MT ทรัพยากรต่ำยากมากนั้น ส่วนใหญ่เป็น ผลพวงของการฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรม บัญชีที่ซื่อสัตย์ใดๆ เกี่ยวกับเหตุใดภาษาเหล่านี้จึงต้องการเทคโนโลยีต้องเผชิญกับเหตุใดพวกมันจึงถูกนำมาสู่ขอบของการสูญพันธุ์ในตอนแรก

ก่อนการติดต่อ: ทวีปแห่งภาษา

ความหลากหลายทางภาษาของทวีปอเมริกาก่อนการติดต่อนั้นน่าทึ่ง ในช่วงเวลาของการติดต่อกับยุโรป อเมริกาเหนือเพียงแห่งเดียวเป็นที่อยู่ของภาษาที่แตกต่างกันประมาณ 300 ถึง 600 ภาษา จัดเป็นตระกูลภาษาที่ไม่เกี่ยวข้องกันหลายสิบตระกูล — ความหลากหลายทางพันธุกรรมมากกว่าในยุโรปทั้งหมด อเมริกาใต้อาจมี 1,500 ภาษาหรือมากกว่า (Campbell, 1997) ออสเตรเลียมีกว่า 250 ภาษา หมู่เกาะแปซิฟิก แอฟริกาใต้สะฮารา และเอเชียตะวันออกเฉียงใต้แผ่นดินใหญ่ก็มีความหลากหลายในทำนองเดียวกัน

เหล่านี้ไม่ใช่ภาษา "ดั้งเดิม" หรือ "เรียบง่าย" ภาษาที่มีโครงสร้างซับซ้อนที่สุดที่เคยบันทึกไว้หลายภาษาเป็นภาษาพื้นเมือง สัณฐานวิทยาโพลีซินเทติกของภาษา Algonquian (รวมถึง Cree, Ojibwe และ Blackfoot) ระบบเสียงวรรณยุกต์ของ Navajo การทำเครื่องหมายหลักฐานที่ซับซ้อนของ Quechua พยัญชนะคลิกของภาษา Khoisan — สิ่งเหล่านี้แสดงถึงขอบเขตเต็มของสิ่งที่ภาษามนุษย์สามารถเป็นได้ พวกมันเข้ารหัสระบบความรู้ที่ซับซ้อนเกี่ยวกับความสัมพันธ์ทางเครือญาติ นิเวศวิทยา กฎหมาย จิตวิญญาณ และประวัติศาสตร์ แต่ละภาษาคือห้องสมุด — บันทึกที่ไม่สามารถทดแทนได้ของวิธีที่ชุมชนหนึ่งเข้าใจและจัดระเบียบโลก

Edward Sapir ตระหนักถึงสิ่งนี้อย่างชัดเจน เขียนในปี 1921 เขาสังเกตว่า "เมื่อพูดถึงรูปแบบทางภาษา เพลโตเดินกับคนเลี้ยงหมูชาวมาซิโดเนีย ขงจื๊อกับนักล่าหัวผู้ดุร้ายแห่ง Assam" ภาษาของชนพื้นเมืองไม่ได้ด้อยกว่า พวกมันแตกต่าง — และความแตกต่างของพวกมันมีความรู้ที่ไม่มีภาษาอื่นใดมี

กลไกของการตายของภาษา

ภาษาไม่ตายด้วยสาเหตุธรรมชาติ พวกมันตายเมื่อเงื่อนไขสำหรับการถ่ายทอดถูกขัดขวาง — เมื่อเด็กหยุดเรียนรู้พวกมัน เมื่อผู้พูดถูกลงโทษสำหรับการใช้พวกมัน เมื่อแรงจูงใจทางสังคมและเศรษฐกิจเปลี่ยนไปจนการพูดภาษาที่มีอำนาจเหนือกว่ากลายเป็นเงื่อนไขของการอยู่รอด

การหยุดชะงักนี้สามารถเกิดขึ้นได้อย่างค่อยเป็นค่อยไป ผ่านแรงกดดันทางเศรษฐกิจและประชากร แต่ทั่วโลกอาณานิคม มันเป็น เจตนา อย่างท่วมท้น การปราบปรามภาษาพื้นเมืองไม่ใช่ผลข้างเคียงของการล่าอาณานิคม มันเป็นเป้าหมายนโยบายที่ระบุไว้

แคนาดา: ระบบโรงเรียนประจำ (1831–1996)

ในแคนาดา ระบบโรงเรียนประจำอินเดียดำเนินการมากว่า 160 ปี โดยมีเป้าหมายชัดเจนในการกำจัดภาษาและวัฒนธรรมพื้นเมือง เด็กชาว First Nations, Métis และ Inuit ประมาณ 150,000 คนถูกพรากจากครอบครัวและชุมชนและถูกวางในโรงเรียนประจำที่ดำเนินการโดยคริสตจักรซึ่งได้รับทุนจากรัฐบาล

นโยบายหลักถูกระบุด้วยความชัดเจนที่น่าสะพรึงกลัวโดย Duncan Campbell Scott รองผู้ดูแลทั่วไปกรมกิจการอินเดีย ในปี 1920: "ฉันต้องการกำจัดปัญหาอินเดีย... วัตถุประสงค์ของเราคือดำเนินต่อไปจนกว่าจะไม่มีชาวอินเดียในแคนาดาที่ยังไม่ถูกดูดซับเข้าสู่ร่างกายทางการเมืองและไม่มีคำถามอินเดียและไม่มีกรมอินเดีย"

กลไกคือภาษา เด็กๆ ถูกห้ามพูดภาษาแม่ของพวกเขา การลงโทษสำหรับการพูดภาษาพื้นเมืองมีตั้งแต่การตีไปจนถึงการกักขังเดี่ยวไปจนถึงการแทงเข็มผ่านลิ้น เด็กๆ มาถึงพูด Cree, Ojibwe, Inuktitut, Dene, Haida หรือภาษาอื่นๆ อีกหลายสิบภาษา พวกเขาถูกลงโทษจนหยุด

คณะกรรมการความจริงและการปรองดองของแคนาดา (2015) บันทึกลักษณะที่เป็นระบบของการโจมตีนี้ รายงานขั้นสุดท้ายสรุปว่าระบบโรงเรียนประจำเป็น การฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรม — การทำลายโครงสร้างและการปฏิบัติที่ช่วยให้กลุ่มดำเนินต่อไปในฐานะกลุ่ม ภาษาเป็นเป้าหมายหลัก หากไม่มีภาษา พิธีกรรมจะถูกขัดขวาง ประวัติศาสตร์ปากเปล่าจะขาดสาย ระบบความสัมพันธ์ทางเครือญาติจะเข้าใจไม่ได้ และการถ่ายทอดความรู้ระหว่างรุ่นจะหยุดลง

โรงเรียนประจำที่ดำเนินการโดยรัฐบาลกลางแห่งสุดท้ายในแคนาดาปิดตัวในปี 1996 ผู้อาวุโสหลายคนที่เป็นผู้พูดที่คล่องแคล่วคนสุดท้ายของภาษาของพวกเขาในปัจจุบันเป็นผู้รอดชีวิตจากโรงเรียนประจำ ความคล่องแคล่วของพวกเขาไม่ใช่แค่ทรัพยากรทางภาษา มันเป็นการกระทำของการต่อต้าน

สหรัฐอเมริกา: โรงเรียนประจำอินเดีย (ทศวรรษ 1860–1960)

สหรัฐอเมริกาดำเนินระบบคู่ขนาน กัปตัน Richard Henry Pratt ผู้ก่อตั้ง Carlisle Indian Industrial School ในปี 1879 บัญญัติวลีที่นิยามยุคสมัย: "ฆ่าชาวอินเดีย ช่วยมนุษย์" โรงเรียนประจำที่ได้รับทุนจากรัฐบาลกว่า 350 แห่งดำเนินการทั่วสหรัฐอเมริกา โดยมีนโยบายที่เกือบจะเหมือนกับในแคนาดา เด็กพื้นเมืองถูกห้ามพูดภาษาของพวกเขา ถูกบังคับให้ใช้ชื่อภาษาอังกฤษ และถูกกระทำการลบล้างวัฒนธรรมอย่างเป็นระบบ

รายงานปี 2022 โดยกระทรวงมหาดไทยสหรัฐระบุโรงเรียนประจำอินเดียของรัฐบาลกลางกว่า 400 แห่งใน 37 รัฐ บันทึกการเสียชีวิตของเด็กอย่างน้อย 500 คนในระบบ — ตัวเลขที่รายงานยอมรับว่าเกือบแน่นอนว่าต่ำกว่าความเป็นจริงอย่างมาก การสืบสวนพบว่าระบบถูกออกแบบมาไม่ใช่แค่เพื่อให้การศึกษา แต่เพื่อ "กลืนกลายเด็กอินเดียทางวัฒนธรรมโดยการย้ายพวกเขาออกจากครอบครัวและชุมชนโดยบังคับ"

ผลกระทบทางภาษาเป็นหายนะ จากภาษาพื้นเมืองประมาณ 300 ภาษาที่พูดในดินแดนที่กลายเป็นสหรัฐอเมริกา มากกว่าครึ่งหนึ่งสูญพันธุ์แล้ว ในบรรดาที่รอดชีวิต ส่วนใหญ่มีผู้พูดที่คล่องแคล่วน้อยกว่า 1,000 คน และหลายภาษามีน้อยกว่า 10 คน Endangered Languages Project จำแนกภาษาพื้นเมืองอเมริกันที่รอดชีวิตส่วนใหญ่ว่า "ตกอยู่ในอันตรายอย่างรุนแรง" หรือ "ตกอยู่ในอันตรายอย่างวิกฤต"

ออสเตรเลีย: Stolen Generations (1910–1970)

ในออสเตรเลีย นโยบายของรัฐบาลระหว่างปี 1910 ถึง 1970 บังคับย้ายเด็กชาวอะบอริจินและชาว Torres Strait Islander ออกจากครอบครัว เด็กเหล่านี้ — รู้จักกันในชื่อ Stolen Generations — ถูกวางในคณะมิชชันนารี เขตสงวน และครอบครัวอุปถัมภ์ผิวขาว เป้าหมายที่ชัดเจนคือการกลืนกลาย: เพื่อขจัดอัตลักษณ์ชาวอะบอริจินภายในไม่กี่รุ่น

ภาษาอะบอริจินถูกปราบปรามในคณะมิชชันนารีและสถาบันของรัฐบาล เด็กที่พูดภาษาของพวกเขาถูกลงโทษ รายงาน Bringing Them Home (1997) ที่จัดทำโดยคณะกรรมการสิทธิมนุษยชนออสเตรเลีย บันทึกลักษณะที่เป็นระบบของการย้ายเหล่านี้และผลกระทบที่ทำลายล้างต่อภาษา วัฒนธรรม และครอบครัว

จากภาษาอะบอริจินออสเตรเลียประมาณ 250 ภาษาที่พูดในช่วงเวลาของการติดต่อกับยุโรป น้อยกว่า 20 ภาษากำลังถูกถ่ายทอดให้กับเด็กในปัจจุบัน (Marmion et al., 2014) กว่า 100 ภาษาสูญพันธุ์อย่างสมบูรณ์ ภาษาที่เหลือรอดชีวิตส่วนใหญ่ผ่านความพยายามของผู้พูดสูงอายุที่ทำงานร่วมกับนักภาษาศาสตร์และองค์กรชุมชนในการแข่งขันกับเวลา

สแกนดิเนเวีย: ภาษา Sámi

การปราบปรามภาษาพื้นเมืองไม่ได้จำกัดอยู่แค่รัฐที่ตั้งถิ่นฐานอาณานิคมในซีกโลกใต้ ในนอร์เวย์ สวีเดน และฟินแลนด์ เด็ก Sámi ถูกส่งไปโรงเรียนประจำ (internatskoler) ตั้งแต่กลางศตวรรษที่ 19 จนถึงทศวรรษ 1960 ภาษา Sámi ถูกห้ามในโรงเรียน เด็กถูกลงโทษสำหรับการพูดพวกมัน นโยบาย "Norwegianization" (fornorskingspolitikk) ของนอร์เวย์มีจุดมุ่งหมายอย่างชัดเจนเพื่อกำจัดภาษา Sámi และแทนที่ด้วยภาษานอร์เวย์

จากภาษา Sámi ที่รอดชีวิตเก้าภาษา หลายภาษามีผู้พูดน้อยกว่า 500 คน Ume Sámi มีประมาณ 20 คน Pite Sámi มีน้อยกว่า 30 คน ภาษาเหล่านี้รอดชีวิตส่วนหนึ่งเพราะโครงการฟื้นฟูที่เริ่มต้นในทศวรรษ 1970 รวมถึงการจัดตั้งโรงเรียนและสื่อภาษา Sámi — โครงการที่มาถึงทันเวลาสำหรับบางสำเนียงและสายเกินไปสำหรับสำเนียงอื่นๆ

Aotearoa นิวซีแลนด์: Te Reo Māori

ภาษา Māori (te reo Māori) เป็นภาษาส่วนใหญ่ของ Aotearoa จนถึงกลางศตวรรษที่ 20 นโยบายการศึกษาอาณานิคมอังกฤษ เริ่มต้นในทศวรรษ 1860 ค่อยๆ ทำให้ te reo ถูกละเลยในโรงเรียน ในทศวรรษ 1970 ผู้พูดที่คล่องแคล่วน้อยกว่า 20% ของชาว Māori และภาษาตกอยู่ในความเสี่ยงที่จะสูญพันธุ์ภายในรุ่นเดียว

การตอบสนองของชาว Māori เป็นหนึ่งในขบวนการฟื้นฟูภาษาที่เร็วที่สุดและประสบความสำเร็จมากที่สุดในโลก Kōhanga reo (รังภาษา) สำหรับเด็กก่อนวัยเรียน ก่อตั้งในปี 1982 ให้เด็กทารกและเด็กเล็กได้รับ te reo ตั้งแต่แรกเกิด Kura kaupapa Māori (โรงเรียนที่ใช้ภาษา Māori เป็นสื่อ) ตามมา โครงการเหล่านี้ ควบคู่กับ Māori Language Act ปี 1987 (ซึ่งทำให้ te reo เป็นภาษาทางการ) ได้ทำให้ภาษามีเสถียรภาพ — แม้ว่าผู้พูดที่คล่องแคล่วยังคงเป็นชนกลุ่มน้อยของประชากร Māori

นิวซีแลนด์ยังผลิตหนึ่งในกรอบงานที่สำคัญที่สุดสำหรับการกำกับดูแลข้อมูลพื้นเมือง: Te Mana Raraunga เครือข่ายอธิปไตยข้อมูล Māori กรอบงานนี้ยืนยันว่าข้อมูล Māori — รวมถึงข้อมูลทางภาษา — เป็น taonga (สมบัติ) ที่อยู่ภายใต้สิทธิและความรับผิดชอบของ kaitiakitanga (การดูแลรักษา) มันมีอิทธิพลโดยตรงต่อการพัฒนาหลักการ CARE สำหรับการกำกับดูแลข้อมูลพื้นเมืองและเป็นข้อมูลอ้างอิงพื้นฐานสำหรับกลไกอธิปไตยข้อมูลใน champollion

รูปแบบ: ภาษาในฐานะเป้าหมายของอำนาจอาณานิคม

รายละเอียดทางภูมิศาสตร์และวัฒนธรรมแตกต่างกัน แต่รูปแบบนั้นสอดคล้องกันอย่างน่าทึ่ง ทั่วแคนาดา สหรัฐอเมริกา ออสเตรเลีย สแกนดิเนเวีย และนิวซีแลนด์ — และในหลายสถานที่อื่นๆ ตั้งแต่ไต้หวันถึงไซบีเรียถึงที่ราบสูงแอนดีส — รัฐอาณานิคมและหลังอาณานิคมระบุภาษาพื้นเมืองว่าเป็นอุปสรรคต่อการกลืนกลายและกำหนดเป้าหมายพวกมันเพื่อกำจัด เครื่องมือเหมือนกันทุกที่: พรากเด็กออกจากครอบครัว ห้ามใช้ภาษาพื้นเมือง ลงโทษการละเมิด และให้รางวัลการรับภาษาอาณานิคม

นี่ไม่ใช่เชิงอรรถทางประวัติศาสตร์ โรงเรียนประจำแห่งสุดท้ายในแคนาดาปิดตัวในปี 1996 โรงเรียนประจำอินเดียแห่งสุดท้ายในสหรัฐอเมริกาปิดตัวในทศวรรษ 1960 ผู้คนหลายคนที่รอดชีวิตจากระบบเหล่านี้ยังมีชีวิตอยู่ การบาดเจ็บเป็นระหว่างรุ่น และความเสียหายทางภาษายังคงดำเนินต่อไป: ภาษาที่สูญเสียรุ่นของผู้พูดในยุคโรงเรียนประจำกำลังสูญเสียผู้อาวุโสที่คล่องแคล่วคนสุดท้าย

จากการฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรมสู่ "การขาดแคลนข้อมูล"

ประวัติศาสตร์นี้เกี่ยวข้องโดยตรงกับปัญหาทางเทคนิคของการแปลด้วยเครื่อง เมื่อนักวิทยาการคอมพิวเตอร์อธิบายภาษาว่า "ทรัพยากรต่ำ" พวกเขามักหมายความว่า: มีข้อความดิจิทัลน้อย คลังข้อมูลคู่ขนานน้อย พจนานุกรมน้อย และชุดข้อมูลที่มีคำอธิบายประกอบน้อย การกรอบนั้นเป็นกลาง ราวกับว่าการขาดแคลนข้อมูลเป็นการกระทำของธรรมชาติ เหมือนทะเลทรายที่มีฝนน้อย

มันไม่ใช่ "การขาดแคลนข้อมูล" ของภาษาพื้นเมืองคือ ผลพวงโดยตรง ของนโยบายการปราบปรามภาษา ภาษาที่ถูกห้ามในโรงเรียนสร้างข้อความที่เป็นลายลักษณ์อักษรน้อยลง ภาษาที่ผู้พูดถูกลงโทษสำหรับการพูดพัฒนาการใช้งานในสถาบันน้อยลง ภาษาที่สูญเสียรุ่นของการถ่ายทอดสร้างผู้พูดสองภาษาน้อยลงที่สามารถสร้างคลังข้อมูลคู่ขนานได้

ท่อส่งจากการฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรมสู่การขาดแคลนข้อมูลนั้นตรงไปตรงมา:

การปราบปรามม → เด็กถูกลงโทษสำหรับการพูดภาษา
การถ่ายทอดที่ถูกขัดขวาง → เด็กน้อยลงเรียนรู้ภาษา
ฐานผู้พูดที่ลดลง → ผู้ใหญ่น้อยลงใช้มันในชีวิตประจำวัน
การใช้งานในสถาบันที่ลดลง → เอกสารที่เป็นลายลักษณ์อักษรน้อยลง ข้อความดิจิทัลน้อยลง
การขาดแคลนข้อมูล → โมเดล ML ไม่มีอะไรให้ฝึก
ไม่มีการสนับสนุน MT → ภาษาไม่ปรากฏต่อเทคโนโลยี
การเสื่อมถอยที่เร่งขึ้น → เทคโนโลยีเสริมการกีดกันที่นโยบายเริ่มต้น

ท่อส่งนี้หมายความว่าโครงการเทคโนโลยีใดๆ ที่ทำงานกับภาษาพื้นเมืองสืบทอดบริบททางการเมืองและศีลธรรมไม่ว่าจะยอมรับหรือไม่ก็ตาม ระบบการแปลด้วยเครื่องที่ปฏิบัติต่อข้อมูลภาษา Cree เป็นวัตถุดิบที่จะถูกนำเข้าโดยโมเดล ไม่ว่าจะโดยไม่ตั้งใจ กำลังดำเนินพลวัตการสกัดที่เริ่มต้นด้วยโรงเรียนประจำต่อไป ข้อมูลถูกทำให้ขาดแคลนโดยความรุนแรง ผู้พูดที่สร้างข้อมูลที่มีอยู่ทำเช่นนั้นโดยเผชิญกับอุปสรรคอย่างมาก ระบบใดๆ ที่ใช้ข้อมูลนั้นโดยไม่มีการควบคุมที่มีความหมายของชุมชนกำลังทำให้ความเสียหายเดิมทวีคูณ

ความร่วมมือของวิทยาศาสตร์และอุดมการณ์ตะวันตก

เป็นสิ่งสำคัญที่จะต้องตระหนักว่าวิทยาศาสตร์และเทคโนโลยีไม่ใช่ผู้สังเกตการณ์ที่บริสุทธิ์ต่อโครงการอาณานิคมนี้ พวกมันเป็นผู้มีส่วนร่วมที่กระตือรือร้น อุดมการณ์ "ยุคแห่งแสงสว่าง" ที่พยายามจัดประเภท วัดปริมาณ และทำให้โลกเป็นมาตรฐานมักปฏิบัติต่อชนพื้นเมืองและภาษาของพวกเขาเพียงในฐานะหัวข้อการวิจัยหรือสิ่งที่น่าสนใจสำหรับ "มานุษยวิทยาการกู้ภัย" การปฏิบัติแบบสกัดนี้ล็อคความรู้ไว้ในมหาวิทยาลัยตะวันตกในขณะที่ทำน้อยมากเพื่อหยุดเครื่องจักรทางการเมืองที่ทำลายชุมชนเหล่านั้น

โครงการนี้ยืนอยู่ตรงข้ามกับวิธีการอย่างการศึกษาซิฟิลิส Tuskegee หรือมานุษยวิทยาภาษาศาสตร์แบบสกัด ซึ่งปฏิบัติต่อผู้คน BIPOC เป็นหัวข้อการทดลองหรือผู้ให้ข้อมูลดิบแบบเฉยๆ เราไม่ได้อยู่ที่นี่เพื่อทดลองกับชนพื้นเมือง สกัดความรู้ของพวกเขา หรือบังคับอุดมการณ์ที่เป็นเนื้อเดียวกันทางวัฒนธรรมตะวันตกบนพวกเขา เป้าหมายของเราคือการอำนวยความสะดวก วิธีการรู้ของพวกเขาเอง และ มาตรฐานคุณค่าของพวกเขาเอง เราจัดหาโครงสร้างพื้นฐาน ชุมชนภาษาสร้างชุดทดสอบ กำหนดตัวชี้วัด และรักษาการสนับสนุน หากไม่มีการสนับสนุนของพวกเขา ไม่มีสิ่งใดทำงานได้

เหตุใดประวัติศาสตร์นี้จึงกำหนดการออกแบบของเรา

นี่คือเหตุผลที่แบบจำลองการกำกับดูแลของ champollion ไม่ใช่คุณลักษณะ — มันคือรากฐาน การตัดสินใจออกแบบหลักทุกอย่างในโครงการเป็น การตอบสนองโดยตรง ต่อประวัติศาสตร์ที่อธิบายไว้ข้างต้น เป้าหมายคืออธิปไตยข้อมูล: เพื่อสนับสนุนชุมชนในการรักษา ฟื้นฟู และกำกับดูแลภาษาที่มีชีวิตของพวกเขาอย่างสมบูรณ์ตามเงื่อนไขของพวกเขาเอง

เหตุใดข้อมูลทดสอบจึงถูกเข้ารหัสและถือครองโดยทรัสต์ชุมชน เพราะข้อมูลทางภาษาพื้นเมืองถูกสกัด ตีพิมพ์ และใช้ประโยชน์โดยไม่ได้รับความยินยอมมากว่าศตวรรษ ภาษาศาสตร์มิชชันนารี เช่น ความพยายามของ Summer Institute of Linguistics (SIL) ผูกขาดคลังข้อมูลคู่ขนานพื้นเมืองในอดีตภายใต้กรอบการกลืนกลายแบบสกัด นอกจากนี้ ต่างจากโครงการ NLP สมัยใหม่หลายโครงการที่พึ่งพาพระคัมภีร์ที่แปลแล้วเป็นคลังข้อมูลคู่ขนานหลักสำหรับภาษาทรัพยากรต่ำ เราไม่ใช้พระคัมภีร์ที่แปลแล้วเป็นคลังข้อมูลอย่างชัดเจน ชุดทดสอบที่เข้ารหัส โดยมีกุญแจที่ถือครองโดยองค์กรกำกับดูแลของชุมชนเท่านั้น เป็นกลไกทางเทคนิคที่ทำให้ เป็นไปไม่ได้ทางสถาปัตยกรรม ที่จะทำซ้ำรูปแบบการสกัด

เหตุใดเราจึงใช้การดำเนินการในแซนด์บ็อกซ์แทนชุดทดสอบแบบเปิด เพราะเมื่อข้อมูลทางภาษาถูกตีพิมพ์อย่างเปิดเผย ชุมชนจะสูญเสียการควบคุมมันอย่างถาวร เกณฑ์มาตรฐาน ML แบบดั้งเดิมตีพิมพ์ชุดทดสอบของพวกมัน — ใครก็ตามสามารถดาวน์โหลด ฝึกบน หรือใช้เพื่อวัตถุประสงค์ใดก็ได้ การขูดข้อมูล AI สมัยใหม่นี้แสดงถึงรูปแบบใหม่ของ "ลัทธิอาณานิคมข้อมูล" และ "การล้อมรั้วดิจิทัล" สำหรับชุมชนที่ภาษาของพวกเขาเกือบถูกกำจัดโดยกำลัง การสูญเสียการควบคุมทรัพยากรทางภาษาที่เหลืออยู่ไม่ใช่ความไม่สะดวกเล็กน้อย มันเป็นการดำเนินต่อโดยตรงของการยึดครองดินแดนทางประวัติศาสตร์ การดำเนินการในแซนด์บ็อกซ์ทำให้มั่นใจว่าข้อมูลของชุมชนไม่เคยออกจากโครงสร้างพื้นฐานของพวกเขา

เหตุใดความเป็นเจ้าของวิธีการจึงโอนไปยังชุมชน เพราะประวัติศาสตร์ของการ "ช่วยเหลือ" ชุมชนพื้นเมืองนั้น โดยรวมแล้ว เป็นประวัติศาสตร์ของคนนอกที่สร้างสิ่งต่างๆ เกี่ยวกับ ชนพื้นเมืองแทนที่จะ สำหรับ หรือ ร่วมกับ พวกเขา บทความวิชาการถูกตีพิมพ์ ทุนถูกรวบรวม อาชีพก้าวหน้า — และชุมชนถูกทิ้งไว้โดยไม่มีอะไร กลไกการโอนความเป็นเจ้าของทำให้มั่นใจว่าเมื่อวิศวกร ML สร้างวิธีการแปลที่ใช้งานได้สำหรับ Plains Cree ชุมชน Plains Cree เป็นเจ้าของวิธีการนั้น วิศวกรได้รับเครดิตและการระบุแหล่งที่มา ชุมชนได้รับทรัพย์สิน

เหตุใดแบบจำลองรายได้จึงส่ง 90% ไปยังชุมชน เพราะการฟื้นฟูภาษามีค่าใช้จ่ายสูง และชุมชนที่ทำงานหนักที่สุด — ผู้อาวุโสที่สอน พ่อแม่ที่ส่งเด็กไปโรงเรียนแบบเข้มข้น นักเคลื่อนไหวที่ดำเนินรังภาษา — ได้รับทุนไม่เพียงพออย่างเรื้อรัง นอกจากนี้ โครงสร้างพื้นฐาน AI ที่เราใช้ (เช่น ศูนย์ข้อมูล การขุดแร่ การใช้น้ำ) เรียกเก็บค่าใช้จ่ายทางวัตถุที่ไม่สมส่วนบนดินแดนพื้นเมืองทั่วโลก หาก Cree translation API สร้างรายได้ 90% ของรายได้นั้นควรให้ทุนโครงการภาษา Cree เทคโนโลยีควรเป็นเครื่องมือที่รับใช้ชุมชน ไม่ใช่กลไกที่สกัดคุณค่าจากพวกเขา

เหตุใดเราจึงพูดว่า "OCAP®-forward" แทน "OCAP®-compliant" หลักการ OCAP® (Ownership, Control, Access, Possession) ถูกพัฒนาโดย First Nations Information Governance Centre โดยเฉพาะสำหรับบริบท First Nations กรอบงานการกำกับดูแลข้อมูลพื้นเมืองอื่นๆ — CARE (Collective Benefit, Authority to Control, Responsibility, Ethics), Te Mana Raraunga (อธิปไตยข้อมูล Māori) และหลักการ FAIR — จัดการกับข้อกังวลที่คล้ายกันจากตำแหน่งทางวัฒนธรรมและกฎหมายที่แตกต่างกัน เราไม่อ้างว่าดำเนินการ OCAP® อย่างเต็มรูปแบบ การตัดสินนั้นเป็นของชุมชน First Nations เราบอกว่าการออกแบบของเราเป็น OCAP®-forward: มันถูกสร้างขึ้นเพื่อให้ชุมชน สามารถ ใช้ความเป็นเจ้าของ การควบคุม การเข้าถึง และการครอบครองข้อมูลและเทคโนโลยีที่ได้มาจากมัน สถาปัตยกรรมเปิดใช้งานอธิปไตย ว่ามันบรรลุอธิปไตยหรือไม่เป็นเรื่องที่ชุมชนตัดสิน

เหตุใดแพลตฟอร์มจึงเปรียบเทียบ วิธีการ ไม่ใช่ โมเดล เพราะชุมชนภาษาพื้นเมืองไม่ควรพึ่งพาโมเดลของบริษัทเดียว สถาปัตยกรรมแบบเปิดของ "วิธีการ" หมายความว่าโซลูชันไม่จำเป็นต้องเป็น LLM ที่มีค่าใช้จ่ายสูงและใช้วัสดุมาก มันอาจเป็นระบบตามกฎที่มีประสิทธิภาพสูง ที่โฮสต์โดยชุมชน ทำงานบนฮาร์ดแวร์คอมพิวเตอร์แบบดั้งเดิม หากวิธีการแปลที่ดีที่สุดสำหรับ Cree ใช้ Gemini ของ Google ในวันนี้ ชุมชนควรสามารถเปลี่ยนไปใช้ทางเลือกโอเพนซอร์สหรือแบบกำหนดได้ในวันพรุ่งนี้โดยไม่ต้องสร้างทุกอย่างใหม่ การเปรียบเทียบระดับวิธีการทำให้มั่นใจว่าทรัพย์สินของชุมชนคือ สูตร ไม่ใช่การพึ่งพา

เหตุใดชุมชนต้องสร้างโครงสร้างพื้นฐานนี้ตอนนี้ ความขัดแย้งของการใช้ประโยชน์จาก AI ในขณะที่วิจารณ์การสกัดวัสดุของมันได้รับการแก้ไขโดยความเป็นจริงเชิงกลยุทธ์ที่รุนแรง: หากปัญหานี้ไม่ได้รับการแก้ไขโดยชุมชนตามเงื่อนไขอธิปไตยของพวกเขาเอง มันจะถูก "แก้ไข" อย่างหลีกเลี่ยงไม่ได้โดย Big Tech (Google, Meta, OpenAI) ตามเงื่อนไขการสกัด แม้ว่าบริษัทขนาดใหญ่จะสร้างโมเดลการแปลสำหรับภาษาพื้นเมืองที่กำหนดในที่สุด ชุมชนต้องการโครงสร้างพื้นฐานการเปรียบเทียบที่เป็นอิสระและแยกตัวของตนเองเพื่อตรวจสอบ เมื่อ และ ถ้า พวกเขาประสบความสำเร็จจริงตามมาตรฐานชุมชน — และเพื่อให้มั่นใจว่าชุมชนได้รับคุณค่าจากความสำเร็จนั้น

นี่ไม่ใช่การเมืองที่ติดอยู่กับเทคโนโลยี มันคือเทคโนโลยีที่ออกแบบโดยผู้คนที่เข้าใจประวัติศาสตร์

VI. ช่วงเวลาปัจจุบัน: 6,800 ภาษาที่ถูกทิ้งไว้ข้างหลัง

ขนาดของปัญหา

จากภาษาที่มีชีวิตประมาณ 7,000 ภาษาที่พูดบนโลกในปัจจุบัน น้อยกว่า 200 ภาษามีการสนับสนุนการแปลด้วยเครื่องใดๆ เลย อีก 6,800+ ภาษาที่เหลือไม่ปรากฏต่อเทคโนโลยี — ไม่ใช่เพราะพวกมันมีคุณค่าน้อยกว่า แต่เพราะแนวทางทางสถิติและโครงข่ายประสาทเทียมที่ครอบงำ MT สมัยใหม่นั้น หิวข้อมูล โดยพื้นฐาน พวกมันต้องการประโยคคู่ขนานหลายล้านประโยคเพื่อเรียนรู้ สำหรับภาษาส่วนใหญ่ของโลก ประโยคเหล่านั้นไม่มีอยู่

ภาษาที่ได้รับผลกระทบมากที่สุดคือภาษาที่ตกอยู่ในอันตรายมากที่สุด: ภาษาพื้นเมือง ภาษาชนกลุ่มน้อย ประเพณีปากเปล่าที่มีบันทึกที่เป็นลายลักษณ์อักษรจำกัด เหล่านี้คือภาษาที่ผู้พูดมักเป็นผู้สูงอายุ ชุมชนมีขนาดเล็ก อำนาจทางการเมืองน้อยที่สุด พวกมันคือภาษาที่ต้องการการสนับสนุนทางเทคโนโลยีมากที่สุดสำหรับการอนุรักษ์และการฟื้นฟู — และพวกมันคือภาษาที่เทคโนโลยีที่มีอยู่มีประโยชน์น้อยที่สุด

ความท้าทายของโพลีซินเทติก

ปัญหาไม่ใช่แค่เรื่องการขาดแคลนข้อมูล ภาษาที่ใกล้สูญพันธุ์มากที่สุดในโลกหลายภาษาเป็น โพลีซินเทติก — พวกมันมีระบบสัณฐานวิทยาที่ซับซ้อนอย่างผิดปกติซึ่งทำลายสมมติฐานของ NLP มาตรฐานโดยพื้นฐาน

พิจารณา Plains Cree (nêhiyawêwin) ภาษา Algonquian ที่พูดทั่วทุ่งหญ้าแคนาดา กริยา Cree เดียวสามารถเข้ารหัสข้อมูลที่ภาษาอังกฤษจะกระจายไปทั่วประโยคทั้งประโยค: ประธาน กรรม กาล ลักษณะ หลักฐาน ลักษณะ และหมวดหมู่ไวยากรณ์อื่นๆ ต่างๆ ทั้งหมดบรรจุอยู่ในคำเดียวผ่านระบบคำนำหน้า คำต่อท้าย และการปรับเปลี่ยนภายใน

สิ่งนี้สร้างปัญหาหลายประการสำหรับแนวทาง MT มาตรฐาน:

ความล้มเหลวของการแบ่งโทเค็น ตัวแบ่งโทเค็นย่อยคำอย่าง BPE (Byte Pair Encoding) ที่ออกแบบมาสำหรับภาษาวิเคราะห์อย่างภาษาอังกฤษ แตกคำโพลีซินเทติกออกเป็นชิ้นส่วนที่ไม่มีความหมาย โครงสร้างสัณฐานวิทยาถูกทำลายก่อนที่โมเดลจะเห็นมัน BPE ไม่ใช่สิ่งที่เป็นกลาง มันแสดงถึงญาณวิทยาเชิงประจักษ์นิยมระดับพื้นผิวล้วนๆ ที่ขัดแย้งโดยพื้นฐานกับลำดับชั้นสัณฐานวิทยาเชิงกฎเชิงลึกที่มีอยู่ในภาษาโพลีซินเทติก มันเป็นอคติทางสถาปัตยกรรมที่แยกสัณฐานวิทยาเชิงโครงสร้างออกอย่างแข็งขัน
การระเบิดเชิงผสม ภาษาโพลีซินเทติกอาจมีรูปแบบคำที่เป็นไปได้หลายล้านรูปแบบสำหรับรากกริยาเดียว ไม่มีคลังข้อมูลการฝึก ไม่ว่าจะใหญ่แค่ไหน สามารถมีได้มากกว่าเศษเสี้ยวเล็กน้อยของพวกมัน โมเดลโครงข่ายประสาทเทียมไม่มีทางที่จะ สรุปทั่วไป ไปยังรูปแบบที่ไม่เคยเห็น
การสร้างภาพหลอน โมเดลภาษาขนาดใหญ่ เมื่อถูกขอให้แปลเป็นภาษาโพลีซินเทติก มักสร้างรูปแบบที่ไม่ถูกต้องทางสัณฐานวิทยา — คำที่ไม่มีเจ้าของภาษาพื้นเมืองคนใดจะสร้างขึ้น โมเดลได้เรียนรู้รูปแบบทางสถิติจากข้อมูลที่จำกัด แต่ไม่มีความเข้าใจกฎสัณฐานวิทยาของภาษา

Finite State Transducers: สะพาน

อย่างไรก็ตาม มีเทคโนโลยีที่ จัดการ ความซับซ้อนทางสัณฐานวิทยาได้ดี: Finite State Transducer (FST) FST คืออุปกรณ์การคำนวณเชิงรูปแบบที่แมประหว่างสตริงอินพุตและสตริงเอาต์พุตผ่านชุดการเปลี่ยนสถานะ สำหรับการวิเคราะห์สัณฐานวิทยา FST สามารถแมปรูปแบบคำพื้นผิวไปยังโครงสร้างสัณฐานวิทยาพื้นฐาน (และในทางกลับกัน) จัดการความซับซ้อนเชิงผสมทั้งหมดของสัณฐานวิทยาของภาษา

FSTs เป็นลูกหลานโดยตรงของกฎการเขียนใหม่ของ Pāṇini พวกมันคือไวยากรณ์ประเภท 3 (regular) ของ Chomsky ในรูปแบบการคำนวณ พวกมันคือการแสดงออกที่มีชีวิตของความเชื่อมโยงระหว่างภาษาศาสตร์เชิงรูปแบบและการคำนวณ

ในการจับคู่ FSTs กับ LLMs champollion ดำเนินการสังเคราะห์ทางปรัชญาที่สำคัญ: มันประสานประเพณี เหตุผลนิยม เชิงโครงสร้าง (กฎ) กับกระบวนทัศน์ ประจักษ์นิยม ทางสถิติ (ความน่าจะเป็น) เพื่อต่อต้านอคติแบบหิวข้อมูลและแบบเสียงข้างมากของ AI สมัยใหม่

สำหรับภาษาโพลีซินเทติก FSTs สามารถให้สิ่งที่โมเดลโครงข่ายประสาทเทียมไม่สามารถทำได้: การตรวจสอบแบบกำหนด เมื่อกำหนดรูปแบบคำ FST สามารถบอกได้อย่างแน่ชัดว่ามันเป็นรูปแบบที่ถูกต้องในภาษาหรือไม่ — ไม่ใช่เชิงความน่าจะเป็น ไม่ใช่ "ดูเหมือนถูกต้อง" แต่ ใช่ หรือ ไม่ใช่ นี่คือคำตอบสำหรับคำถามหลักที่หลอกหลอน MT โครงข่ายประสาทเทียมสำหรับภาษาทรัพยากรต่ำ: คุณจะตรวจสอบได้อย่างไรว่าคำที่สร้างขึ้นนั้นเป็นจริงโดยไม่มีมนุษย์ในวงจร?

คำตอบทางเทคนิคคือ: คุณใช้ไวยากรณ์เชิงรูปแบบ คุณใช้เครื่องมือที่ Pāṇini ประดิษฐ์เมื่อยี่สิบห้าศตวรรษที่แล้ว ที่เข้ารหัสในรูปแบบการคำนวณที่ Turing และ Chomsky ทำให้เข้มงวด

อย่างไรก็ตาม เราต้องตระหนักว่าพลังแบบกำหนดนี้มีความเสี่ยงของตัวเอง การบังคับการตรวจสอบ "ใช่" หรือ "ไม่ใช่" บนภาษาปากเปล่าที่ลื่นไหลอาจเสี่ยงต่อการกำหนดอุดมการณ์ภาษามาตรฐานที่เข้มงวด เมื่อ FST กำหนดว่าอะไร "ถูกต้อง" มันอาจทำซ้ำความเป็นบรรทัดฐานแบบอาณานิคมที่มันถูกออกแบบมาเพื่อหลีกเลี่ยงโดยไม่ตั้งใจ — ทำให้ความหลากหลายของสำเนียงแบน ลงโทษการสลับรหัส และบังคับไวยากรณ์เดียวที่เป็นมาตรฐานบนชุมชนที่หลากหลาย เพราะ FSTs แสดงถึงตัวชี้วัดความถูกต้องเชิงรูปแบบเพียงตัวเดียว ประจักษ์นิยมที่เข้มงวดของพวกมันต้องได้รับการปรับเทียบ นี่คือเหตุผลที่ชุมชนต้องถือปากกา ชุมชนกำหนดมาตรฐาน สร้างกฎ และกำหนดสิ่งที่เครื่องยอมรับว่าถูกต้อง วิศวกรรม FSTs ที่เปิดพื้นที่สำหรับความลื่นไหลของปากเปล่าและสำเนียงภูมิภาค ไวยากรณ์เชิงรูปแบบไม่ใช่ความจริงสากลที่ส่งมอบโดยนักวิทยาการคอมพิวเตอร์ มันคือโครงสร้างพื้นฐานที่ดำเนินการโดยผู้พูดเอง

champollion: จุดที่เส้นด้ายบรรจบกัน

นี่คือจุดที่โครงการ champollion เข้ามา มันอยู่ที่จุดบรรจบที่แน่นอนของเส้นด้ายทั้งหมดที่เราได้ติดตาม:

จาก Pāṇini: หลักการที่ว่าภาษาสามารถอธิบายได้ด้วยกฎเชิงรูปแบบและเชิงสร้าง
จาก Schleicher และ Sapir: ความเข้าใจว่าภาษาของโลกมีความหลากหลาย มีโครงสร้าง และมักตกอยู่ในอันตราย
จากโรงเรียนประจำและผลพวงของมัน: ความเข้าใจว่า "การขาดแคลนข้อมูล" ไม่ใช่ข้อเท็จจริงทางเทคนิคที่เป็นกลาง แต่เป็นผลพวงของการปราบปรามภาษาโดยเจตนา — และว่าเทคโนโลยีใดๆ ที่สัมผัสภาษาเหล่านี้ต้องถูกสร้างขึ้นโดยมีอธิปไตยเป็นรากฐาน
จาก Chomsky: ลำดับชั้นเชิงรูปแบบของไวยากรณ์ที่เชื่อมภาษาศาสตร์กับการคำนวณ
จาก Shannon: กรอบทางคณิตศาสตร์สำหรับการทำความเข้าใจการสื่อสาร สัญญาณรบกวน และสัญญาณ
จาก Turing และ von Neumann: เครื่องสากลที่สามารถดำเนินการฟังก์ชันที่คำนวณได้ใดๆ
จาก Weaver และ IBM Models: ข้อมูลเชิงลึกที่ว่าการแปลสามารถปฏิบัติเป็นปัญหาทางสถิติได้
จากการปฏิวัติ Transformer: โมเดลโครงข่ายประสาทเทียมที่ทรงพลังที่สามารถแปลได้ — แต่เฉพาะเมื่อมีข้อมูลเพียงพอ
จากประเพณี FST: เครื่องมือเชิงรูปแบบที่สามารถจัดการความซับซ้อนทางสัณฐานวิทยาที่โมเดลโครงข่ายประสาทเทียมล้มเหลว
จาก OCAP®, CARE และ Te Mana Raraunga: กรอบงานการกำกับดูแลที่ทำให้มั่นใจว่าเทคโนโลยีรับใช้ชุมชนแทนที่จะสกัดจากพวกเขา

champollion คือแพลตฟอร์มที่ออกแบบมาเพื่อนำพลังงานการแข่งขันของชุมชนการเรียนรู้ของเครื่องไปสู่ภาษาที่ตลาดละทิ้ง มันจัดหาโครงสร้างพื้นฐานการเปรียบเทียบที่ใครก็ตามสามารถส่งวิธีการแปล — โครงข่ายประสาทเทียม ตามกฎ ไฮบริด หรือใหม่ — และให้มันได้รับการประเมินตามมาตรฐานที่เข้มงวด อย่างสำคัญ มันใช้การตรวจสอบตาม FST เพื่อให้มั่นใจว่ารูปแบบที่สร้างขึ้นนั้นถูกต้องทางสัณฐานวิทยา และพึ่งพาการตรวจสอบโดยเจ้าของภาษาพื้นเมืองเป็นความจริงพื้นฐานขั้นสุดท้าย

แพลตฟอร์มนี้รวบรวมหลักการหลายประการที่ประวัติศาสตร์นี้ทำให้ชัดเจน:

ไม่มีแนวทางเดียวที่เพียงพอ ประวัติศาสตร์ของ MT คือประวัติศาสตร์ของการเปลี่ยนกระบวนทัศน์ — จากกฎสู่สถิติสู่โครงข่ายประสาทเทียม กระบวนทัศน์ใหม่แต่ละอย่างแก้ปัญหาที่กระบวนทัศน์ก่อนหน้าไม่สามารถทำได้ แต่แต่ละอย่างก็มีจุดบอด สำหรับภาษาโพลีซินเทติกทรัพยากรต่ำ คำตอบเกือบแน่นอนว่าเป็น ไฮบริด: ความคล่องแคล่วของโครงข่ายประสาทเทียมที่ถูกจำกัดด้วยความถูกต้องเชิงรูปแบบ

อธิปไตยข้อมูลไม่ใช่ทางเลือก — มันเป็นการตอบสนองเชิงโครงสร้างต่อความเสียหายทางประวัติศาสตร์ ตามที่ส่วนที่ V บันทึกไว้โดยละเอียด ภาษาพื้นเมืองไม่ได้ "ขาดแคลนข้อมูล" โดยบังเอิญ พวกมันถูกทำให้ขาดแคลนโดยนโยบายโดยเจตนา การออกแบบ OCAP®-forward ของโครงการ — ทำให้มั่นใจว่าข้อมูลภาษายังคงอยู่ภายใต้การควบคุมของชุมชนพื้นเมือง ว่ากุญแจถอดรหัสถือครองโดยทรัสต์ชุมชน ว่าความเป็นเจ้าของอัลกอริทึมโอนไปยังผู้พูด — ไม่ใช่สิ่งที่คิดทีหลัง มันเป็นการตอบสนองโดยตรงต่อศตวรรษของการปฏิบัติแบบสกัด ตั้งแต่การบันทึกในยุคโรงเรียนประจำโดยคนนอกไปจนถึงการขูดชุดข้อมูลสมัยใหม่ สถาปัตยกรรมทำให้ เป็นไปไม่ได้ทางเทคนิค ที่จะทำซ้ำรูปแบบเหล่านี้

เกมยาวคือการฟื้นฟู การแปลคือ สนามพิสูจน์ แต่รางวัลที่แท้จริงคือการฟื้นฟูภาษาผ่านการสอน ไวยากรณ์เชิงรูปแบบและแบบจำลองสัณฐานวิทยาที่สร้างขึ้นสำหรับการแปลด้วยเครื่องเป็นรากฐานทางเทคนิคที่จำเป็นสำหรับการเรียนรู้ภาษาด้วยความช่วยเหลือของเครื่อง หากเราสามารถสร้าง FST ที่ตรวจสอบรูปแบบกริยา Cree สำหรับระบบการแปล เราสามารถใช้ FST นั้นเพื่อช่วยนักเรียนเรียนรู้การผันกริยา Cree ได้เช่นกัน

เหตุใดช่วงเวลานี้

เรากำลังอาศัยอยู่ในช่วงเวลาที่เป็นเอกลักษณ์ในประวัติศาสตร์ของเทคโนโลยีภาษา ปัจจัยหลายอย่างได้บรรจบกัน:

เครื่องมือโอเพนซอร์สมีความสมบูรณ์ ชุดเครื่องมือ FST (เช่น HFST และ Foma) กรอบงาน MT โครงข่ายประสาทเทียม (เช่น OpenNMT และ Fairseq) และโครงสร้างพื้นฐานการประเมินสามารถประกอบได้โดยทีมเล็กๆ ด้วยต้นทุนน้อยที่สุด
การจัดระเบียบชุมชนกำลังเร่งตัว ชุมชนภาษาพื้นเมืองมีความซับซ้อนมากขึ้นในการใช้เทคโนโลยีและการยืนยันอธิปไตยข้อมูล องค์กรอย่างโครงการ First Voices โครงการเทคโนโลยีภาษาพื้นเมืองแคนาดา และความพยายามที่นำโดยชุมชนจำนวนมากกำลังสร้างโครงสร้างพื้นฐานของมนุษย์ที่เทคโนโลยีเพียงอย่างเดียวไม่สามารถจัดหาได้
ความสามารถของ AI ถึงเกณฑ์ โมเดลภาษาขนาดใหญ่ แม้ว่าจะไม่เพียงพอด้วยตัวเองสำหรับ MT ทรัพยากรต่ำ สามารถทำหน้าที่เป็นส่วนประกอบที่ทรงพลังในระบบไฮบริด — สร้างการแปลผู้สมัครที่จากนั้นได้รับการตรวจสอบและจำกัดโดยวิธีการเชิงรูปแบบ
ต้นทุนลดลงอย่างมาก สิ่งที่ต้องการห้องปฏิบัติการของรัฐบาลในปี 1954 หรือบริษัทขนาดใหญ่ในปี 2000 สามารถทำได้ในปัจจุบันด้วยเครดิตการประมวลผลบนคลาวด์และซอฟต์แวร์โอเพนซอร์ส คอขวดไม่ใช่เทคโนโลยีหรือเงินอีกต่อไป มันคือ เจตจำนง

คำถามไม่ใช่ว่าเทคโนโลยีสามารถสร้างได้หรือไม่ มันสามารถ คำถามคือว่ามันจะถูกสร้างขึ้น อย่างถูกต้อง หรือไม่ — ด้วยการกำกับดูแลที่ถูกต้อง แรงจูงใจที่ถูกต้อง และความเคารพที่ถูกต้องต่อชุมชนที่มันมีจุดมุ่งหมายเพื่อรับใช้

นั่นคือคำถามที่โครงการนี้มีอยู่เพื่อตอบ

อ้างอิง

Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
Boole, G. (1854). An Investigation of the Laws of Thought. Walton and Maberly.
Bringing Them Home: Report of the National Inquiry into the Separation of Aboriginal and Torres Strait Islander Children from Their Families. (1997). Australian Human Rights Commission.
Brown, P., Della Pietra, S., Della Pietra, V., & Mercer, R. (1993). The Mathematics of Statistical Machine Translation. Computational Linguistics, 19(2).
Campbell, L. (1997). American Indian Languages: The Historical Linguistics of Native America. Oxford University Press.
Champollion, J.-F. (1822). Lettre à M. Dacier relative à l'alphabet des hiéroglyphes phonétiques.
Chomsky, N. (1957). Syntactic Structures. Mouton.
Chomsky, N. (1956). Three Models for the Description of Language. IRE Transactions on Information Theory, 2(3).
Huet, G. (2006). Lexicon-directed Segmentation and Tagging of Sanskrit. In Proceedings of the XIIth World Sanskrit Conference.
Jones, W. (1786). The Third Anniversary Discourse. Asiatick Researches, 1.
Kiparsky, P. (1993). Paninian Linguistics. In R. E. Asher (Ed.), The Encyclopedia of Language and Linguistics. Pergamon.
Kircher, A. (1663). Polygraphia Nova et Universalis.
Leibniz, G. W. (1703). Explication de l'Arithmétique Binaire. Mémoires de l'Académie Royale des Sciences.
Llull, R. (c. 1305). Ars Magna.
Lovelace, A. (1843). Notes by the Translator (Note G). In L. F. Menabrea, Sketch of the Analytical Engine Invented by Charles Babbage.
Marmion, D., Obata, K., & Troy, J. (2014). Community, Identity, Wellbeing: The Report of the Second National Indigenous Languages Survey. Australian Institute of Aboriginal and Torres Strait Islander Studies.
National Research Council. (1966). Language and Machines: Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences.
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. ACL.
Saussure, F. de. (1916). Cours de linguistique générale (C. Bally & A. Sechehaye, Eds.). Payot.
Schleicher, A. (1861). Compendium der vergleichenden Grammatik der indogermanischen Sprachen.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3).
Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1).
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. NeurIPS.
Truth and Reconciliation Commission of Canada. (2015). Honouring the Truth, Reconciling for the Future: Summary of the Final Report. Government of Canada.
Turing, A. M. (1936). On Computable Numbers, with an Application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 2(42).
Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236).
Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
von Neumann, J. (1945). First Draft of a Report on the EDVAC. University of Pennsylvania.
Weaver, W. (1949). Translation. Memorandum, Rockefeller Foundation.
Wilkins, J. (1668). An Essay towards a Real Character, and a Philosophical Language. Royal Society.
U.S. Department of the Interior. (2022). Federal Indian Boarding School Initiative Investigative Report. Bureau of Indian Affairs.

เอกสารนี้เป็นส่วนหนึ่งของเอกสารประกอบโครงการ champollion เผยแพร่ภายใต้ใบอนุญาตเดียวกับโครงการ

บทนำ​

I. ไวยากรณ์ของทุกสิ่ง: จาก Pāṇini ถึง Chomsky​

ไวยากรณ์เชิงรูปแบบชุดแรก (ราวศตวรรษที่ 4 ก่อนคริสตกาล)​

ศิลาโรเซตตาและการกำเนิดของภาษาศาสตร์เปรียบเทียบ (1799)​

William Jones และสมมติฐาน Indo-European (1786)​

ต้นไม้ภาษาของ August Schleicher (1861)​

Ferdinand de Saussure และสถาปัตยกรรมของภาษา (1916)​

Sapir, Bloomfield และการศึกษาภาษาพื้นเมือง​

การปฏิวัติของ Chomsky (1957)​

II. ความฝันเรื่องการแปลสากล​

เครื่องคิดของ Ramon Llull (1305)​

Athanasius Kircher และ Polygraphia Nova (1663)​

John Wilkins และภาษาปรัชญา (1668)​

Leibniz และ Characteristica Universalis​

บันทึกความจำของ Warren Weaver (1949)​

III. เครื่องจักรแห่งความคิด: การคำนวณและสารสนเทศ​

George Boole และพีชคณิตของตรรกะ (1854)​

Charles Babbage และ Ada Lovelace (1837–1843)​

Alan Turing และเครื่องสากล (1936)​

Claude Shannon และทฤษฎีสารสนเทศ (1948)​

Von Neumann และคอมพิวเตอร์โปรแกรมที่เก็บไว้ (1945)​

IV. การแปลด้วยเครื่อง: ปัญหา AI ชุดแรก​

การทดลอง Georgetown-IBM และสงครามเย็น (1954)​

รายงาน ALPAC และฤดูหนาว AI ครั้งแรก (1966)​

MT แบบตามกฎและแบบถ่ายโอน (ทศวรรษ 1970–1980)​

การปฏิวัติทางสถิติ (ทศวรรษ 1990)​

การปฏิวัติของโครงข่ายประสาทเทียม: Seq2Seq, Attention, Transformers (2014–2017)​

V. ประวัติศาสตร์อีกด้าน: ภาษา อำนาจ และการฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรม​

ก่อนการติดต่อ: ทวีปแห่งภาษา​

กลไกของการตายของภาษา​

แคนาดา: ระบบโรงเรียนประจำ (1831–1996)​

สหรัฐอเมริกา: โรงเรียนประจำอินเดีย (ทศวรรษ 1860–1960)​

ออสเตรเลีย: Stolen Generations (1910–1970)​

สแกนดิเนเวีย: ภาษา Sámi​

Aotearoa นิวซีแลนด์: Te Reo Māori​

รูปแบบ: ภาษาในฐานะเป้าหมายของอำนาจอาณานิคม​

จากการฆ่าล้างเผ่าพันธุ์ทางวัฒนธรรมสู่ "การขาดแคลนข้อมูล"​

ความร่วมมือของวิทยาศาสตร์และอุดมการณ์ตะวันตก​

เหตุใดประวัติศาสตร์นี้จึงกำหนดการออกแบบของเรา​

VI. ช่วงเวลาปัจจุบัน: 6,800 ภาษาที่ถูกทิ้งไว้ข้างหลัง​

ขนาดของปัญหา​

ความท้าทายของโพลีซินเทติก​

Finite State Transducers: สะพาน​

champollion: จุดที่เส้นด้ายบรรจบกัน​

เหตุใดช่วงเวลานี้​

อ้างอิง​