Mula kay Pāṇini hanggang sa Transformers: Wika, Komputasyon, at ang Hindi Pa Tapos na Gawain ng Pagsasalin
Isang Kasaysayan ng mga Ideyang Nasa Likod ng champollion
"Kapag tumitingin ako sa isang artikulo sa Russian, sinasabi ko: 'Ito ay tunay na nakasulat sa English, ngunit na-code ito sa ilang kakaibang simbolo. Magpapatuloy na ako ngayon sa pag-decode.'" — Warren Weaver, 1949
Panimula
Ang pangarap ng isang makinang maaaring magsalin sa pagitan ng mga wika ng tao ay mas matanda pa kaysa sa mismong computer. Sa isang diwa, ito ang orihinal na suliranin ng artificial intelligence—mas matanda kaysa sa mga programang naglalaro ng chess, mas matanda kaysa sa expert systems, mas matanda kaysa sa neural networks. Madalas na inilalarawan ang pagnanais na ito sa pamamagitan ng mga talinghagang Europeo tulad ng Tower of Babel, na naglalagay sa pagkakaiba-iba ng wika bilang isang parusa o suliraning dapat lutasin, habang nilalampasan ang realidad na ang mga lipunang Katutubo bago ang pakikipag-ugnayan sa mga Europeo ay matagal nang nakapaglalayag sa napakalawak na pagkakaiba-iba ng wika sa pamamagitan ng sopistikadong mga wikang pangkalakalan (tulad ng Chinook Jargon) at mga sistema ng senyas (tulad ng Plains Indian Sign Language) nang hindi naghahangad ng unibersal na homogenisasyon.
Ngunit ang kasaysayang humahantong sa sandaling ito—sa isang mundong ang large language models ay kayang magsalin ng katanggap-tanggap na French ngunit nagha-hallucinate ng walang-saysay na nilalaman sa Cree—ay hindi isang tuwid na linya. Isa itong tirintas ng hindi bababa sa apat na magkakaibang hibla: ang pormal na pag-aaral ng wika, ang matematikal na teorya ng komputasyon, ang estadistikal na rebolusyon sa machine learning, at isang mas madilim na kasaysayan na nagpapaliwanag kung bakit ang mga wikang higit na nangangailangan ng teknolohiya ang mismong mga wikang walang ganoong teknolohiya. Ang ikaapat na hiblang iyon ay ang kasaysayan ng kolonyal na pagsupil sa wika at kultural na henosidyo—ang sinadya at sistematikong pagwasak sa mga wikang Katutubo sa bawat kontinenteng pinaghariian ng mga kapangyarihang Europeo. Kung hindi nauunawaan ang kasaysayang iyon, magmumukhang aksidente ng kakulangan ng data ang teknikal na suliranin. Hindi ito aksidente.
Sinusundan ng papel na ito ang apat na hibla mula sa kanilang pinagmulan hanggang sa kanilang pagtagpo sa kasalukuyan. Aminado, medyo Whiggish ito—ikinukuwento nito ang kasaysayan na para bang palagi itong humahantong dito. Siyempre, hindi alam ng kasaysayan kung saan ito patutungo. Ngunit tunay ang mga hibla, totoo ang mga ugnayan, at mahalaga ang pag-unawa sa mga ito upang maunawaan kung bakit umiiral ang mga proyektong tulad ng champollion, kung bakit itinayo ang mga ito sa paraang ito, at kung bakit mahalaga ang mga ito ngayon.
I. Ang Gramatika ng Lahat: Mula kay Pāṇini hanggang kay Chomsky
Ang Unang Pormal na Gramatika (c. Ika-4 na Siglo BCE)
Nagsisimula ang kuwento hindi sa isang unibersidad sa Europa kundi sa sinaunang India, sa isang iskolar na nagngangalang Pāṇini. Bandang ika-4 na siglo BCE, binuo ni Pāṇini ang Aṣṭādhyāyī—isang gramatika ng Sanskrit na binubuo ng humigit-kumulang 4,000 tuntunin. Hindi ito gramatika sa maluwag at pedagogical na kahulugan. Isa itong generative grammar: isang may hangganang hanay ng mga tuntuning, sa prinsipyo, kayang lumikha ng bawat wastong pahayag sa wika.
Gumamit ang sistema ni Pāṇini ng makikilala natin ngayon bilang pormal na rewriting rules, na may variables, recursion, at ordered application. Ipinangatwiran ng lingguwistang si Paul Kiparsky na ang Aṣṭādhyāyī ay "ang pinakakumpletong generative grammar ng anumang wikang naisulat na" (Kiparsky, 1993). Ipinakita ng computer scientist na si Gerard Huet na maaaring imodelo ang mga tuntunin ni Pāṇini bilang isang finite-state transducer—ang parehong pormalismong pangkomputasyon na, dalawampu't limang siglo kalaunan, ay magiging sentral sa morphological analysis ng mga polysynthetic na wika.
Hindi alam ni Pāṇini na gumagawa siya ng computer science. Ngunit iyon nga ang ginagawa niya.
Ang Rosetta Stone at ang Kapanganakan ng Comparative Linguistics (1799)
Sa halos buong naitalang kasaysayan, ang pag-aaral ng wika ay pangunahing pag-aaral ng sariling wika—o, sa pinakamalawak, pag-aaral ng isang sagrado o klasikal na wika para sa mga layuning liturhikal. Nagsimula sa isang bato ang intelektuwal na rebolusyong lumikha sa modernong linguistics.
Ang Rosetta Stone, na natuklasan ng mga sundalo ni Napoleon noong 1799, ay may parehong kautusan sa tatlong script: Egyptian hieroglyphics, Demotic script, at Ancient Greek. Ang pag-decipher ni Jean-François Champollion sa hieroglyphics noong 1822 ay higit pa sa isang tagumpay sa arkeolohiya. Ipinakita nito ang isang prinsipyong magiging pundamental: na maaaring maunawaan ang mga wika sa pamamagitan ng isa't isa. Ang pagsasalin ay hindi lamang praktikal na kasanayan; isa itong pamamaraan ng siyentipikong pagsisiyasat.
William Jones at ang Indo-European Hypothesis (1786)
Bago pa man si Champollion, naibigay na ng British philologist na si Sir William Jones ang kaniyang tanyag na lektura sa Asiatic Society of Bengal noong 1786, na nagmamasid na ang Sanskrit ay may "mas malakas na pagkakahawig, kapwa sa mga ugat ng pandiwa at sa mga anyo ng gramatika" sa Greek at Latin "kaysa sa maaaring nalikha lamang ng aksidente." Iminungkahi ni Jones na ang tatlo ay nagmula sa iisang ninuno "na, marahil, ay hindi na umiiral."
Ito ang kapanganakan ng historical at comparative linguistics. Itinatag nito na ang mga wika ay hindi hiwa-hiwalay at estadikong entidad kundi mga kasapi ng mga pamilya—magkakaugnay sa pinagmulan, hinubog ng panahon, at napapailalim sa regular na mga batas ng pagbabago. Sa sarili nitong paraan, isa itong teoryang ebolusyonaryo ilang dekada bago si Darwin.
Ang mga Language Tree ni August Schleicher (1861)
Si August Schleicher, isang German linguist, ang tahasang nag-ugnay nito kay Darwin. Noong 1861—dalawang taon lamang matapos ang On the Origin of Species—inilathala ni Schleicher ang kaniyang modelong Stammbaum (family tree) ng mga wikang Indo-European. Ang kaniyang mga diagram ay halos hindi maipagkaiba sa mga phylogenetic tree sa biology. Ang mga wika, tulad ng mga species, ay nagsanga, naghiwalay, at paminsan-minsa'y nawala.
Ang mga puno ni Schleicher ay isang pagpapasimple (ang mga wika ay nagtatagpo rin sa pamamagitan ng pakikipag-ugnayan, panghihiram, at creolization), ngunit napatunayang napakaproduktibo ng modelo. Itinatag nito ang prinsipyong ang pagkakaiba-iba ng wika ay hindi random noise kundi structured data, na maaaring isailalim sa sistematikong pagsusuri. At tahimik nitong iniharap ang isang tanong na nananatiling sentral sa aming proyekto: ano ang nangyayari sa mga sangang namamatay?
Ferdinand de Saussure at ang Arkitektura ng Wika (1916)
Ang sumunod na rebolusyon ay nagmula kay Ferdinand de Saussure, na ang Cours de linguistique générale (inilathala pagkamatay niya noong 1916 mula sa mga tala ng mga estudyante) ay nagtatag ng structural linguistics. Gumuhit si Saussure ng malinaw na pagkakaiba sa pagitan ng langue (ang abstraktong sistema ng isang wika) at parole (aktuwal na pagsasalita). Ipinangatwiran niyang ang mga linguistic sign ay arbitrary—ang salitang "tree" ay walang likas na ugnayan sa mga puno—at ang kahulugan ay umuusbong mula sa mga pagkakaiba sa loob ng isang sistema, hindi mula sa anumang positibong nilalaman.
Ang pangunahing diagram ni Saussure—ang oval na hinati sa pagitan ng signifié (signified, ang konsepto) at signifiant (signifier, ang sound-image), na pinag-uugnay ng mga arrow na nagpapakita ng kanilang hindi mapaghihiwalay na relasyon—ay naging isa sa mga pinakanakopyang larawan sa humanities. Itinatag nito ang prinsipyong ang isang wika ay isang sistema ng mga sistema, kung saan nakukuha ng bawat elemento ang halaga nito mula sa mga relasyon nito sa lahat ng iba pa.
May malalim itong implikasyon para sa pagsasalin. Kung ang kahulugan ay relational at sistemiko, hindi lamang pagpapalit ng mga salita ang pagsasalin. Kinakailangan nito ang pag-unawa sa buong arkitektura ng isang wika. Maaaring hatiin ng dalawang wika ang mundo sa pundamental na magkaibang paraan—isang pananaw na kalauna'y pauunlarin (at kung minsan ay labis na palalawakin) nina Edward Sapir at Benjamin Lee Whorf.
Sapir, Bloomfield, at ang Pag-aaral ng mga Wikang Katutubo
Sa North America, nagdala ang unang bahagi ng ika-20 siglo ng ibang tradisyon ng linguistic fieldwork. Malawak na nakipagtrabaho sina Edward Sapir at Leonard Bloomfield sa mga wikang Katutubo—si Sapir sa Navajo, Nootka, at marami pang iba; si Bloomfield sa Menomini at iba pang wikang Algonquian. Nakatagpo sila ng mga estrukturang pangwika na radikal na naiiba sa anumang nasa pamilyang Indo-European.
Partikular na bumuo si Sapir ng isang typological framework na nag-uuri ng mga wika ayon sa ilang axis, kabilang ang kritikal na pagkakaiba sa pagitan ng mga analytic na wika (tulad ng English, kung saan may tendensiyang maikli ang mga salita at dala ng word order ang kahulugan) at mga polysynthetic na wika (tulad ng Cree, kung saan maaaring i-encode ng isang salita ang ipahahayag ng English bilang isang buong pangungusap). Maaaring isama ng isang anyong pandiwa sa Cree ang subject, object, tense, aspect, evidentiality, at ilang modifying elements sa isang morphologically complex na salita.
Itinatag ng gawaing ito ang dalawang katotohanang nananatiling sentral sa aming proyekto. Una: ang mga wika sa mundo ay higit na mas magkakaiba sa estruktura kaysa sa iminumungkahi ng anumang modelong nakasentro sa Europa. Ikalawa: marami sa mga wikang ito ay nanganganib na noon pa man. Gayunpaman, habang idinokumento ng mga unang structural linguist ang komplikasyong ito, madalas silang nakilahok sa "salvage anthropology"—isang extractive na modelong akademiko na nagturing sa mga Katutubo bilang mga "informant" lamang upang bumuo ng mga karerang akademiko sa Kanluran. Pinutol ng pamamaraang ito ang mga wika mula sa kanilang epistemological roots, at binigyang-daan ang pagtrato sa wika bilang disembodied at extractable data sa halip na mga buhay at relational na sistema.
Ang Rebolusyong Chomsky (1957)
Noong 1957, inilathala ng 28-taong-gulang na MIT linguist na si Noam Chomsky ang Syntactic Structures, isang manipis na aklat na sumabog na parang bomba sa larangan. Ipinangatwiran ni Chomsky na ang layunin ng linguistics ay dapat ang tuklasin ang generative grammar ng isang wika—isang may hangganang hanay ng mga tuntuning makalilikha ng lahat at tanging ng mga pangungusap na gramatikal sa wikang iyon.
Mas mapanghamon pa, iminungkahi ni Chomsky ang Chomsky hierarchy: isang klasipikasyon ng mga pormal na gramatika ayon sa kanilang kapangyarihang pangkomputasyon. May apat na antas ang hierarchy:
- Type 3 (Regular): Kinikilala ng finite automata. Mga simpleng pattern.
- Type 2 (Context-Free): Kinikilala ng pushdown automata. Mga recursive structure tulad ng nested parentheses.
- Type 1 (Context-Sensitive): Kinikilala ng linear bounded automata. Mas kumplikadong dependencies.
- Type 0 (Recursively Enumerable): Kinikilala ng Turing machines. Anumang computable.
Ipinangatwiran ni Chomsky na nangangailangan ang mga natural na wika ng hindi bababa sa context-free grammars, at maaaring higit pa. Isa itong tuwirang tulay sa pagitan ng linguistics at ng matematikal na teorya ng komputasyon. Ang parehong mga pormal na kasangkapang binuo ni Alan Turing upang pag-isipan ang mga hangganan ng computing ay maaari na ngayong ilapat sa wika ng tao.
Iminungkahi rin ni Chomsky ang ideya ng Universal Grammar—na ang kapasidad para sa wika ay likas, na ang lahat ng wika ng tao ay may magkakaparehong malalim na katangiang estruktural, at na tinatakpan ng pagkakaiba-iba ng surface forms ang isang nakapailalim na pagkakaisa. Nananatili itong kontrobersyal (maraming typologists at functionalists ang hindi sumasang-ayon), ngunit ang mga pormal na kasangkapang ipinakilala ni Chomsky—phrase structure rules, transformational grammars, ang mismong hierarchy—ay naging pundasyon ng computational linguistics.
II. Ang Pangarap ng Unibersal na Pagsasalin
Ang Thinking Machine ni Ramon Llull (1305)
Ang pangarap na gawing mekanikal ang pag-iisip—at kasama nito, ang pangarap ng mekanikal na pagsasalin—ay kapansin-pansing luma. Si Ramon Llull, isang ika-13 siglong Catalan mystic, ay nagdisenyo ng Ars Magna: isang sistema ng umiikot na concentric discs na may nakasulat na mga pundamental na konsepto, na ang mga kombinasyon ay nilalayong lumikha ng lahat ng posibleng katotohanan. Ang mga gulong ni Llull ay, sa isang diwa, ang unang combinatorial logic machine. Kalauna'y binanggit ni Leibniz si Llull bilang inspirasyon.
Athanasius Kircher at ang Polygraphia Nova (1663)
Si Athanasius Kircher, ang dakilang Jesuit polymath, ay naglathala ng Polygraphia Nova et Universalis noong 1663—isang sistema ng "universal writing" na nilalayong magpahintulot ng komunikasyon sa kabila ng mga hadlang sa wika. Nagtalaga ang sistema ni Kircher ng mga numero sa mga konsepto, na pagkatapos ay maaaring i-decode sa anumang wika gamit ang angkop na talahanayan. Sa esensya, isa itong interlingua—isang representasyon ng kahulugan na hindi nakadepende sa wika.
Hindi gaanong gumana nang maayos ang sistema. Ngunit nanatili ang ideya: na sa pagitan ng anumang dalawang wika ay umiiral ang isang karaniwang conceptual space, at na ang pagsasalin ay usapin ng pagmamapa sa pamamagitan nito. Ang interlingua hypothesis na ito ay hindi lamang isang may kapintasang siyentipikong eksperimento; isa itong epistemological extension ng kolonyal na kontrol, na walang kakayahang imapa ang magkakaibang ontology. Kalauna'y popormalisahin ng pilosopong si W.V.O. Quine ang kabiguang ito sa kaniyang konsepto ng indeterminacy of translation (1960), na nangangatwirang ang radical translation ay likas na indeterminate. Ang unibersal at context-free na pagmamapa sa pagitan ng mga pundamental na magkaibang sistemang pangwika ay isang pilosopikal na imposibilidad, hindi lamang hadlang sa engineering.
John Wilkins at ang Philosophical Language (1668)
Limang taon lamang matapos si Kircher, inilathala ng English natural philosopher na si John Wilkins ang An Essay towards a Real Character, and a Philosophical Language—isang pagtatangkang lumikha ng wikang ang estruktura ay perpektong sumasalamin sa estruktura ng realidad. Ang bawat konsepto ay iuuri sa isang malaking taxonomy, at i-eencode ng pangalan nito ang posisyon nito sa taxonomy na iyon.
Nabigo ang proyekto ni Wilkins (naging matigas ang realidad laban sa malinis na klasipikasyon), ngunit nauna nitong ipinahiwatig ang isang mahalagang bagay: ang ideya na ang wika ay maaaring i-engineer, na ang relasyon sa pagitan ng mga salita at kahulugan ay maaaring gawing sistematiko at tahasan. Sa malalim na diwa, ito ang ginagawa ng computational linguists kapag bumubuo sila ng ontologies at knowledge graphs.
Leibniz at ang Characteristica Universalis
Si Gottfried Wilhelm Leibniz, na independiyenteng nakaimbento ng calculus at nagdisenyo ng mechanical calculator, ay nangarap ng isang characteristica universalis—isang unibersal na pormal na wika kung saan maipapahayag ang lahat ng kaalaman ng tao—at isang calculus ratiocinator—isang makinang makapangangatwiran sa wikang iyon. "Kung lilitaw ang mga pagtatalo," isinulat ni Leibniz, "hindi na kakailanganin pa ang pagtatalo sa pagitan ng dalawang pilosopo kaysa sa pagitan ng dalawang accountant. Sapagkat sapat nang kunin nila ang kanilang mga lapis, umupo sa kanilang mga slate, at sabihin sa isa't isa: Magkalkula tayo."
Inimbento rin ni Leibniz ang binary arithmetic—ang number system na, makalipas ang mga siglo, ay magiging wika ng digital computers. Ipinakita ng kaniyang papel noong 1703 na Explication de l'Arithmétique Binaire na maaaring katawanin ang anumang numero gamit lamang ang 0 at 1. Nakita niya ito bilang repleksiyon ng banal na paglikha (isang bagay mula sa wala), ngunit mapatutunayang ito ang pundasyon ng lahat ng digital computation.
Ang Memo ni Warren Weaver (1949)
Nagsisimula ang modernong panahon ng machine translation sa isang memorandum. Noong Hulyo 1949, sumulat ang American mathematician at science administrator na si Warren Weaver kay Norbert Wiener, na nagmumungkahing maaaring ilapat ang bagong electronic computers sa pagsasalin. Nilalaman ng kaniyang memo ang kapansin-pansing sipi na binanggit sa pambungad ng papel na ito: ang ideya na ang tekstong Russian ay "tunay na nakasulat sa English, ngunit... na-code sa ilang kakaibang simbolo."
Ang metapora ni Weaver ay hinango mula sa wartime cryptanalysis—ang ideya na ang pagsasalin ay sa pundamental na antas isang suliranin ng decoding. Hindi lamang ito analohiya. Ang parehong statistical at information-theoretic tools na binuo upang basagin ang mga cipher ng kaaway ay maaaring, iminungkahi ni Weaver, mailapat sa suliranin ng pagsasalin.
Lubhang optimistiko ang memo, ngunit naglunsad ito ng isang programa ng pananaliksik. Sa loob ng limang taon, magaganap ang unang demonstrasyon ng machine translation.
III. Ang Makinarya ng Pag-iisip: Komputasyon at Impormasyon
George Boole at ang Algebra ng Logic (1854)
Noong 1854, inilathala ni George Boole ang An Investigation of the Laws of Thought—isang akdang nagbawas ng lohikal na pangangatwiran sa algebraic operations. Ipinakita ni Boole na maaaring manipulahin ang mga proposition ng logic gamit ang parehong mga tuntunin ng algebra, kung saan tumutugma ang AND sa multiplication, ang OR sa addition, at ang NOT sa complement.
Mukhang isang matematikal na kuryosidad ang Boolean algebra noong panahong iyon. Magiging operating principle ito ng bawat digital circuit na kailanma'y ginawa.
Charles Babbage at Ada Lovelace (1837–1843)
Idinisenyo ni Charles Babbage (ngunit hindi kailanman natapos) ang Analytical Engine—isang mechanical, steam-powered, general-purpose computer. Hindi tulad ng mas nauna niyang Difference Engine (isang specialized calculator), may memory ang Analytical Engine ("the Store"), processing unit ("the Mill"), conditional branching, at looping. Sa prinsipyo, Turing-complete ito.
Si Ada Lovelace, na nagtatrabaho mula sa isang paglalarawan ng Engine, ay sumulat ng isang hanay ng detalyadong mga tala na kinabibilangan ng malawak na itinuturing na unang nailathalang computer program: isang algorithm para sa pag-compute ng Bernoulli numbers (Note G, 1843). Ngunit ang pinakamalalim na ambag ni Lovelace ay konseptuwal. Nakita niyang kayang manipulahin ng Engine ang mga simbolo, hindi lamang mga numero. "The Analytical Engine weaves algebraical patterns," isinulat niya, "just as the Jacquard loom weaves flowers and leaves." Ang implikasyon—na maaaring ilapat ang komputasyon sa anumang domain na may pormal na estruktura, kabilang ang wika—ay malayo ang tanaw.
Alan Turing at ang Universal Machine (1936)
Noong 1936, inilathala ni Alan Turing ang "On Computable Numbers, with an Application to the Entscheidungsproblem"—isang papel na sabay-sabay na nagtakda ng depinisyon ng komputasyon, nagpatunay ng mga hangganan nito, at nag-imbento ng modernong computer (sa abstraktong anyo).
Ang pangunahing pananaw ni Turing ay ang universal machine: isang iisang makina na, kapag binigyan ng tamang mga tagubiling naka-encode sa tape nito, ay kayang i-simulate ang anumang iba pang makina. Itinatag nito na walang esensiyal na pagkakaiba sa pagitan ng hardware at software, sa pagitan ng makina at ng programa. Ang isang iisang device, kung wastong naprograma, ay kayang i-compute ang anumang talagang computable.
Itinatag din ng gawa ni Turing ang mga hangganan ng komputasyon (ang halting problem) at inilatag ang batayan para sa kaniyang kalaunang paggalugad sa machine intelligence. Ang kaniyang papel noong 1950 na "Computing Machinery and Intelligence," na nagmungkahi ng tanyag na Turing Test, ay tahasang nagbalangkas sa tanong ng machine intelligence sa mga termino ng wika: matalino ang isang makina kung, sa pamamagitan ng pag-uusap, hindi ito maipagkaiba sa tao.
Claude Shannon at ang Information Theory (1948)
Noong 1948, inilathala ni Claude Shannon ang "A Mathematical Theory of Communication" sa Bell System Technical Journal—isang papel na nagtatag sa larangan ng information theory. Ipinakita ni Shannon na maaaring imodelo ang komunikasyon bilang isang sistema: lumilikha ang isang information source ng isang message, na ine-encode ng isang transmitter bilang isang signal, na dumaraan sa isang channel (na napapailalim sa noise), na dine-decode ng isang receiver pabalik sa isang mensahe para sa isang destination.
Ang pangunahing ambag ni Shannon ay ang konsepto ng entropy—isang sukat ng kawalang-katiyakan o nilalamang impormasyon ng isang mensahe. Pinatunayan niya na para sa anumang channel na may ibinigay na antas ng noise, may umiiral na pinakamataas na rate kung saan maaasahang maipapadala ang impormasyon (ang channel capacity), at na maaaring makamit ang rate na ito sa pamamagitan ng sapat na matalinong encoding.
Malalim ang ugnayan nito sa pagsasalin. Si Shannon mismo, sa isang papel noong 1951, ay gumamit ng information theory upang suriin ang statistical structure ng English. Ipinakita niya na lubhang redundant ang English text—na ang isang native speaker, kapag binigyan ng serye ng mga titik, ay kayang hulaan ang susunod na titik nang may mataas na katumpakan. Ang redundancy na ito ang nagpapalakas sa komunikasyon laban sa noise, ngunit nangangahulugan din ito na ang information content ng wika ay mas mababa kaysa sa ipahihiwatig ng raw symbol count nito.
Agad na nakita ni Warren Weaver ang ugnayan: kung ang pagsasalin ay decoding, at kung maaaring imodelo ang statistical structure ng wika, kung gayon ang pagsasalin ay isang information-theoretic problem. Aabutin ng ilang dekada bago mamunga ang pananaw na ito, ngunit nang mangyari iyon, binago nito ang larangan.
Von Neumann at ang Stored-Program Computer (1945)
Inilarawan ng ulat ni John von Neumann noong 1945 tungkol sa EDVAC (Electronic Discrete Variable Automatic Computer) ang tinatawag natin ngayon na von Neumann architecture: isang computer na may iisang memory store para sa parehong data at instructions, isang central processing unit, at input/output mechanisms. Ang arkitekturang ito—data at programs na nagbabahagi ng parehong memory, na pinoproseso nang sunod-sunod ng isang CPU—ay nananatiling pundamental na disenyo ng halos bawat computer na ginagamit ngayon.
Ginawang praktikal ng von Neumann architecture ang software. Maaaring i-store, baguhin, at kahit likhain ng ibang programs ang programs. Ito ang teknolohikal na paunang kundisyon para sa lahat ng sumunod: compilers, operating systems, at kalaunan ang neural network frameworks na nagpapagana sa modernong machine translation.
IV. Machine Translation: Ang Unang Suliranin ng AI
Ang Georgetown-IBM Experiment at ang Cold War (1954)
Noong Enero 7, 1954, ipinakita ng mga mananaliksik sa Georgetown University at IBM ang unang pampublikong machine translation system. Nagsalin ang sistema ng 60 pangungusap na Russian tungo sa English gamit ang vocabulary na 250 salita at anim na tuntunin sa gramatika. Maingat na pinili ang mga pangungusap upang mapasailalim sa kakayahan ng sistema, ngunit nagdulot ng napakalaking sigasig ang demonstrasyon.
Iniulat ng New York Times na ipinahihiwatig ng eksperimento ang isang hinaharap kung saan ang "a push-button electronic translator" ay gagawang agad na maa-access ang lahat ng siyentipikong literatura sa mundo. Gayunpaman, itinago ng pampublikong optimismo na ito ang materyal na realidad ng pagpopondo at layunin ng proyekto. Ang Georgetown-IBM experiment—at ang maagang larangan ng machine translation sa pangkalahatan—ay hindi pinatatakbo ng isang utopianong pagnanais para sa unibersal na komunikasyon. Pinondohan ito ng militar at intelligence apparatus ng United States (kabilang ang CIA at DARPA) bilang agarang imperatibo ng Cold War upang subaybayan at saluhin ang mga tekstong pang-agham at militar ng Soviet.
Ang pagtingin sa wika bilang isang "code to be cracked" (gaya ng sinabi ni Weaver) ay likas na nakaugnay sa militarisadong surveillance. Hinulaan ng mga mananaliksik na malulutas ang machine translation sa loob ng limang taon. Nagkamali sila nang higit sa kalahating siglo.
Ang ALPAC Report at ang Unang AI Winter (1966)
Noong 1966, naglabas ng matinding ulat ang Automatic Language Processing Advisory Committee (ALPAC), na binuo ng pamahalaan ng U.S. Matapos suriin ang isang dekada ng pananaliksik sa MT, napagpasyahan ng ALPAC na ang machine translation ay mas mabagal, mas hindi tumpak, at mas mahal kaysa sa human translation, at inirekomendang ilipat ang pagpopondo sa batayang pananaliksik sa computational linguistics.
Epektibong pinatay ng ALPAC report ang pagpopondo sa pananaliksik sa MT sa United States sa loob ng mahigit isang dekada. Ito ang unang "AI winter"—isang pattern na mauulit: magagarbong pangako, katamtamang resulta, pagkadismaya, pagbagsak ng pagpopondo.
Ngunit naglalaman din ang ulat ng mas malalim na pananaw. Nabigo ang machine translation, sa bahagi, dahil mas mahirap ang wika kaysa sa inaasahan ng sinuman. Ang rule-based approach—pagsulat ng tahasang mga tuntunin sa gramatika upang i-parse at lumikha ng mga pangungusap—ay gumana para sa mga simpleng kaso ngunit bumagsak nang katastrofiko sa tunay na teksto. Masyadong ambiguous, masyadong context-dependent, masyadong buhay ang wika para makuha ng marurupok na tuntunin.
Rule-Based at Transfer-Based MT (1970s–1980s)
Nagpatuloy ang pananaliksik, nang mas tahimik, sa buong 1970s at 1980s. Gumamit ang mga sistemang tulad ng SYSTRAN (na nagpagana sa mga unang translation service ng European Commission) ng malalaking hand-crafted dictionaries at transfer rules upang magmapa sa pagitan ng mga language pair. Nakalilikha ang mga sistemang ito ng kapaki-pakinabang na rough translations para sa restricted domains, ngunit nangangailangan sila ng napakalaking engineering effort para sa bawat language pair, at bihira nilang napangasiwaan nang maayos ang unrestricted text.
Malinaw ang pundamental na suliranin: hindi cipher ang wika. Hindi kayo makapagsasalin sa pamamagitan lamang ng paghahanap ng mga salita sa dictionary at muling pagsasaayos ng mga ito ayon sa tuntuning gramatikal, dahil nakadepende ang kahulugan sa konteksto, sa kaalaman sa mundo, sa intensiyon ng nagsasalita, sa buong kasaysayan ng isang pag-uusap. Ang interlingua approach—pagsasalin sa pamamagitan ng abstrakto at language-independent na representasyon—ay elegante sa teorya ngunit imposible sa praktika. Walang makapagbigay-kahulugan sa interlingua.
Ang Estadistikal na Rebolusyon (1990s)
Dumating ang pambihirang tagumpay hindi mula sa mas mabubuting tuntunin kundi mula sa mas mabuting data. Sa huling bahagi ng 1980s at unang bahagi ng 1990s, bumuo ang mga mananaliksik sa IBM (Peter Brown, Stephen Della Pietra, Vincent Della Pietra, at Robert Mercer) ng serye ng statistical models para sa machine translation—ang tanyag na IBM Models 1 hanggang 5.
Ang pangunahing pananaw ay ang lumang ideya ni Weaver, na sa wakas ay ginawang mahigpit: pagsasalin bilang decoding. Dahil sa isang banyagang pangungusap na f, hanapin ang pangungusap sa English na e na nagma-maximize sa P(e|f). Ayon sa Bayes' theorem, katumbas ito ng pag-maximize sa P(f|e) × P(e)—isang translation model (gaano kalamang ang banyagang pangungusap na ito kung ibinigay ang English na ito?) na minumultiply sa isang language model (gaano kalamang ang English na pangungusap na ito sa sarili nito?).
Natutuhan ng IBM models ang mga probability na ito mula sa malalaking parallel corpora—mga koleksiyon ng teksto na umiiral sa parehong wika (tulad ng Canadian parliamentary Hansards, na inilathala sa parehong English at French). Walang kinakailangang hand-crafted rules. Natuto ang sistema na magsalin sa pamamagitan ng pagmamasid sa milyun-milyong halimbawa ng human translation.
Gumana nang higit na mas mahusay ang statistical MT kaysa sa rule-based MT para sa mga wikang may saganang parallel data. Nagpakilala rin ito ng kritikal na piraso ng imprastraktura: ang BLEU score (Papineni et al., 2002), isang metric para sa awtomatikong pagsusuri ng kalidad ng pagsasalin sa pamamagitan ng paghahambing ng machine output sa human reference translations. Ginawang posible ng BLEU na sukatin ang progreso nang kuantitatibo at magsagawa ng malakihang mga eksperimento.
Ngunit may nakabaong fatal na palagay ang statistical MT: nangangailangan ito ng parallel corpora. Para sa mga pangunahing language pair sa mundo—English-French, English-Chinese, English-Spanish—sagana ang parallel data. Para sa napakalaking mayorya ng 7,000 wika sa mundo, simpleng hindi ito umiiral.
Ang Neural Revolution: Seq2Seq, Attention, Transformers (2014–2017)
Dumating ang susunod na transpormasyon sa deep learning. Noong 2014, ipinakita nina Ilya Sutskever, Oriol Vinyals, at Quoc Le ang sequence-to-sequence (seq2seq) models para sa MT: neural networks na kayang basahin ang isang buong pangungusap sa isang wika at lumikha ng pagsasalin sa iba, nang walang anumang tahasang alignment o phrase tables.
Noong 2015, ipinakilala nina Dzmitry Bahdanau, Kyunghyun Cho, at Yoshua Bengio ang attention mechanism—na nagpapahintulot sa decoder na "lumingon pabalik" sa iba't ibang bahagi ng source sentence habang nililikha ang bawat salita ng pagsasalin. Lubha nitong pinahusay ang performance sa mahahabang pangungusap.
At noong 2017, inilathala ni Vaswani et al. sa Google ang "Attention Is All You Need," na nagpapakilala sa arkitekturang Transformer. Lubusang inalis ng Transformer ang recurrence, at pinoproseso ang buong sequences nang parallel gamit ang self-attention. Mas mabilis itong sanayin, mas madaling i-scale, at nagluwal ng mas mabubuting pagsasalin kaysa sa anumang nauna rito.
Direktang humantong ang Transformers sa large language models (LLMs) ng 2020s: GPT, BERT, PaLM, LLaMA, at ang kanilang mga inapo. Ang mga modelong ito, na sinanay sa napakaraming teksto mula sa internet, ay kayang magsalin sa pagitan ng daan-daang language pair nang may kapansin-pansing fluency.
Ngunit ang "kapansin-pansing fluency" ay hindi kapareho ng "maaasahang katumpakan." At para sa mga low-resource language sa mundo, higit na mas malala ang sitwasyon kaysa sa nakikita.
V. Ang Ibang Kasaysayan: Wika, Kapangyarihan, at Kultural na Henosidyo
Isinasalaysay ng naunang apat na seksiyon ang kasaysayan ng mga ideya—ng mga grammarian, mathematician, at engineer na humahantong sa machine translation. Ngunit may isa pang kasaysayan, na tumatakbo nang parallel, na nagpapaliwanag kung bakit ang mga wikang higit na nangangailangan ng teknolohiya sa pagsasalin ang mismong mga wikang walang ganoong teknolohiya. Hindi ito kuwento tungkol sa data scarcity bilang neutral na katotohanan. Kuwento ito tungkol sa sinadyang pagkawasak.
Ang dahilan kung bakit walang machine translation support ang Plains Cree ay hindi pangunahing dahil mahirap na wika ang Cree para sa computers (bagama't ganoon nga). Ito ay dahil, sa loob ng mahigit isang siglo, nagpatakbo ang mga pamahalaan ng Canada at United States ng sistematikong mga programa upang lipulin ang mga wikang Katutubo mula sa bibig ng mga bata. Ang "data scarcity" na nagpapahirap nang husto sa low-resource MT ay, sa malaking bahagi, ang downstream consequence of cultural genocide. Anumang tapat na salaysay kung bakit kailangan ng mga wikang ito ng teknolohiya ay kailangang harapin kung bakit sila dinala sa bingit ng pagkalipol sa unang lugar.
Bago ang Pakikipag-ugnayan: Isang Kontinente ng mga Wika
Napakalaki ng pagkakaiba-iba ng wika sa Americas bago ang pakikipag-ugnayan sa Europa. Sa panahon ng European contact, ang North America lamang ay tahanan ng tinatayang 300 hanggang 600 magkakaibang wika, na nakaayos sa dose-dosenang hindi magkakaugnay na pamilya ng wika—mas maraming genetic diversity kaysa sa buong Europa. Maaaring may 1,500 o higit pa ang South America (Campbell, 1997). May mahigit 250 wika ang Australia. Gayundin ang pagkakaiba-iba sa Pacific Islands, sub-Saharan Africa, at mainland Southeast Asia.
Hindi ito mga "primitive" o "simple" na wika. Marami sa mga wikang may pinakakomplikadong estrukturang naidokumento kailanman ay Katutubo. Ang polysynthetic morphology ng mga wikang Algonquian (kabilang ang Cree, Ojibwe, at Blackfoot), ang tonal systems ng Navajo, ang elaboradong evidentiality marking ng Quechua, ang click consonants ng mga wikang Khoisan—kinakatawan ng mga ito ang buong saklaw ng kayang maging wika ng tao. Nag-eencode ang mga ito ng sopistikadong mga sistema ng kaalaman tungkol sa kamag-anak, ekolohiya, batas, espirituwalidad, at kasaysayan. Ang bawat wika ay isang aklatan—isang hindi mapapalitang tala ng paraan ng isang komunidad sa pag-unawa at pag-aayos ng mundo.
Malinaw itong nakilala ni Edward Sapir. Sa pagsulat noong 1921, napansin niya na "when it comes to linguistic form, Plato walks with the Macedonian swineherd, Confucius with the head-hunting savage of Assam." Hindi mas mababa ang mga wika ng mga Katutubong mamamayan. Magkaiba ang mga ito—at ang kanilang mga pagkakaiba ay naglalaman ng kaalamang wala sa ibang wika.
Ang Mekanika ng Pagkamatay ng Wika
Hindi namamatay ang mga wika dahil sa natural na dahilan. Namamatay sila kapag naabala ang mga kundisyon para sa kanilang pagpapasa—kapag huminto ang mga batang matutuhan ang mga ito, kapag pinarurusahan ang mga speaker sa paggamit ng mga ito, kapag nagbago ang mga insentibong panlipunan at pang-ekonomiya upang ang pagsasalita ng dominanteng wika ay maging kondisyon ng kaligtasan.
Maaaring mangyari nang unti-unti ang pagkagambalang ito, sa pamamagitan ng ekonomikong at demograpikong presyon. Ngunit sa buong kolonyal na mundo, ito ay napakalaki ang pagiging sinadya. Ang pagsupil sa mga wikang Katutubo ay hindi side effect ng kolonisasyon. Isa itong tahasang layunin ng patakaran.
Canada: Ang Residential School System (1831–1996)
Sa Canada, umiral ang Indian Residential School system nang mahigit 160 taon, na may tahasang layuning alisin ang mga wikang at kulturang Katutubo. Tinatayang 150,000 batang First Nations, Métis, at Inuit ang inalis sa kanilang mga pamilya at komunidad at inilagay sa mga boarding school na pinondohan ng pamahalaan at pinatakbo ng simbahan.
Ang sentral na patakaran ay binigkas nang nakapanghihilakbot ang linaw ni Duncan Campbell Scott, ang Deputy Superintendent General of Indian Affairs, noong 1920: "I want to get rid of the Indian problem... Our objective is to continue until there is not a single Indian in Canada that has not been absorbed into the body politic and there is no Indian question and no Indian Department."
Ang mekanismo ay wika. Pinagbawalan ang mga bata na magsalita ng kanilang mother tongues. Ang mga parusa sa pagsasalita ng isang wikang Katutubo ay mula sa pambubugbog hanggang sa solitary confinement hanggang sa pagtusok ng karayom sa kanilang mga dila. Dumating ang mga batang nagsasalita ng Cree, Ojibwe, Inuktitut, Dene, Haida, o alinman sa dose-dosenang iba pang wika. Pinarusahan sila hanggang sa huminto sila.
Idinokumento ng Truth and Reconciliation Commission of Canada (2015) ang sistematikong katangian ng pagsalakay na ito. Napagpasyahan ng final report nito na ang residential school system ay bumubuo ng cultural genocide—ang pagkawasak ng mga estruktura at praktikang nagpapahintulot sa isang grupo na magpatuloy bilang isang grupo. Wika ang pangunahing target. Kung walang wika, naaabala ang seremonya, napuputol ang oral history, nagiging hindi maunawaan ang kinship systems, at tumitigil ang intergenerational transmission ng kaalaman.
Nagsara ang huling federally operated residential school sa Canada noong 1996. Marami sa mga Elder na huling fluent speakers ng kanilang mga wika ngayon ay survivors ng residential school. Ang kanilang fluency ay hindi lamang linguistic resource. Isa itong akto ng paglaban.
United States: Indian Boarding Schools (1860s–1960s)
Nagpatakbo ang United States ng parallel na sistema. Si Captain Richard Henry Pratt, tagapagtatag ng Carlisle Indian Industrial School noong 1879, ang lumikha ng pariralang tumukoy sa panahon: "Kill the Indian, save the man." Mahigit 350 boarding school na pinondohan ng pamahalaan ang umiral sa buong United States, na may mga patakarang halos kapareho ng sa Canada. Pinagbawalan ang mga batang Katutubo na magsalita ng kanilang mga wika, pinilit na mag-angkin ng mga pangalang English, at isinailalim sa sistematikong pagbura ng kultura.
Tinukoy ng isang ulat noong 2022 ng U.S. Department of the Interior ang mahigit 400 federal Indian boarding school sa 37 estado, na nagdodokumento ng pagkamatay ng hindi bababa sa 500 bata sa sistema—isang bilang na kinilala ng ulat na halos tiyak na malaking undercount. Nalaman ng imbestigasyon na ang sistema ay idinisenyo hindi lamang upang mag-eduka kundi upang "culturally assimilate Indian children by forcibly relocating them from their families and communities."
Katastrofiko ang mga kahihinatnan sa wika. Sa humigit-kumulang 300 wikang Katutubo na sinasalita sa teritoryong naging United States, mahigit kalahati ang wala na ngayon. Sa mga nabubuhay pa, karamihan ay may mas kaunti sa 1,000 fluent speakers, at marami ang may mas kaunti sa 10. Inuuri ng Endangered Languages Project ang mayorya ng mga natitirang Native American languages bilang "severely" o "critically" endangered.
Australia: Ang Stolen Generations (1910–1970)
Sa Australia, sapilitang inalis ng mga patakaran ng pamahalaan sa pagitan ng 1910 at 1970 ang mga batang Aboriginal at Torres Strait Islander mula sa kanilang mga pamilya. Ang mga batang ito—kilala bilang Stolen Generations—ay inilagay sa missions, reserves, at white foster families. Ang tahasang layunin ay assimilation: alisin ang Aboriginal identity sa loob ng ilang henerasyon.
Sinupil ang mga wikang Aboriginal sa missions at mga institusyon ng pamahalaan. Pinarusahan ang mga batang nagsasalita ng kanilang mga wika. Idinokumento ng Bringing Them Home report (1997), na ginawa ng Australian Human Rights Commission, ang sistematikong katangian ng mga pag-aalis na ito at ang mapaminsalang epekto ng mga ito sa wika, kultura, at pamilya.
Sa tinatayang 250 Aboriginal Australian languages na sinasalita sa panahon ng European contact, mas kaunti sa 20 ang ipinapasa sa mga bata ngayon (Marmion et al., 2014). Mahigit 100 ang ganap nang extinct. Ang natitirang mga wika ay nabubuhay higit sa lahat sa pamamagitan ng mga pagsisikap ng matatandang speaker na nakikipagtulungan sa mga linguist at community organization sa isang karera laban sa oras.
Scandinavia: Ang mga Wikang Sámi
Hindi limitado sa settler-colonial states sa southern hemisphere ang pagsupil sa mga wikang Katutubo. Sa Norway, Sweden, at Finland, isinailalim ang mga batang Sámi sa mga boarding school system (internatskoler) mula kalagitnaan ng ika-19 na siglo hanggang 1960s. Ipinagbawal ang mga wikang Sámi sa mga paaralan; pinarusahan ang mga bata sa pagsasalita ng mga ito. Tahasang nilayon ng patakarang "Norwegianization" (fornorskingspolitikk) ng Norway na alisin ang wikang Sámi at palitan ito ng Norwegian.
Sa siyam na natitirang wikang Sámi, ilan ang may mas kaunti sa 500 speaker. May humigit-kumulang 20 ang Ume Sámi. May mas kaunti sa 30 ang Pite Sámi. Nabubuhay ang mga wika sa bahagi dahil sa mga revitalization program na nagsimula noong 1970s, kabilang ang pagtatatag ng mga paaralan at media sa wikang Sámi—mga programang dumating sa tamang oras para sa ilang dialect at huli na para sa iba.
Aotearoa New Zealand: Te Reo Māori
Ang wikang Māori (te reo Māori) ang majority language ng Aotearoa hanggang kalagitnaan ng ika-20 siglo. Ang mga patakaran sa edukasyong kolonyal ng British, na nagsimula noong 1860s, ay unti-unting nagmarginalisa sa te reo sa mga paaralan. Pagsapit ng 1970s, mas kaunti sa 20% ng Māori ang fluent speakers, at nanganganib na mawala ang wika sa loob ng isang henerasyon.
Ang tugon ng Māori ay isa sa pinakamaaga at pinakamatagumpay na kilusan sa language revitalization sa mundo. Ang Kōhanga reo (language nests) para sa mga batang preschool, na itinatag noong 1982, ay nag-immerse sa mga sanggol at toddler sa te reo mula kapanganakan. Sumunod ang Kura kaupapa Māori (Māori-medium schools). Ang mga programang ito, kasabay ng Māori Language Act of 1987 (na gumawa sa te reo bilang opisyal na wika), ay nakapagpatatag sa wika—bagama't ang fluent speakers ay nananatiling minorya ng populasyong Māori.
Lumikha rin ang New Zealand ng isa sa pinakamahalagang framework para sa Indigenous data governance: Te Mana Raraunga, ang Māori Data Sovereignty Network. Iginigiit ng framework na ito na ang Māori data—kabilang ang linguistic data—ay isang taonga (treasure) na napapailalim sa mga karapatan at responsibilidad ng kaitiakitanga (guardianship). Direkta nitong naimpluwensiyahan ang pagbuo ng CARE principles para sa Indigenous data governance at isa itong pundasyonal na sanggunian para sa mga mekanismo ng data sovereignty sa champollion.
Ang Pattern: Wika bilang Target ng Kolonyal na Kapangyarihan
Magkakaiba ang heograpiko at kultural na espesipiko, ngunit kapansin-pansing konsistent ang pattern. Sa buong Canada, United States, Australia, Scandinavia, at New Zealand—at sa marami pang ibang lugar, mula Taiwan hanggang Siberia hanggang Andean highlands—tinukoy ng mga kolonyal at post-colonial na estado ang mga wikang Katutubo bilang hadlang sa assimilation at tinarget ang mga ito para sa eliminasyon. Magkakatulad ang mga kasangkapan saanman: alisin ang mga bata sa kanilang mga pamilya, ipagbawal ang paggamit ng mga wikang Katutubo, parusahan ang mga paglabag, at gantimpalaan ang pag-angkin sa kolonyal na wika.
Hindi ito footnote sa kasaysayan. Nagsara ang huling residential school sa Canada noong 1996. Nagsara ang huling Indian boarding school sa United States noong 1960s. Marami sa mga taong nakaligtas sa mga sistemang ito ay buhay pa. Intergenerational ang trauma. At nagpapatuloy ang pinsala sa wika: ang mga wikang nawalan ng isang henerasyon ng speakers sa panahon ng boarding school ay nawawala na ngayon ang kanilang huling fluent Elders.
Mula Cultural Genocide tungo sa "Data Scarcity"
Direktang kaugnay ang kasaysayang ito sa teknikal na suliranin ng machine translation. Kapag inilalarawan ng computer scientists ang isang wika bilang "low-resource," karaniwang ibig nilang sabihin: kakaunti ang digital texts, kakaunti ang parallel corpora, kakaunti ang dictionaries, at kakaunti ang annotated datasets. Neutral ang framing, na para bang ang data scarcity ay gawa ng kalikasan, tulad ng disyertong kaunti ang ulan.
Hindi ito ganoon. Ang "data scarcity" ng mga wikang Katutubo ay ang downstream consequence ng mga patakaran ng pagsupil sa wika. Ang mga wikang ipinagbawal sa paaralan ay lumikha ng mas kaunting nakasulat na teksto. Ang mga wikang pinarusahan ang speakers sa pagsasalita nito ay nagkaroon ng mas kaunting gamit sa institusyon. Ang mga wikang nawalan ng isang henerasyon ng transmission ay lumikha ng mas kaunting bilingual speakers na makagagawa ng parallel corpora.
Direkta ang pipeline mula cultural genocide tungo sa data scarcity:
- Pagsupil → Pinarurusahan ang mga bata sa pagsasalita ng wika
- Naantalang transmission → Mas kaunting bata ang natututo ng wika
- Nabawasan ang speaker base → Mas kaunting adult ang gumagamit nito sa araw-araw
- Nabawasan ang institutional use → Mas kaunting nakasulat na dokumento, mas kaunting digital texts
- Data scarcity → Walang mapagsanayan ang ML models
- Walang MT support → Hindi nakikita ng teknolohiya ang wika
- Pinabilis na pag-urong → Pinatitibay ng teknolohiya ang marginalisasyong sinimulan ng patakaran
Nangangahulugan ang pipeline na ito na anumang proyektong teknolohiya na nakikipagtrabaho sa mga wikang Katutubo ay nagmamana ng kontekstong pampolitika at moral, kinikilala man nito o hindi. Ang isang machine translation system na tumatrato sa Cree language data bilang hilaw na materyal na ilulunok ng mga modelo ay, kahit hindi sinasadya, nagpapatuloy sa extractive dynamic na nagsimula sa residential schools. Ginawang scarce ng karahasan ang data. Ang mga speaker na lumikha sa data na umiiral ay ginawa ito sa kabila ng napakalalaking hadlang. Anumang sistemang gumagamit sa data na iyon nang walang makabuluhang kontrol ng komunidad ay nagpapalala sa orihinal na pinsala.
Ang Komplisidad ng mga Agham at Ideolohiyang Kanluranin
Kritikal na kilalanin na ang agham at teknolohiya ay hindi inosenteng tagamasid sa kolonyal na proyektong ito; aktibong kalahok ang mga ito. Ang ideolohiyang "Enlightenment" na naghangad na ikategorya, i-quantify, at i-standardize ang mundo ay madalas na tumuring sa mga Katutubong mamamayan at kanilang mga wika bilang paksa lamang ng pananaliksik o mga kuryosidad para sa "salvage anthropology." Ikinulong ng extractive practice na ito ang kaalaman sa mga unibersidad sa Kanluran habang kakaunti ang ginawa upang pigilan ang makinaryang pampolitika na sumisira sa mga komunidad na iyon.
Malinaw na kabaligtaran ang proyektong ito sa mga metodolohiya tulad ng Tuskegee syphilis study o extractive linguistic anthropology, na tumatrato sa BIPOC people bilang mga experimental subject o passive provider ng raw data. Wala kami rito upang mag-eksperimento sa mga Katutubo, kunin ang kanilang kaalaman, o ipilit ang isang Western culturally monolithic ideology sa kanila. Layunin naming padaliin ang kanilang sariling paraan ng pag-alam at ang kanilang sariling pamantayan ng halaga. Nagbibigay kami ng imprastraktura; ang mga language community ang bumubuo ng test sets, tumutukoy ng metrics, at nagpapanatili ng buy-in. Kung wala ang kanilang buy-in, hindi gagana ang alinman dito.
Bakit Hinuhubog ng Kasaysayang Ito ang Aming Disenyo
Ito ang dahilan kung bakit ang governance model ng champollion ay hindi isang feature—ito ang pundasyon. Ang bawat pangunahing desisyon sa disenyo sa proyekto ay isang direktang tugon sa kasaysayang inilarawan sa itaas. Ang layunin ay data sovereignty: suportahan ang mga komunidad sa pagpapanatili, pagpapasigla, at pamamahala sa kanilang mga buhay na wika nang ganap sa sarili nilang mga termino.
Bakit naka-encrypt ang test data at hawak ng community trusts. Dahil mahigit isang siglo nang kinukuha, inilalathala, at pinagsasamantalahan ang Indigenous linguistic data nang walang pahintulot. Ang missionary linguistics, tulad ng mga pagsisikap ng Summer Institute of Linguistics (SIL), ay historikal na nagmonopolisa sa Indigenous parallel corpora sa ilalim ng extractive at assimilationist framework. Bukod dito, hindi tulad ng maraming modernong NLP projects na lubhang umaasa sa translated Bibles bilang pangunahing parallel corpus para sa low-resource languages, tahasan naming hindi ginagamit ang translated Bibles bilang corpuses. Ang encrypted test set, na ang mga susi ay hawak lamang ng governance organization ng komunidad, ay isang teknikal na mekanismong ginagawang architecturally impossible na ulitin ang extractive patterns.
Bakit gumagamit kami ng sandboxed execution sa halip na open test sets. Dahil kapag nailathala nang bukas ang linguistic data, permanenteng nawawalan ng kontrol dito ang komunidad. Inilalathala ng conventional ML benchmarks ang kanilang test sets—maaaring i-download ng sinuman, sanayin dito, o gamitin para sa anumang layunin. Ang modernong AI data scraping na ito ay kumakatawan sa bagong anyo ng "data colonialism" at "digital enclosure." Para sa mga komunidad na ang mga wika ay muntik nang lipulin sa pamamagitan ng puwersa, ang pagkawala ng kontrol sa natitira nilang linguistic resources ay hindi maliit na abala. Isa itong direktang pagpapatuloy ng makasaysayang dispossession ng teritoryo. Tinitiyak ng sandboxed execution na hindi kailanman aalis sa imprastraktura ng komunidad ang kanilang data.
Bakit inililipat ang pagmamay-ari ng method sa komunidad. Dahil ang kasaysayan ng "pagtulong" sa mga Katutubong komunidad ay, sa napakalaking bahagi, kasaysayan ng mga outsider na bumubuo ng mga bagay tungkol sa mga Katutubo sa halip na para sa kanila o kasama nila. Nailalathala ang mga akademikong papel, nakokolekta ang grants, umuunlad ang careers—at naiiwan ang komunidad na walang natatanggap. Tinitiyak ng ownership transfer mechanism na kapag bumuo ang isang ML engineer ng gumaganang translation method para sa Plains Cree, pagmamay-ari ng Plains Cree community ang method na iyon. Pinananatili ng engineer ang credit at attribution. Pinananatili ng komunidad ang asset.
Bakit 90% ang ipinapadala ng revenue model sa komunidad. Dahil mahal ang language revitalization, at ang mga komunidad na gumagawa ng pinakamahirap na gawain—ang mga Elder na nagtuturo, ang mga magulang na nagpapadala ng mga anak sa immersion schools, ang mga aktibistang nagpapatakbo ng language nests—ay palagiang kulang sa pondo. Bukod dito, ang mismong AI infrastructure na ginagamit natin (hal., data centers, mineral mining, water use) ay may di-proporsiyonal na materyal na epekto sa mga lupaing Katutubo sa buong mundo. Kung lilikha ng revenue ang isang Cree translation API, 90% ng revenue na iyon ay dapat pondohan ang Cree language programs. Dapat maging kasangkapan ang teknolohiya na nagsisilbi sa mga komunidad, hindi mekanismong kumukuha ng halaga mula sa kanila.
Bakit sinasabi naming "OCAP®-forward" sa halip na "OCAP®-compliant." Ang OCAP® principles (Ownership, Control, Access, Possession) ay binuo ng First Nations Information Governance Centre partikular para sa mga kontekstong First Nations. Tinutugunan ng ibang Indigenous data governance frameworks—CARE (Collective Benefit, Authority to Control, Responsibility, Ethics), Te Mana Raraunga (Māori Data Sovereignty), at FAIR principles—ang mga katulad na usapin mula sa magkakaibang kultural at legal na posisyon. Hindi namin inaangking ipinatutupad namin ang OCAP® nang buo; ang determinasyong iyon ay nakasalalay sa First Nations communities. Sinasabi naming ang aming disenyo ay OCAP®-forward: itinayo ito upang magawang gamitin ng mga komunidad ang ownership, control, access, at possession ng kanilang data at ng mga teknolohiyang hinango rito. Pinahihintulutan ng arkitektura ang sovereignty. Kung nakakamit nito ang sovereignty ay para sa mga komunidad na magpasya.
Bakit methods, hindi models, ang bina-benchmark ng platform. Dahil hindi dapat nakadepende ang mga Indigenous language community sa modelo ng alinmang iisang korporasyon. Ang bukas na arkitektura ng isang "method" ay nangangahulugang hindi kailangang maging mahal at material-heavy na LLM ang solusyon. Maaari itong maging highly efficient, community-hosted rule-based system na tumatakbo sa traditional computing hardware. Kung ang pinakamahusay na translation method para sa Cree ay gumagamit ng Google's Gemini ngayon, dapat magawa ng komunidad na lumipat sa isang open-source o deterministic alternative bukas nang hindi muling binubuo ang lahat. Tinitiyak ng method-level benchmarking na ang asset ng komunidad ay isang recipe, hindi isang dependency.
Bakit kailangang buuin ng komunidad ang imprastrakturang ito ngayon. Nalulutas ang kabalintunaan ng paggamit sa AI habang pinupuna ang materyal na extraction nito sa pamamagitan ng isang mabagsik na estratehikong realidad: kung hindi lulutasin ng komunidad ang suliraning ito sa sarili nilang sovereign terms, hindi maiiwasang "lulutasin" ito ng Big Tech (Google, Meta, OpenAI) sa extractive terms. Kahit bumuo kalaunan ang isang napakalaking korporasyon ng translation model para sa isang partikular na wikang Katutubo, kailangan ng komunidad ang sarili nitong independiyente at sandboxed na benchmarking infrastructure upang beripikahin kailan at kung talagang nagtagumpay sila ayon sa mga pamantayan ng komunidad—at upang matiyak na nakukuha ng komunidad ang halaga ng tagumpay na iyon.
Hindi ito politika na idinikit lamang sa teknolohiya. Ito ay teknolohiyang dinisenyo ng mga taong nauunawaan ang kasaysayan.
VI. Ang Kasalukuyang Sandali: 6,800 Wikang Naiiwan
Ang Saklaw ng Suliranin
Sa humigit-kumulang 7,000 buhay na wikang sinasalita sa mundo ngayon, mas kaunti sa 200 ang may anumang machine translation support. Ang natitirang 6,800+ ay hindi nakikita ng teknolohiya—hindi dahil mas mababa ang kanilang halaga, kundi dahil ang statistical at neural approaches na nangingibabaw sa modernong MT ay pundamental na data-hungry. Nangangailangan ang mga ito ng milyun-milyong parallel sentences upang matuto. Para sa karamihan ng mga wika sa mundo, hindi umiiral ang mga pangungusap na iyon.
Ang mga wikang pinakanaapektuhan ay mismong mga pinakananganganib: mga wikang Katutubo, mga wikang minorya, mga oral tradition na may limitadong nakasulat na tala. Ito ang mga wikang ang speakers ay madalas na matatanda, ang mga komunidad ay maliit, at ang kapangyarihang pampolitika ay minimal. Ito ang mga wikang higit na nangangailangan ng teknolohikal na suporta para sa pangangalaga at revitalization—at ito ang mga wikang pinakakaunti ang pakinabang sa umiiral na teknolohiya.
Ang Hamon ng Polysynthetic
Hindi lamang data scarcity ang suliranin. Marami sa pinakananganganib na wika sa mundo ay polysynthetic—mayroon silang mga morphological system na pambihira ang komplikasyon at pundamental na sumisira sa mga palagay ng standard NLP.
Isaalang-alang ang Plains Cree (nêhiyawêwin), isang wikang Algonquian na sinasalita sa Canadian prairies. Maaaring i-encode ng iisang pandiwa sa Cree ang impormasyong ikakalat ng English sa isang buong clause: ang subject, object, tense, aspect, evidentiality, modality, at iba pang grammatical categories, lahat ay nakasiksik sa iisang salita sa pamamagitan ng sistema ng prefixes, suffixes, at internal modifications.
Lumilikha ito ng ilang suliranin para sa standard MT approaches:
-
Tokenization failure. Ang subword tokenizers tulad ng BPE (Byte Pair Encoding), na dinisenyo para sa analytic languages tulad ng English, ay nagdudurog sa polysynthetic words sa walang-kahulugang fragments. Nasisira ang morphological structure bago pa man ito makita ng modelo. Hindi neutral ang BPE; kumakatawan ito sa isang purong empiricist, surface-level epistemology na pundamental na sumasalungat sa malalim at rule-based morphological hierarchies na likas sa polysynthetic languages. Isa itong architectural bias na aktibong nagwawasak sa structural morphology.
-
Combinatorial explosion. Maaaring magkaroon ang isang polysynthetic language ng milyun-milyong posibleng word forms para sa iisang verb root. Walang training corpus, gaano man kalaki, ang makapaglalaman ng higit sa napakaliit na bahagi ng mga ito. Walang paraan ang neural models na mag-generalize sa mga unseen forms.
-
Hallucination. Ang large language models, kapag hinilingang magsalin tungo sa polysynthetic languages, ay madalas lumikha ng morphologically invalid forms—mga salitang hindi kailanman bubuuin ng native speaker. Natutuhan ng modelo ang statistical patterns mula sa limitadong data ngunit wala itong pag-unawa sa mga morphological rules ng wika.
Finite State Transducers: Ang Tulay
Gayunpaman, may teknolohiyang kayang humawak nang maayos sa morphological complexity: ang Finite State Transducer (FST). Ang FST ay isang pormal na computational device na nagmamapa sa pagitan ng input string at output string sa pamamagitan ng serye ng state transitions. Para sa morphological analysis, maaaring imapa ng FST ang surface word form sa nakapailalim nitong morphological structure (at kabaliktaran), na pinangangasiwaan ang buong combinatorial complexity ng morphology ng wika.
Ang FSTs ay mga direktang inapo ng rewriting rules ni Pāṇini. Sila ang Chomsky's Type 3 (regular) grammars sa computational form. Sila ang buhay na sagisag ng ugnayan sa pagitan ng formal linguistics at computation.
Sa pagpapares ng FSTs sa LLMs, champollion ay nagsasagawa ng kritikal na pilosopikal na sintesis: pinagkakasundo nito ang rationalist structural tradition (rules) at ang empiricist statistical paradigm (probability) upang kontrahin ang data-hungry at majoritarian biases ng modernong AI.
Para sa polysynthetic languages, makapagbibigay ang FSTs ng bagay na hindi kaya ng neural models: deterministic verification. Dahil sa isang word form, makapagsasabi ang FST nang tiyak kung isa itong valid form sa wika—hindi probabilistically, hindi "mukhang tama ito," kundi oo o hindi. Ito ang sagot sa pangunahing tanong na bumabagabag sa neural MT para sa low-resource languages: Paano ninyo ibe-verify na tunay ang isang nabuong salita nang walang human in the loop?
Ang teknikal na sagot ay: gamitin ninyo ang formal grammar. Gamitin ninyo ang mismong mga kasangkapang inimbento ni Pāṇini dalawampu't limang siglo na ang nakalipas, na naka-encode sa computational formalism na ginawang mahigpit nina Turing at Chomsky.
Gayunpaman, dapat nating kilalanin na ang deterministic power na ito ay may sarili nitong mga panganib. Ang pagpapatupad ng "oo" o "hindi" na validation sa isang oral at fluid na wika ay nanganganib na magpataw ng isang rigid Standard Language Ideology. Kapag nagdidikta ang isang FST kung ano ang "correct," maaari nitong hindi sinasadyang ulitin ang mismong kolonyal na normativity na dinisenyo nitong iwasan—pinapantay ang dialectal variation, pinarurusahan ang code-switching, at ipinapatupad ang isang singular at normalized grammar sa isang magkakaibang komunidad. Dahil kumakatawan ang FSTs sa isa lamang metric ng formal correctness, kailangang palambutin ang kanilang rigid empiricism. Ito mismo ang dahilan kung bakit kailangang hawak ng komunidad ang panulat. Ang komunidad ang nagtatakda ng pamantayan, bumubuo ng mga tuntunin, at tumutukoy kung ano ang tatanggapin ng makina bilang valid, na nag-i-engineer ng FSTs na lumilikha ng espasyo para sa oral fluidity at regional dialects. Ang formal grammar ay hindi unibersal na katotohanang ibinaba ng computer scientists; isa itong imprastrakturang pinatatakbo ng mismong mga speaker.
champollion: Kung Saan Nagtatagpo ang mga Hibla
Dito pumapasok ang proyektong champollion sa kuwento. Nasa eksaktong punto ito ng pagtagpo ng lahat ng hiblang sinundan natin:
- Mula kay Pāṇini: Ang prinsipyong maaaring ilarawan ang wika sa pamamagitan ng pormal at generative rules.
- Mula kina Schleicher at Sapir: Ang pag-unawang magkakaiba, structured, at madalas nanganganib ang mga wika sa mundo.
- Mula sa residential schools at ang kanilang aftermath: Ang pag-unawang ang "data scarcity" ay hindi neutral na teknikal na katotohanan kundi bunga ng sinadyang pagsupil sa wika—at na anumang teknolohiyang humahawak sa mga wikang ito ay dapat itayo na sovereignty ang pundasyon.
- Mula kay Chomsky: Ang pormal na hierarchy ng grammars na nag-uugnay ng linguistics sa computation.
- Mula kay Shannon: Ang matematikal na framework para sa pag-unawa sa communication, noise, at signal.
- Mula kina Turing at von Neumann: Ang universal machines na kayang magpatakbo ng anumang computable function.
- Mula kay Weaver at sa IBM Models: Ang pananaw na maaaring tratuhin ang pagsasalin bilang statistical problem.
- Mula sa Transformer revolution: Ang makapangyarihang neural models na kayang magsalin—ngunit kapag lamang may sapat silang data.
- Mula sa FST tradition: Ang mga pormal na kasangkapang kayang humawak ng morphological complexity kung saan nabibigo ang neural models.
- Mula sa OCAP®, CARE, at Te Mana Raraunga: Ang governance frameworks na tumitiyak na nagsisilbi ang teknolohiya sa mga komunidad sa halip na kumukuha mula sa kanila.
Ang champollion ay isang platform na dinisenyong idirekta ang competitive energy ng machine learning community tungo sa mga wikang iniwan ng merkado. Nagbibigay ito ng benchmarking infrastructure kung saan maaaring magsumite ang sinuman ng translation method—neural, rule-based, hybrid, o bago—at masuri ito laban sa mahihigpit na pamantayan. Kritikal, gumagamit ito ng FST-based validation upang matiyak na morphologically valid ang generated forms, at umaasa ito sa native speaker verification bilang ultimate ground truth.
Isinasakatawan ng platform ang ilang prinsipyong pinalilinaw ng kasaysayang ito:
Walang iisang approach ang sapat. Ang kasaysayan ng MT ay kasaysayan ng mga paradigm shift—mula rules tungo sa statistics tungo sa neural networks. Nilutas ng bawat bagong paradigm ang mga problemang hindi kayang lutasin ng nauna, ngunit bawat isa ay may blind spots din. Para sa low-resource polysynthetic languages, halos tiyak na hybrid ang sagot: neural fluency na kinokontrol ng formal correctness.
Hindi opsiyonal ang data sovereignty—isa itong estruktural na tugon sa makasaysayang pinsala. Tulad ng detalyadong idinokumento ng Section V, hindi lamang aksidenteng "data-scarce" ang mga wikang Katutubo. Ginawa silang scarce ng sinadyang patakaran. Ang OCAP®-forward design ng proyekto—na tumitiyak na nananatiling nasa kontrol ng mga Indigenous community ang language data, na ang decryption keys ay hawak ng community trusts, na ang algorithm ownership ay inililipat sa speakers—ay hindi dagdag-isip lamang. Isa itong direktang tugon sa mga siglo ng extractive practice, mula sa dokumentasyon ng outsiders noong panahon ng residential school hanggang sa modern-day dataset scraping. Ginagawa ng arkitektura na technically impossible na ulitin ang mga pattern na ito.
Ang long game ay revitalization. Ang pagsasalin ang proving ground, ngunit ang tunay na gantimpala ay language revitalization sa pamamagitan ng pagtuturo. Ang formal grammars at morphological models na binuo para sa machine translation ay mismong mga teknikal na pundasyong kailangan para sa machine-assisted language learning. Kung makabubuo tayo ng FST na nagva-validate ng Cree verb forms para sa isang translation system, magagamit din natin ang FST na iyon upang tulungan ang isang estudyante na matutong mag-conjugate ng Cree verbs.
Bakit ang Sandaling Ito
Nabubuhay tayo sa isang natatanging sandali sa kasaysayan ng language technology. Nagtagpo ang ilang salik:
-
Mature na ang open-source tools. Ang FST toolkits (tulad ng HFST at Foma), ang neural MT frameworks (tulad ng OpenNMT at Fairseq), at ang evaluation infrastructure ay maaari na ngayong buuin ng isang maliit na team sa minimal na gastos.
-
Bumibilis ang community organizing. Lalong nagiging sopistikado ang mga Indigenous language community sa paggamit ng teknolohiya at sa paggigiit ng data sovereignty. Ang mga organisasyong tulad ng First Voices initiative, Canadian Indigenous Languages Technology Project, at maraming community-led efforts ay bumubuo ng human infrastructure na hindi kayang ibigay ng teknolohiya lamang.
-
Umabot na sa threshold ang AI capabilities. Ang large language models, bagama't hindi sapat nang mag-isa para sa low-resource MT, ay maaaring magsilbing makapangyarihang components sa hybrid systems—lumilikha ng candidate translations na pagkatapos ay bine-verify at kinokontrol ng formal methods.
-
Bumagsak ang gastos. Ang mangangailangan sana ng government laboratory noong 1954 o malaking korporasyon noong 2000 ay maaari na ngayong gawin gamit ang cloud computing credits at open-source software. Hindi na teknolohiya o pera ang bottleneck. Ito ay kalooban.
Ang tanong ay hindi kung maitatayo ang teknolohiya. Kaya ito. Ang tanong ay kung itatayo ito nang tama—na may wastong governance, wastong incentives, at wastong paggalang sa mga komunidad na nilalayong pagsilbihan nito.
Iyan ang tanong na dahilan ng pag-iral ng proyektong ito.
Mga Sanggunian
- Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
- Boole, G. (1854). An Investigation of the Laws of Thought. Walton and Maberly.
- Bringing Them Home: Report of the National Inquiry into the Separation of Aboriginal and Torres Strait Islander Children from Their Families. (1997). Australian Human Rights Commission.
- Brown, P., Della Pietra, S., Della Pietra, V., & Mercer, R. (1993). The Mathematics of Statistical Machine Translation. Computational Linguistics, 19(2).
- Campbell, L. (1997). American Indian Languages: The Historical Linguistics of Native America. Oxford University Press.
- Champollion, J.-F. (1822). Lettre à M. Dacier relative à l'alphabet des hiéroglyphes phonétiques.
- Chomsky, N. (1957). Syntactic Structures. Mouton.
- Chomsky, N. (1956). Three Models for the Description of Language. IRE Transactions on Information Theory, 2(3).
- Huet, G. (2006). Lexicon-directed Segmentation and Tagging of Sanskrit. In Proceedings of the XIIth World Sanskrit Conference.
- Jones, W. (1786). The Third Anniversary Discourse. Asiatick Researches, 1.
- Kiparsky, P. (1993). Paninian Linguistics. In R. E. Asher (Ed.), The Encyclopedia of Language and Linguistics. Pergamon.
- Kircher, A. (1663). Polygraphia Nova et Universalis.
- Leibniz, G. W. (1703). Explication de l'Arithmétique Binaire. Mémoires de l'Académie Royale des Sciences.
- Llull, R. (c. 1305). Ars Magna.
- Lovelace, A. (1843). Notes by the Translator (Note G). In L. F. Menabrea, Sketch of the Analytical Engine Invented by Charles Babbage.
- Marmion, D., Obata, K., & Troy, J. (2014). Community, Identity, Wellbeing: The Report of the Second National Indigenous Languages Survey. Australian Institute of Aboriginal and Torres Strait Islander Studies.
- National Research Council. (1966). Language and Machines: Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences.
- Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. ACL.
- Saussure, F. de. (1916). Cours de linguistique générale (C. Bally & A. Sechehaye, Eds.). Payot.
- Schleicher, A. (1861). Compendium der vergleichenden Grammatik der indogermanischen Sprachen.
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3).
- Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1).
- Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. NeurIPS.
- Truth and Reconciliation Commission of Canada. (2015). Honouring the Truth, Reconciling for the Future: Summary of the Final Report. Government of Canada.
- Turing, A. M. (1936). On Computable Numbers, with an Application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 2(42).
- Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236).
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
- von Neumann, J. (1945). First Draft of a Report on the EDVAC. University of Pennsylvania.
- Weaver, W. (1949). Translation. Memorandum, Rockefeller Foundation.
- Wilkins, J. (1668). An Essay towards a Real Character, and a Philosophical Language. Royal Society.
- U.S. Department of the Interior. (2022). Federal Indian Boarding School Initiative Investigative Report. Bureau of Indian Affairs.
Ang dokumentong ito ay bahagi ng dokumentasyon ng proyektong champollion. Inilalabas ito sa ilalim ng parehong lisensiya gaya ng mismong proyekto.