从波你尼到Transformers:语言、计算和翻译的未竟之业
champollion背后思想的历史
"当我看到一篇俄文文章时,我说:'这实际上是用英文写的,只是用某种奇怪的符号编码了。我现在将继续解码。'" — Warren Weaver,1949年
引言
机器翻译人类语言的梦想比计算机本身还要古老。从某种意义上说,这是人工智能的原始问题——比国际象棋程序更古老,比专家系统更古老,比神经网络更古老。这种渴望通常通过欧洲寓言(如巴别塔)来表述,这些寓言将语言多样性定位为一种惩罚或需要解决的问题,忽视了接触前的土著社会长期以来通过精密的贸易语言(如Chinook Jargon)和手语系统(如平原印第安人手语)巧妙地应对惊人的语言多样性,而无需寻求普遍同质化的现实。
但导致这一时刻的历史——一个大型语言模型可以翻译还不错的法文但在Cree中产生荒谬幻觉的世界——并非一条直线。它是至少四条不同线索的编织:语言的形式研究、计算的数学理论、机器学习中的统计革命,以及一段更黑暗的历史,解释了为什么最需要技术的语言恰恰是技术不存在的语言。第四条线索是殖民地语言压制和文化灭绝的历史——对欧洲列强建立统治的每个大陆上土著语言的蓄意、系统性的摧毁。不理解这段历史,技术问题看起来像是数据稀缺的意外。它不是意外。
本文从四条线索的起源追溯到它们在当今的汇聚。诚然,这在某种程度上是辉格式的——它讲述了这个故事,仿佛它一直在导向这里。当然,历史并不知道它要去哪里。但这些线索是真实的,这些联系是真实的,理解它们对于理解为什么champollion这样的项目存在、为什么它们以这种方式构建,以及为什么它们现在很重要是至关重要的。
I. 一切的语法:从波你尼到乔姆斯基
第一部形式语法(约公元前4世纪)
故事不是从欧洲大学开始,而是从古代印度的一位名叫波你尼的学者开始。大约在公元前4世纪,波你尼创作了Aṣṭādhyāyī——一部包含大约4,000条规则的梵文语法。这不是宽松的、教学意义上的语法。这是一部生成语法:一套有限的规则,原则上能够产生该语言中的每一个有效表述。
波你尼的系统使用了我们现在会认识为形式重写规则的东西,包括变量、递归和有序应用。语言学家Paul Kiparsky辩称Aṣṭādhyāyī是"迄今为止为任何语言编写的最完整的生成语法"(Kiparsky,1993)。计算机科学家Gerard Huet已经证明波你尼的规则可以被建模为有限状态转换器——同一种计算形式主义,二十五个世纪后,将成为多综合语言形态分析的中心。
波你尼不知道他在做计算机科学。但他确实在做。
罗塞塔石碑与比较语言学的诞生(1799)
在有记录的历史中的大部分时间里,语言研究主要是对自己的语言的研究——或者最多是对神圣或古典语言的研究,用于礼仪目的。创造现代语言学的知识革命始于一块石头。
罗塞塔石碑由拿破仑的士兵在1799年发现,上面用三种文字刻有同一道法令:埃及象形文字、通俗体文字和古希腊文。Jean-François Champollion在1822年对象形文字的破译不仅是一项考古学胜利。它展示了一个将成为基础的原则:语言可以通过彼此被理解。翻译不仅仅是一项实用技能;它是一种科学调查的方法。
William Jones与印欧假说(1786)
甚至在Champollion之前,英国语言学家Sir William Jones在1786年向孟加拉亚洲学会发表的著名讲座中观察到,梵文与希腊文和拉丁文的关系"在动词的根和语法形式中都表现出比可能由偶然产生的更强的亲缘关系"。Jones提议所有三种语言都源自一个共同的祖先"这个祖先,也许,已经不存在了"。
这是历史和比较语言学的诞生。它确立了语言不是孤立的、静态的实体,而是家族的成员——通过血统相关,随时间塑造,受到规律性变化规律的影响。从某种意义上说,这是一个比达尔文早几十年的进化论。
August Schleicher的语言树(1861)
是德国语言学家August Schleicher明确了达尔文的联系。在1861年——《物种起源》发表仅两年后——Schleicher发表了他的Stammbaum(家族树)印欧语言模型。他的图表看起来几乎与生物学中的系统发育树无法区分。语言,就像物种一样,分支、分化,有时会灭绝。
Schleicher的树是一种简化(语言也通过接触、借用和克里奥尔化而汇聚),但该模型被证明是极其富有成效的。它确立了语言多样性不是随机噪声而是结构化数据、可接受系统分析的原则。它隐含地提出了一个问题,该问题仍然是我们项目的中心:濒危分支会发生什么?
Ferdinand de Saussure与语言的架构(1916)
下一场革命来自Ferdinand de Saussure,他的Cours de linguistique générale(1916年从学生笔记中出版)建立了结构语言学。Saussure在langue(语言的抽象系统)和parole(实际言语)之间做了尖锐的区分。他辩称语言符号是任意的——"树"这个词与树没有内在联系——意义来自系统内的差异,而不是来自任何正内容。
Saussure的关键图表——椭圆形分为signifié(所指、概念)和signifiant(能指、声音意象),由箭头显示它们的不可分割的关系——成为人文科学中最常被复制的图像之一。它确立了语言是一个系统的系统的原则,其中每个元素的价值来自它与所有其他元素的关系。
这对翻译有深远的影响。如果意义是关系性的和系统性的,那么翻译不是交换词汇的问题。它需要理解整个语言的架构。两种语言可能以根本不同的方式划分世界——这一见解后来会被Edward Sapir和Benjamin Lee Whorf发展(有时被过度陈述)。
Sapir、Bloomfield与土著语言研究
在北美,20世纪初带来了不同的语言田野调查传统。Edward Sapir和Leonard Bloomfield广泛地与土著语言合作——Sapir与纳瓦霍语、努特卡语和许多其他语言合作;Bloomfield与美诺米尼语和其他阿尔贡昆语言合作。他们遇到了在印欧语族中根本不同的语言结构。
特别是Sapir开发了一个类型学框架,沿着几个轴对语言进行分类,包括分析型语言(如英语,其中词往往很短,意义由词序承载)和多综合型语言(如Cree,其中单个词可以编码英语将表达为整个句子的内容)之间的关键区分。单个Cree动词形式可能将主语、宾语、时态、体、证据性和几个修饰元素合并为一个形态复杂的词。
这项工作确立了两个对我们项目仍然至关重要的事实。首先:世界上的语言在结构上的多样性远超任何以欧洲为中心的模型所暗示的。其次:许多这些语言已经濒危。然而,虽然早期结构语言学家记录了这种复杂性,但他们经常参与"抢救人类学"——一种提取性学术模式,仅将土著人民视为建立西方学术生涯的"信息提供者"。这种方法将语言与其认识论根源分离,为将语言视为无实体、可提取的数据而不是活的、关系性系统铺平了道路。
Chomsky革命(1957)
1957年,一位28岁的MIT语言学家Noam Chomsky发表了Syntactic Structures,一本薄薄的书像炸弹一样在该领域引爆。Chomsky辩称语言学的目标应该是发现语言的生成语法——一套有限的规则,可以产生该语言的所有且仅有的语法句子。
更具挑衅性的是,Chomsky提出了Chomsky层级:按计算能力对形式语法进行分类。该层级有四个级别:
- Type 3(正则):由有限自动机识别。简单模式。
- Type 2(上下文无关):由下推自动机识别。像嵌套括号这样的递归结构。
- Type 1(上下文敏感):由线性有界自动机识别。更复杂的依赖关系。
- Type 0(递归可枚举):由图灵机识别。任何可计算的东西。
Chomsky辩称自然语言至少需要上下文无关语法,可能更多。这是语言学和计算数学理论之间的直接桥梁。Alan Turing为推理计算极限而开发的相同形式工具现在可以应用于人类语言。
Chomsky还提出了通用语法的想法——语言能力是先天的,所有人类语言共享深层结构属性,表面形式的多样性掩盖了潜在的统一性。这仍然是有争议的(许多类型学家和功能主义者不同意),但Chomsky引入的形式工具——短语结构规则、转换语法、层级本身——成为计算语言学的基础。
II. 通用翻译的梦想
Ramon Llull的思维机器(1305)
机械化思想的梦想——以及随之而来的机械翻译的梦想——非常古老。13世纪的加泰罗尼亚神秘主义者Ramon Llull设计了Ars Magna:一个由刻有基本概念的同心旋转圆盘组成的系统,其组合旨在产生所有可能的真理。Llull的轮子在某种意义上是第一台组合逻辑机器。莱布尼茨后来引用Llull作为灵感。
Athanasius Kircher与Polygraphia Nova(1663)
伟大的耶稣会博学家Athanasius Kircher在1663年发表了Polygraphia Nova et Universalis——一个"通用书写"系统,旨在允许跨越语言障碍的交流。Kircher的系统为概念分配数字,然后可以用适当的表格解码为任何语言。本质上,它是一个中间语言——一种与语言无关的意义表示。
该系统效果不太好。但这个想法持续存在:在任何两种语言之间存在一个共同的概念空间,翻译是通过它进行映射的问题。这个中间语言假说不仅仅是一个有缺陷的科学实验;它是殖民地控制的认识论延伸,无法映射分歧的本体论。哲学家W.V.O. Quine后来用他的翻译的不确定性概念(1960)将这一失败形式化,辩称激进翻译本质上是不确定的。根本上分歧的语言系统之间的通用、无上下文映射是哲学上的不可能,而不仅仅是工程障碍。
John Wilkins与哲学语言(1668)
仅在Kircher之后五年,英国自然哲学家John Wilkins发表了An Essay towards a Real Character, and a Philosophical Language——一个创建一种语言的尝试,其结构完美地反映了现实的结构。每个概念都会在一个伟大的分类法中分类,其名称会编码其在该分类法中的位置。
Wilkins的项目失败了(现实被证明对整洁的分类有抵抗力),但它预示了一些重要的东西:语言可以被工程化的想法,词语和意义之间的关系可以被制成系统和明确的。这在深层意义上是计算语言学家在构建本体论和知识图表时所做的。
莱布尼茨与通用特征
Gottfried Wilhelm Leibniz独立发明了微积分并设计了机械计算器,他梦想着一个characteristica universalis——一种通用形式语言,所有人类知识都可以用它表达——以及一个calculus ratiocinator——一台可以用那种语言推理的机器。"如果争议出现,"莱布尼茨写道,"两个哲学家之间就不需要争论,就像两个会计之间一样。因为只需要他们拿起笔,坐在他们的石板前,彼此说:让我们计算。"
莱布尼茨还发明了二进制算术——数字系统,几个世纪后,将成为数字计算机的语言。他的1703年论文Explication de l'Arithmétique Binaire表明任何数字都可以仅使用0和1来表示。他将其视为神圣创造的反映(从虚无中产生某物),但它被证明是所有数字计算的基础。
Warren Weaver的备忘录(1949)
机器翻译的现代时代始于一份备忘录。1949年7月,美国数学家和科学管理员Warren Weaver给Norbert Wiener写了一份备忘录,提议新的电子计算机可能被应用于翻译。他的备忘录包含了本文开头引用的非凡段落:俄文文本"实际上是用英文写的,但...用某种奇怪的符号编码"的想法。
Weaver的比喻来自战时密码分析——翻译从根本上是一个解码问题的想法。这不仅仅是一个类比。为破译敌方密码而开发的相同统计和信息论工具可能,Weaver建议,适用于翻译问题。
该备忘录极其乐观,但它启动了一个研究计划。五年内,第一次机器翻译演示将进行。
III. 思想的机械:计算与信息
George Boole与逻辑代数(1854)
1854年,George Boole发表了An Investigation of the Laws of Thought——一部将逻辑推理简化为代数运算的著作。Boole表明逻辑的命题可以使用与代数相同的规则进行操作,AND对应乘法,OR对应加法,NOT对应补集。
布尔代数当时看起来像是一个数学奇异性。它将成为每个数字电路的操作原则。
Charles Babbage与Ada Lovelace(1837–1843)
Charles Babbage设计(但从未完成)了分析引擎——一台机械的、蒸汽动力的、通用目的的计算机。与他早期的差分引擎(一个专门的计算器)不同,分析引擎有一个内存("Store")、一个处理单元("Mill")、条件分支和循环。原则上,它是图灵完全的。
Ada Lovelace从对引擎的描述中工作,写了一套详细的注释,包括被广泛认为是第一个已发表的计算机程序:计算Bernoulli数的算法(Note G,1843)。但Lovelace最深刻的贡献是概念性的。她看到引擎可以操纵符号,而不仅仅是数字。"分析引擎编织代数模式,"她写道,"就像Jacquard织机编织花朵和叶子一样。"这个含义——计算可以应用于任何具有形式结构的领域,包括语言——是有先见之明的。
Alan Turing与通用机器(1936)
1936年,Alan Turing发表了"On Computable Numbers, with an Application to the Entscheidungsproblem"——一篇同时定义计算、证明其极限并发明现代计算机(以抽象形式)的论文。
Turing的关键见解是通用机器:一台单一的机器,给定其磁带上编码的正确指令,可以模拟任何其他机器。这确立了硬件和软件、机器和程序之间没有本质区别。一个单一的设备,经过适当编程,可以计算任何可计算的东西。
Turing的工作也确立了计算的极限(停机问题)并为他后来对机器智能的探索奠定了基础。他1950年的论文"Computing Machinery and Intelligence"明确地用语言的术语框架化了机器智能的问题:如果通过对话,一台机器无法与人类区分,那么它是智能的。
Claude Shannon与信息论(1948)
1948年,Claude Shannon在Bell System Technical Journal上发表了"A Mathematical Theory of Communication"——一篇创立信息论领域的论文。Shannon表明通信可以被建模为一个系统:一个信息源生成一条消息,一个发射器将其编码为一个信号,该信号通过一个通道(受噪声影响),一个接收器将其解码回一条消息给一个目的地。
Shannon的关键贡献是熵的概念——消息的不确定性或信息内容的度量。他证明了对于任何具有给定噪声水平的通道,存在一个最大速率,信息可以以该速率可靠地传输(通道容量),并且这个速率可以通过足够聪明的编码来实现。
与翻译的联系很深。Shannon本人在1951年的一篇论文中使用信息论来分析英文的统计结构。他表明英文文本高度冗余——给定一系列字母,本地使用者可以以高精度预测下一个字母。这种冗余是使通信对噪声具有鲁棒性的原因,但它也意味着语言的信息内容远低于其原始符号计数所暗示的。
Warren Weaver立即看到了联系:如果翻译是解码,如果语言的统计结构可以被建模,那么翻译是一个信息论问题。这个见解需要数十年才能结出果实,但当它结出果实时,它改变了该领域。
Von Neumann与存储程序计算机(1945)
John von Neumann的1945年关于EDVAC(Electronic Discrete Variable Automatic Computer)的报告描述了我们现在称之为von Neumann架构的东西:一台计算机,具有单一的数据和指令内存存储、中央处理单元和输入/输出机制。这种架构——数据和程序共享相同的内存,由CPU顺序处理——仍然是今天使用的几乎每台计算机的基本设计。
von Neumann架构使软件变得实用。程序可以被存储、修改,甚至由其他程序生成。这是随后一切的技术前提条件:编译器、操作系统,最终是为现代机器翻译提供动力的神经网络框架。
IV. 机器翻译:第一个AI问题
Georgetown-IBM实验与冷战(1954)
1954年1月7日,Georgetown大学和IBM的研究人员演示了第一个公开的机器翻译系统。该系统使用250个词的词汇和六条语法规则将60个俄文句子翻译成英文。这些句子被精心选择在系统的能力范围内,但该演示引起了巨大的兴奋。
纽约时报报道说该实验预示了一个未来,其中"按钮式电子翻译器"将使世界上所有的科学文献瞬间可访问。然而,这种公开乐观掩盖了项目资金和目的的物质现实。Georgetown-IBM实验——以及早期机器翻译领域总体上——不是由对通用交流的乌托邦渴望驱动的。它由美国军事和情报机构(包括CIA和DARPA)资助,作为监视和拦截苏联科学和军事文本的紧迫冷战命令。
将语言视为"要破译的代码"(如Weaver所说)的观点与军事化监视有内在联系。研究人员预测机器翻译将在五年内成为已解决的问题。他们错了超过半个世纪。
ALPAC报告与第一个AI冬天(1966)
1966年,由美国政府召集的自动语言处理咨询委员会(ALPAC)发布了一份毁灭性的报告。在审查了十年的MT研究后,ALPAC得出结论,机器翻译比人工翻译更慢、更不准确、更昂贵,并建议将资金重新定向到计算语言学的基础研究。
ALPAC报告有效地杀死了美国十多年来的MT研究资金。这是第一个"AI冬天"——一个将重复的模式:夸大的承诺、适度的结果、失望、资金崩溃。
但该报告也包含了一个更深层的见解。机器翻译失败了,部分原因是语言比任何人预期的都要难。基于规则的方法——编写明确的语法规则来解析和生成句子——对简单情况有效,但在真实文本上灾难性地崩溃。语言太模糊、太依赖于上下文、太活跃,脆弱的规则无法捕捉。
基于规则和转移的MT(1970年代–1980年代)
研究在1970年代和1980年代继续进行,更加安静。像SYSTRAN这样的系统(为欧盟的早期翻译服务提供动力)使用大型手工制作的字典和转移规则在语言对之间进行映射。这些系统可以为受限领域产生有用的粗略翻译,但它们需要为每个语言对进行巨大的工程工作,并且它们很少优雅地处理不受限制的文本。
根本问题很清楚:语言不是密码。你不能通过在字典中查找词汇并根据语法规则重新排列它们来翻译,因为意义取决于上下文、世界知识、说话者的意图、整个对话的历史。中间语言方法——通过抽象的、与语言无关的表示进行翻译——在理论上是优雅的,但在实践上是不可能的。没有人能定义中间语言。
统计革命(1990年代)
突破不是来自更好的规则,而是来自更好的数据。在1980年代后期和1990年代初期,IBM的研究人员(Peter Brown、Stephen Della Pietra、Vincent Della Pietra和Robert Mercer)开发了一系列机器翻译的统计模型——著名的IBM Models 1到5。
关键见解是Weaver的旧想法,最终被严格化:翻译作为解码。给定一个外文句子f,找到最大化P(e|f)的英文句子e。根据贝叶斯定理,这等价于最大化P(f|e) × P(e)——一个翻译模型(给定这个英文句子,这个外文句子有多可能?)乘以一个语言模型(这个英文句子本身有多可能?)。
IBM模型从大型平行语料库——以两种语言存在的文本集合(如加拿大议会Hansards,以英文和法文出版)——学习这些概率。不需要手工制作的规则。系统通过观察数百万个人工翻译的例子学会了翻译。
统计MT对具有丰富平行数据的语言对工作得戏剧性地更好。它还引入了一个关键的基础设施:BLEU分数(Papineni等,2002),一个通过将机器输出与人工参考翻译进行比较来自动评估翻译质量的指标。BLEU使得可以定量测量进度并运行大规模实验。
但统计MT有一个致命的假设烘焙在其中:它需要平行语料库。对于世界上的主要语言对——英法、英中、英西——平行数据是丰富的。对于世界上7,000种语言中的绝大多数,它根本不存在。
神经革命:Seq2Seq、Attention、Transformers(2014–2017)
下一个转变来自深度学习。2014年,Ilya Sutskever、Oriol Vinyals和Quoc Le演示了用于MT的序列到序列(seq2seq)模型:可以读取一种语言的整个句子并生成另一种语言的翻译的神经网络,无需任何明确的对齐或短语表。
2015年,Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio引入了注意力机制——允许解码器在生成翻译的每个词时"回顾"源句子的不同部分。这大大改善了长句子的性能。
2017年,Vaswani等人在Google发表了"Attention Is All You Need",引入了Transformer架构。Transformer完全放弃了递归,使用自注意力并行处理整个序列。它比以前的任何东西训练速度更快、更容易扩展,并产生了更好的翻译。
Transformers直接导致了2020年代的大型语言模型(LLMs):GPT、BERT、PaLM、LLaMA及其后代。这些模型,在互联网上的大量文本上训练,可以以显著的流畅性在数百个语言对之间翻译。
但"显著的流畅性"与"可靠的准确性"不同。对于世界上的低资源语言,情况远比看起来要糟糕。
V. 另一段历史:语言、权力与文化灭绝
前四部分讲述了思想的故事——语法学家、数学家和工程师朝着机器翻译建设。但有另一段历史,平行运行,解释了为什么最需要翻译技术的语言恰恰是技术不存在的语言。这不是关于数据稀缺作为中立事实的故事。这是关于蓄意摧毁的故事。
Plains Cree没有机器翻译支持的原因不是主要因为Cree对计算机来说是一种困难的语言(尽管它是)。这是因为超过一个世纪,加拿大和美国政府运行了系统的计划来从儿童的嘴里根除土著语言。"数据稀缺"使低资源MT如此困难,在很大程度上是文化灭绝的下游后果。任何诚实的关于为什么这些语言需要技术的解释必须与为什么它们首先被带到灭绝边缘相符。
接触前:一个语言的大陆
在欧洲接触前,北美的语言多样性是惊人的。在欧洲接触时,仅北美就拥有估计300到600种不同的语言,组织成数十个不相关的语言家族——比整个欧洲更多的遗传多样性。南美可能有1,500种或更多(Campbell,1997)。澳大利亚有超过250种语言。太平洋岛屿、撒哈拉以南非洲和东南亚大陆同样多样化。
这些不是"原始"或"简单"的语言。许多有记录以来结构最复杂的语言是土著的。Algonquian语言(包括Cree、Ojibwe和Blackfoot)的多综合形态学、纳瓦霍语的声调系统、Quechua的精心证据性标记、Khoisan语言的点击辅音——这些代表了人类语言可以是什么的全部范围。它们编码了关于亲属关系、生态、法律、精神性和历史的复杂知识系统。每种语言都是一个图书馆——一个社区理解和组织世界的方式的不可替代的记录。
Edward Sapir清楚地认识到这一点。1921年写道,"当涉及到语言形式时,柏拉图与马其顿猪倌同行,孔子与阿萨姆的猎头野蛮人同行。"土著人民的语言并不较少。它们是不同的——它们的差异包含没有其他语言拥有的知识。
语言死亡的机制
语言不会因自然原因而死亡。当传播条件被中断时,它们会死亡——当儿童停止学习它们时,当说话者因使用它们而受到惩罚时,当社会和经济激励转变,使说主导语言成为生存条件时。
这种中断可能逐渐发生,通过经济和人口压力。但在整个殖民世界,它绝大多数是蓄意的。土著语言的压制不是殖民化的副作用。这是一个明确的政策目标。
加拿大:住宅学校系统(1831–1996)
在加拿大,印第安住宅学校系统运营了160多年,明确目标是消除土著语言和文化。估计150,000名第一民族、梅蒂斯和因纽特儿童被从他们的家庭和社区中移除,并被安置在政府资助、教会运营的寄宿学校。
中央政策由印第安事务副总监Duncan Campbell Scott在1920年以令人寒栗的清晰度阐述:"我想摆脱印第安人问题...我们的目标是继续,直到加拿大没有一个印第安人没有被吸收到政治体中,没有印第安人问题,没有印第安人部门。"
机制是语言。儿童被禁止说他们的母语。因说土著语言而受到的惩罚从殴打到单独监禁到将针推过他们的舌头。儿童到达时说Cree、Ojibwe、Inuktitut、Dene、Haida或数十种其他语言中的任何一种。他们被惩罚直到他们停止。
加拿大真相与和解委员会(2015)记录了这种攻击的系统性质。其最终报告得出结论,住宅学校系统构成了文化灭绝——对允许一个群体继续作为一个群体的结构和实践的摧毁。语言是主要目标。没有语言,仪式被中断,口头历史被打破,亲属系统变得无法理解,代际知识传播停止。
加拿大最后一所联邦运营的住宅学校在1996年关闭。许多是其语言最后流利使用者的长者今天是住宅学校幸存者。他们的流利性不仅仅是语言资源。这是一种抵抗行为。
美国:印第安寄宿学校(1860年代–1960年代)
美国运营了一个平行系统。Carlisle印第安工业学校的创始人Captain Richard Henry Pratt在1879年创造了定义该时代的短语:"杀死印第安人,拯救这个人。"超过350所政府资助的寄宿学校在37个州运营,政策几乎与加拿大相同。土著儿童被禁止说他们的语言,被迫采用英文名字,并受到系统的文化抹杀。
美国内政部2022年的一份报告确定了37个州超过400所联邦印第安寄宿学校,记录了该系统中至少500名儿童的死亡——该报告承认这个数字几乎肯定是一个显著的低估。调查发现该系统的设计不仅是为了教育,而是为了"通过强制将印第安儿童从他们的家庭和社区中迁移来文化同化他们"。
语言后果是灾难性的。在成为美国领土的大约300种土著语言中,超过一半现在已灭绝。在幸存的语言中,大多数有少于1,000名流利使用者,许多少于10名。濒危语言项目将大多数幸存的美洲土著语言分类为"严重"或"极度"濒危。
澳大利亚:被盗的一代(1910–1970)
在澳大利亚,1910年至1970年间的政府政策强制从他们的家庭中移除土著和托雷斯海峡岛民儿童。这些儿童——被称为被盗的一代——被安置在传教团、保留地和白人寄养家庭中。明确的目标是同化:在几代人内繁殖出土著身份。
土著语言在传教团和政府机构中被压制。说他们语言的儿童受到惩罚。《Bringing Them Home》报告(1997),由澳大利亚人权委员会制作,记录了这些移除的系统性质及其对语言、文化和家庭的毁灭性影响。
在欧洲接触时估计的250种土著澳大利亚语言中,今天只有少于20种被传播给儿童(Marmion等,2014)。超过100种完全灭绝。剩余的语言主要通过年长使用者与语言学家和社区组织合作的努力在与时间的竞赛中幸存。
斯堪的纳维亚:萨米语言
土著语言的压制不限于南半球的定居殖民地国家。在挪威、瑞典和芬兰,萨米儿童从19世纪中期到1960年代受到寄宿学校系统(internatskoler)的约束。萨米语言在学校被禁止;儿童因说它们而受到惩罚。挪威的"挪威化"(fornorskingspolitikk)政策明确旨在消除萨米语言并用挪威语替换它。
在九种幸存的萨米语言中,几种有少于500名使用者。Ume Sámi有大约20名。Pite Sámi少于30名。这些语言在一定程度上因为从1970年代开始的复兴计划而幸存,包括建立萨米语言学校和媒体——对某些方言来说及时到达的计划,对其他方言来说太晚了。
Aotearoa新西兰:Te Reo Māori
毛利语言(te reo Māori)在20世纪中期之前是Aotearoa的多数语言。从1860年代开始的英国殖民地教育政策逐步边缘化了学校中的te reo。到1970年代,少于20%的毛利人是流利使用者,该语言面临在一代人内灭绝的风险。
毛利人的反应是世界上最早和最成功的语言复兴运动之一。Kōhanga reo(语言巢),为学前儿童建立,1982年建立,从出生起将婴幼儿沉浸在te reo中。Kura kaupapa Māori(毛利语言中等学校)随之而来。这些计划,加上1987年的毛利语言法(使te reo成为官方语言),稳定了该语言——尽管流利使用者仍然构成毛利人口的少数。
新西兰还制作了土著数据治理最重要的框架之一:Te Mana Raraunga,毛利数据主权网络。这个框架声称毛利数据——包括语言数据——是taonga(宝藏),受到kaitiakitanga(监护)的权利和责任的约束。它直接为土著数据治理的CARE原则的发展提供了信息,是champollion中数据主权机制的基础参考。
模式:语言作为殖民权力的目标
地理和文化细节不同,但模式非常一致。在加拿大、美国、澳大利亚、斯堪的纳维亚和新西兰——以及许多其他地方,从台湾到西伯利亚到安第斯高地——殖民地和后殖民地国家将土著语言确定为同化的障碍,并针对它们进行消除。工具在各地相似:从家庭中移除儿童,禁止使用土著语言,惩罚违规,并奖励采用殖民地语言。
这不是历史脚注。加拿大最后一所住宅学校在1996年关闭。美国最后一所印第安寄宿学校在1960年代关闭。许多幸存这些系统的人仍然活着。创伤是代际的。语言伤害是持续的:在寄宿学校时代失去一代使用者的语言现在正在失去他们最后的流利长者。
从文化灭绝到"数据稀缺"
这段历史与机器翻译的技术问题直接相关。当计算机科学家将一种语言描述为"低资源"时,他们通常意味着:有很少的数字文本、很少的平行语料库、很少的字典和很少的注释数据集。框架是中立的,仿佛数据稀缺是自然行为,像沙漠中很少下雨。
它不是。土著语言的"数据稀缺"是语言压制政策的下游后果。被禁止在学校中的语言产生了更少的书面文本。其使用者因说它们而受到惩罚的语言发展了更少的制度用途。失去一代传播的语言产生了更少的双语使用者,他们可以创建平行语料库。
从文化灭绝到数据稀缺的管道是直接的:
- 压制 → 儿童因说语言而受到惩罚
- 中断的传播 → 更少的儿童学习该语言
- 减少的使用者基础 → 更少的成年人在日常生活中使用它
- 减少的制度使用 → 更少的书面文件、更少的数字文本
- 数据稀缺 → ML模型没有东西可以训练
- 没有MT支持 → 该语言对技术不可见
- 加速衰退 → 技术强化了政策开始的边缘化
这条管道意味着任何与土著语言合作的技术项目,无论是否承认,都继承了政治和道德背景。一个将Cree语言数据视为要被模型摄入的原始材料的机器翻译系统,无论多么无意,都在继续始于住宅学校的提取性动态。数据是通过暴力变得稀缺的。创建现有数据的使用者这样做是在巨大的困难中。任何使用该数据而不受社区有意义控制的系统都在加重原始伤害。
科学和西方意识形态的共谋
至关重要的是要认识到科学和技术不是这个殖民项目的无辜旁观者;他们是积极的参与者。寻求对世界进行分类、量化和标准化的"启蒙"意识形态经常仅将土著人民及其语言视为研究对象或"抢救人类学"的好奇心。这种提取性实践将知识锁定在西方大学中,同时对摧毁这些社区的政治机器几乎没有做任何事情。
这个项目与Tuskegee梅毒研究或提取性语言人类学形成鲜明对比,后者将BIPOC人民视为实验对象或原始数据的被动提供者。我们不在这里对土著人民进行实验、提取他们的知识或对他们强加西方文化单一意识形态。我们的目标是促进他们自己的知识方式和他们自己的价值标准。我们提供基础设施;语言社区构建测试集、定义指标并维持买入。没有他们的买入,这一切都不起作用。
为什么这段历史塑造我们的设计
这就是为什么champollion的治理模式不是一个特性——它是基础。项目中的每个主要设计决定都是对上述历史的直接回应。目标是数据主权:支持社区完全按照自己的条款维持、复兴和治理他们的活语言。
为什么测试数据被加密并由社区信托持有。 因为土著语言数据已经被提取、发布和利用了超过一个世纪,没有同意。传教士语言学,如Summer Institute of Linguistics(SIL)的努力,历史上垄断了土著平行语料库,采用提取性、同化主义框架。此外,与许多现代NLP项目不同,这些项目严重依赖翻译圣经作为低资源语言的主要平行语料库,我们明确不使用翻译圣经作为语料库。由社区治理组织持有密钥的加密测试集是一种技术机制,使在架构上不可能重复提取性模式。
为什么我们使用沙箱执行而不是开放测试集。 因为一旦语言数据被公开发布,社区永久失去对它的控制。传统的ML基准发布他们的测试集——任何人都可以下载它们、训练它们或将它们用于任何目的。这种现代AI数据抓取代表了一种新形式的"数据殖民主义"和"数字围圈"。对于语言几乎被武力根除的社区,失去对其剩余语言资源的控制不是一个小小的不便。这是历史领土剥夺的直接延续。沙箱执行确保社区的数据永远不会离开他们的基础设施。
为什么方法所有权转移到社区。 因为"帮助"土著社区的历史,绝大多数是关于局外人构建关于土著人民的东西,而不是为或与他们一起。学术论文被发表,赠款被收集,职业生涯被推进——社区什么都没有。所有权转移机制确保当ML工程师为Plains Cree构建工作翻译方法时,Plains Cree社区拥有该方法。工程师保留信用和归属。社区保留资产。
为什么收入模式向社区发送90%。 因为语言复兴是昂贵的,做最艰苦工作的社区——教学的长者、送孩子去沉浸式学校的父母、运行语言巢的活动人士——长期资金不足。此外,我们使用的非常AI基础设施(例如数据中心、矿物开采、用水)对全球土著土地造成了不成比例的物质代价。如果Cree翻译API产生收入,该收入的90%应该资助Cree语言计划。技术应该是为社区服务的工具,而不是从他们那里提取价值的机制。
为什么我们说"OCAP®-forward"而不是"OCAP®-compliant"。 OCAP®原则(所有权、控制、访问、拥有)由第一民族信息治理中心专门为第一民族背景开发。其他土著数据治理框架——CARE(集体利益、控制权、责任、伦理)、Te Mana Raraunga(毛利数据主权)和FAIR原则——从不同的文化和法律立场解决类似的问题。我们不声称完全实现OCAP®;该决定属于第一民族社区。我们说我们的设计是OCAP®-forward:它的构建方式使社区可以行使对其数据和从中衍生的技术的所有权、控制、访问和拥有。架构使主权成为可能。是否实现主权由社区决定。
为什么平台对方法而不是模型进行基准测试。 因为土著语言社区不应该依赖任何单一公司的模型。"方法"的开放架构意味着解决方案甚至不必是昂贵的、物质密集的LLM。它可以是在传统计算硬件上运行的高效、社区托管的基于规则的系统。如果Cree的最佳翻译方法今天使用Google的Gemini,社区应该能够在不重建所有东西的情况下明天切换到开源或确定性替代方案。方法级基准测试确保社区的资产是一个配方,而不是依赖。
为什么社区必须现在构建这个基础设施。 利用AI同时批评其物质提取的悖论通过一个严酷的战略现实得到解决:如果这个问题不是由社区按照他们自己的主权条款解决的,它将不可避免地被Big Tech(Google、Meta、OpenAI)按照提取性条款"解决"。即使一个大型公司最终为给定的土著语言构建翻译模型,社区需要自己的独立、沙箱基准测试基础设施来验证何时和是否他们实际上根据社区标准成功了——并确保社区获得该成功的价值。
这不是政治与技术相结合。这是由理解历史的人设计的技术。
VI. 当前时刻:6,800种语言被遗留
问题的规模
在地球上大约7,000种活语言中,少于200种有任何机器翻译支持。剩余的6,800+种对技术不可见,不是因为它们不那么值得,而是因为主导现代MT的统计和神经方法从根本上是数据饥渴的。他们需要数百万个平行句子来学习。对于世界上大多数语言,这些句子不存在。
受影响最严重的语言恰恰是最濒危的语言:土著语言、少数民族语言、书面记录有限的口头传统。这些是使用者通常是年长者、社区很小、政治权力最小的语言。它们是最需要技术支持以保护和复兴的语言——它们是现有技术最无用的语言。
多综合挑战
问题不仅仅是数据稀缺。世界上许多最濒危的语言是多综合的——它们具有非凡复杂的形态系统,从根本上打破了标准NLP的假设。
考虑Plains Cree(nêhiyawêwin),一种在加拿大草原上讲的Algonquian语言。单个Cree动词可以编码英语会在整个子句中传播的信息:主语、宾语、时态、体、证据性、情态和各种其他语法类别,都通过前缀、后缀和内部修改系统打包成单个词。
这为标准MT方法创造了几个问题:
-
标记化失败。 为分析型语言(如英语)设计的BPE(字节对编码)等子词标记器会将多综合词粉碎成无意义的片段。形态结构在模型看到它之前被摧毁。BPE不是中立的;它代表了一种纯粹的经验主义、表面级别的认识论,从根本上与多综合语言固有的深层、基于规则的形态层级相冲突。这是一种主动拆除结构形态的架构偏见。
-
组合爆炸。 多综合语言可能对单个动词根有数百万个可能的词形。没有训练语料库,无论多大,都能包含其中的一小部分。神经模型无法泛化到看不见的形式。
-
幻觉。 大型语言模型,当被要求翻译成多综合语言时,经常生成形态上无效的形式——没有本地使用者会产生的词。该模型从有限数据中学习了统计模式,但对语言的形态规则没有理解。
有限状态转换器:桥梁
然而,有一种技术确实很好地处理形态复杂性:有限状态转换器(FST)。FST是一种形式计算设备,通过一系列状态转换在输入字符串和输出字符串之间进行映射。对于形态分析,FST可以将表面词形映射到其基础形态结构(反之亦然),处理语言形态学的完整组合复杂性。
FST是波你尼重写规则的直接后代。它们是Chomsky的Type 3(正则)语法的计算形式。它们是形式语言学和计算之间联系的活体现。
在将FST与LLM配对时,champollion执行了一个关键的哲学综合:它调和了理性主义结构传统(规则)与经验主义统计范式(概率),以抵消现代AI的数据饥渴、多数主义偏见。
对于多综合语言,FST可以提供神经模型无法提供的东西:确定性验证。给定一个词形,FST可以明确地说它是否是语言中的有效形式——不是概率性的,不是"这看起来是对的",而是是或否。这是回答困扰低资源语言神经MT的核心查询的答案:你如何在没有人工干预的情况下验证生成的词是真实的?
技术答案是:你使用形式语法。你使用波你尼二十五个世纪前发明的工具,在Turing和Chomsky使其严格的计算形式中编码。
然而,我们必须认识到这种确定性权力带有自己的风险。对口头、流动的语言强制执行"是"或"否"验证可能会冒着施加刚性标准语言意识形态的风险。当FST规定什么是"正确的"时,它可能无意中重述它被设计来逃避的非常殖民地规范性——平坦化方言变异、惩罚代码转换并对多样化社区强加单一、规范化的语法。因为FST仅代表一个形式正确性的指标,它们的刚性经验主义必须被调和。这正是为什么社区必须握笔。社区设置标准、构建规则并定义机器接受为有效的东西,工程FST为口头流动性和地区方言开辟空间。形式语法不是计算机科学家传下来的通用真理;它是由使用者本身操作的基础设施。
champollion:线索汇聚的地方
这是champollion项目进入故事的地方。它坐在我们追踪的所有线索的确切汇聚点:
- 从波你尼:语言可以由形式、生成规则描述的原则。
- 从Schleicher和Sapir:世界上的语言是多样的、结构化的,通常是濒危的理解。
- 从住宅学校及其后果:理解"数据稀缺"不是中立的技术事实,而是蓄意语言压制的后果——任何接触这些语言的技术都必须以主权为基础构建的理解。
- 从Chomsky:将语言学连接到计算的语法层级的形式。
- 从Shannon:理解通信、噪声和信号的数学框架。
- 从Turing和von Neumann:可以执行任何可计算函数的通用机器。
- 从Weaver和IBM模型:翻译可以被视为统计问题的见解。
- 从Transformer革命:强大的神经模型,可以翻译——但仅当他们有足够的数据时。
- 从FST传统:可以处理神经模型失败的形态复杂性的形式工具。
- 从OCAP®、CARE和Te Mana Raraunga:确保技术为社区服务而不是从他们那里提取的治理框架。
champollion是一个平台,旨在将机器学习社区的竞争能量指向市场已经放弃的语言。它提供了一个基准测试基础设施,任何人都可以提交翻译方法——神经、基于规则、混合或新颖——并根据严格的标准进行评估。至关重要的是,它使用基于FST的验证来确保生成的形式在形态上是有效的,并依赖本地使用者验证作为最终的地面真实。
该平台体现了这段历史明确的几个原则:
没有单一方法是充分的。 MT的历史是范式转变的历史——从规则到统计到神经网络。每个新范式解决了前一个无法解决的问题,但每个也有盲点。对于低资源多综合语言,答案几乎肯定是混合的:由形式正确性约束的神经流畅性。
数据主权不是可选的——它是对历史伤害的结构性回应。 如第V部分详细记录的那样,土著语言不仅仅是"数据稀缺"的意外。他们被蓄意政策变得稀缺。项目的OCAP®-forward设计——确保语言数据保持在土著社区的控制下,解密密钥由社区信托持有,算法所有权转移给使用者——不是事后想法。这是对几个世纪提取性实践的直接回应,从住宅学校时代的局外人文件到现代数据集抓取。架构使在技术上不可能重复这些模式。
长期游戏是复兴。 翻译是证明场地,但真正的奖品是通过教学进行语言复兴。为机器翻译系统构建的形式语法和形态模型恰恰是机器辅助语言学习所需的技术基础。如果我们可以为翻译系统构建验证Cree动词形式的FST,我们也可以使用该FST来帮助学生学习Cree动词的共轭。
为什么是这个时刻
我们生活在语言技术历史中的独特时刻。几个因素已经汇聚:
-
开源工具已成熟。 FST工具包(如HFST和Foma)、神经MT框架(如OpenNMT和Fairseq)和评估基础设施现在可以由一个小团队以最小成本组装。
-
社区组织正在加速。 土著语言社区在使用技术和主张数据主权方面越来越复杂。像First Voices倡议、加拿大土著语言技术项目和许多社区主导的努力这样的组织正在构建技术本身无法提供的人类基础设施。
-
AI能力已达到阈值。 大型语言模型,虽然对低资源MT本身不充分,可以作为混合系统中的强大组件——生成候选翻译,然后由形式方法验证和约束。
-
成本已经崩溃。 1954年需要政府实验室或2000年需要大公司的东西现在可以用云计算信用和开源软件完成。瓶颈不再是技术或金钱。这是意愿。
问题不是技术是否可以构建。它可以。问题是它是否会被正确地构建——具有正确的治理、正确的激励和对它旨在服务的社区的正确尊重。
这就是这个项目存在的问题。
参考文献
- Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
- Boole, G. (1854). An Investigation of the Laws of Thought. Walton and Maberly.
- Bringing Them Home: Report of the National Inquiry into the Separation of Aboriginal and Torres Strait Islander Children from Their Families. (1997). Australian Human Rights Commission.
- Brown, P., Della Pietra, S., Della Pietra, V., & Mercer, R. (1993). The Mathematics of Statistical Machine Translation. Computational Linguistics, 19(2).
- Campbell, L. (1997). American Indian Languages: The Historical Linguistics of Native America. Oxford University Press.
- Champollion, J.-F. (1822). Lettre à M. Dacier relative à l'alphabet des hiéroglyphes phonétiques.
- Chomsky, N. (1957). Syntactic Structures. Mouton.
- Chomsky, N. (1956). Three Models for the Description of Language. IRE Transactions on Information Theory, 2(3).
- Huet, G. (2006). Lexicon-directed Segmentation and Tagging of Sanskrit. In Proceedings of the XIIth World Sanskrit Conference.
- Jones, W. (1786). The Third Anniversary Discourse. Asiatick Researches, 1.
- Kiparsky, P. (1993). Paninian Linguistics. In R. E. Asher (Ed.), The Encyclopedia of Language and Linguistics. Pergamon.
- Kircher, A. (1663). Polygraphia Nova et Universalis.
- Leibniz, G. W. (1703). Explication de l'Arithmétique Binaire. Mémoires de l'Académie Royale des Sciences.
- Llull, R. (c. 1305). Ars Magna.
- Lovelace, A. (1843). Notes by the Translator (Note G). In L. F. Menabrea, Sketch of the Analytical Engine Invented by Charles Babbage.
- Marmion, D., Obata, K., & Troy, J. (2014). Community, Identity, Wellbeing: The Report of the Second National Indigenous Languages Survey. Australian Institute of Aboriginal and Torres Strait Islander Studies.
- National Research Council. (1966). Language and Machines: Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences.
- Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. ACL.
- Saussure, F. de. (1916). Cours de linguistique générale (C. Bally & A. Sechehaye, Eds.). Payot.
- Schleicher, A. (1861). Compendium der vergleichenden Grammatik der indogermanischen Sprachen.
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3).
- Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1).
- Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. NeurIPS.
- Truth and Reconciliation Commission of Canada. (2015). Honouring the Truth, Reconciling for the Future: Summary of the Final Report. Government of Canada.
- Turing, A. M. (1936). On Computable Numbers, with an Application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 2(42).
- Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236).
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
- von Neumann, J. (1945). First Draft of a Report on the EDVAC. University of Pennsylvania.
- Weaver, W. (1949). Translation. Memorandum, Rockefeller Foundation.
- Wilkins, J. (1668). An Essay towards a Real Character, and a Philosophical Language. Royal Society.
- U.S. Department of the Interior. (2022). Federal Indian Boarding School Initiative Investigative Report. Bureau of Indian Affairs.
本文档是champollion项目文档的一部分。它在与项目本身相同的许可证下发布。