パーニニからトランスフォーマーへ:言語、計算、そして未完の翻訳という営み
champollionの背景にある思想の歴史
「ロシア語の論文を見るとき、私はこう思います。『これは本当は英語で書かれているのだが、何か奇妙な記号で符号化されている。今からそれを解読しよう』と。」 — ウォーレン・ウィーバー、1949年
はじめに
人間の言語間を翻訳できる機械という夢は、コンピュータそのものよりも古い歴史を持ちます。ある意味で、それは人工知能における最初の問題です——チェスを指すプログラムよりも、エキスパートシステムよりも、ニューラルネットワークよりも古い問題です。この欲求はしばしばバベルの塔のようなヨーロッパの寓話を通じて語られますが、そうした語り方は、言語的多様性を罰や解決すべき問題として位置づけ、重要な現実を見落としています。接触以前の先住民社会は、チヌーク・ジャーゴンのような洗練された交易言語や、平原インディアン手話のような手話体系を通じて、驚くほどの言語的多様性を長きにわたって乗り越えてきており、普遍的な均質化を求めることはありませんでした。
しかし、この瞬間へと至る歴史——大規模言語モデルがそれなりのフランス語を翻訳できる一方で、クリー語ではナンセンスな幻覚を生成してしまう世界への歴史——は一本の直線ではありません。それは少なくとも四つの異なる糸が編み合わさった組み紐です。言語の形式的研究、計算の数学的理論、機械学習における統計革命、そして最も技術を必要とする言語がまさにその技術の存在しない言語である理由を説明する、より暗い歴史——この四つです。四番目の糸とは、植民地的な言語抑圧と文化的ジェノサイドの歴史、すなわちヨーロッパ列強が支配を確立したあらゆる大陸において先住民の言語を意図的かつ組織的に破壊した歴史です。その歴史を理解しなければ、技術的な問題はデータ不足という偶然の産物に見えてしまいます。しかしそれは偶然ではありません。
本稿はこれら四つの糸を、その起源から現在の収束点まで追います。認めるべきことですが、これはやや「ホイッグ史観」的な叙述です——まるで常にここへ向かっていたかのように物語を語っています。もちろん歴史は自分がどこへ向かっているかを知りませんでした。しかし糸は実在し、つながりは本物であり、それらを理解することは、なぜchampollionのようなプロジェクトが存在するのか、なぜそのように構築されているのか、そしてなぜ今それが重要なのかを理解するために不可欠です。
I. 万物の文法:パーニニからチョムスキーへ
最初の形式文法(紀元前4世紀頃)
この物語はヨーロッパの大学ではなく、古代インドのパーニニという学者から始まります。紀元前4世紀頃、パーニニはアシュターディヤーイーを著しました——約4,000の規則からなるサンスクリット語の文法書です。これは緩やかな教育的意味での文法ではありませんでした。それは生成文法でした。原理的には、その言語のあらゆる有効な発話を生成できる、有限の規則の集合です。
パーニニの体系は、私たちが今日形式的書き換え規則と呼ぶもの——変数、再帰、順序付けられた適用——を用いていました。言語学者ポール・キパースキーは、アシュターディヤーイーは「これまでに書かれたいかなる言語の生成文法の中でも最も完全なもの」であると論じています(Kiparsky, 1993)。コンピュータ科学者ジェラール・ユエは、パーニニの規則が有限状態トランスデューサとしてモデル化できることを示しました——二十五世紀後に多合成語的言語の形態論的分析の中心となる、まさにその計算形式主義です。
パーニニは自分がコンピュータ科学をしているとは知りませんでした。しかし彼はそうしていたのです。
ロゼッタストーンと比較言語学の誕生(1799年)
記録された歴史のほとんどにおいて、言語の研究は主に自分自身の言語の研究でした——あるいはせいぜい、典礼目的のための神聖語や古典語の研究でした。現代言語学を生み出した知的革命は、一枚の石から始まりました。
1799年にナポレオンの兵士によって発見されたロゼッタストーンには、同じ布告が三つの文字で刻まれていました。エジプトのヒエログリフ、デモティック文字、そして古代ギリシャ語です。1822年のジャン=フランソワ・シャンポリオンによるヒエログリフの解読は、考古学的な勝利以上のものでした。それは後に基礎となる原理を示しました。言語は互いを通じて理解できるということです。翻訳は単なる実用的な技術ではなく、科学的探究の方法でもありました。
ウィリアム・ジョーンズとインド・ヨーロッパ語族仮説(1786年)
シャンポリオンよりも前に、イギリスの文献学者サー・ウィリアム・ジョーンズが1786年にベンガルのアジア協会で有名な講演を行い、サンスクリット語がギリシャ語やラテン語と「動詞の語根においても文法の形式においても、偶然によって生じたとは到底考えられないほど強い親縁性」を持つと観察しました。ジョーンズは三者すべてが「おそらくもはや存在しない」共通の祖先から派生したと提唱しました。
これが歴史的・比較言語学の誕生でした。言語は孤立した静的な実体ではなく、家族の一員であり——共通の祖先から受け継がれ、時間によって形成され、変化の規則的な法則に従うものであることを確立しました。それはある意味で、ダーウィンより数十年前の進化論でした。
アウグスト・シュライヒャーの言語樹(1861年)
ダーウィンとの関連を明示したのは、ドイツの言語学者アウグスト・シュライヒャーでした。種の起源のわずか二年後の1861年、シュライヒャーはインド・ヨーロッパ語族のシュタムバウム(家系図)モデルを発表しました。彼の図は生物学の系統樹とほとんど区別がつきません。言語は種と同様に、分岐し、分化し、時に絶滅しました。
シュライヒャーの樹は単純化でしたが(言語は接触、借用、クレオール化を通じて収束もします)、モデルは非常に生産的であることが証明されました。言語的多様性はランダムなノイズではなく、体系的な分析に適した構造化されたデータであるという原理を確立しました。そして暗黙のうちに、私たちのプロジェクトの中心に今もある問いを提起しました。枯れかけている枝に何が起きるのか、と。
フェルディナン・ド・ソシュールと言語の構造(1916年)
次の革命はフェルディナン・ド・ソシュールからもたらされました。彼の一般言語学講義(学生のノートから1916年に死後出版)は構造言語学を確立しました。ソシュールはラング(言語の抽象的体系)とパロール(実際の発話)を明確に区別しました。彼は言語記号は恣意的であると論じました——「木」という言葉は木と本質的なつながりを持たない——そして意味は体系内の差異から生じるのであり、いかなる積極的な内容からでもないと主張しました。
ソシュールの重要な図——シニフィエ(記号内容、概念)とシニフィアン(記号表現、音のイメージ)に分けられた楕円が、両者の不可分な関係を示す矢印で結ばれたもの——は人文学において最も多く複製された図の一つとなりました。それは言語が体系の体系であり、各要素がその価値を他のすべてとの関係から引き出すという原理を確立しました。
これは翻訳に対して深い含意を持ちました。意味が関係的かつ体系的であるならば、翻訳は単語を入れ替える問題ではありません。言語の全体的な構造を理解することが必要です。二つの言語は世界を根本的に異なる方法で切り分けているかもしれない——この洞察は後にエドワード・サピアとベンジャミン・リー・ウォーフによって発展させられ(時に誇張されながら)ました。
サピア、ブルームフィールド、そして先住民言語の研究
北米では、20世紀初頭に異なる言語フィールドワークの伝統が生まれました。エドワード・サピアとレナード・ブルームフィールドは先住民言語を広く研究しました——サピアはナバホ語、ヌートカ語、その他多くの言語を、ブルームフィールドはメノミニー語やその他のアルゴンキン語族の言語を研究しました。彼らはインド・ヨーロッパ語族のいかなるものとも根本的に異なる言語構造に出会いました。
特にサピアは、いくつかの軸に沿って言語を分類する類型論的枠組みを発展させました。その中でも重要なのは、分析的言語(英語のように、単語が短く意味が語順によって運ばれる傾向がある)と多合成語的言語(クリー語のように、英語では文全体で表現するものを一語で表現できる)の区別です。クリー語の動詞形式一つに、主語、目的語、時制、アスペクト、証拠性、そして複数の修飾要素が形態論的に複雑な一語に組み込まれることがあります。
この研究は私たちのプロジェクトにとって中心的な二つの事実を確立しました。第一に、世界の言語はヨーロッパ中心的なモデルが示唆するよりもはるかに構造的に多様であること。第二に、これらの言語の多くはすでに危機に瀕していたこと。しかし初期の構造言語学者たちは、この複雑さを記録しながらも、しばしば「救済人類学」に参加していました——先住民の人々を単に西洋の学術的キャリアを築くための「情報提供者」として扱う、収奪的な学術モデルです。このアプローチは言語をその認識論的な根から切り離し、言語を生きた関係的な体系としてではなく、身体から切り離された抽出可能なデータとして扱う道を開きました。
チョムスキー革命(1957年)
1957年、MITの28歳の言語学者ノーム・チョムスキーは統語構造論を出版しました。この薄い本は分野に爆弾のように炸裂しました。チョムスキーは言語学の目標は言語の生成文法を発見することであるべきだと論じました——その言語の文法的な文をすべて、かつそれだけを生成できる有限の規則の集合です。
さらに挑発的に、チョムスキーはチョムスキー階層を提唱しました。計算能力によって形式文法を分類したものです。階層は四つのレベルを持ちます。
- タイプ3(正規):有限オートマトンによって認識される。単純なパターン。
- タイプ2(文脈自由):プッシュダウンオートマトンによって認識される。入れ子の括弧のような再帰的構造。
- タイプ1(文脈依存):線形有界オートマトンによって認識される。より複雑な依存関係。
- タイプ0(再帰的可算):チューリングマシンによって認識される。計算可能なあらゆるもの。
チョムスキーは自然言語には少なくとも文脈自由文法が必要であり、おそらくそれ以上が必要だと論じました。これは言語学と計算の数学的理論の間の直接的な橋渡しでした。アラン・チューリングが計算の限界について推論するために発展させた形式的ツールが、今や人間の言語に適用できるようになりました。
チョムスキーはまた普遍文法の考えを提唱しました——言語能力は生得的であり、すべての人間の言語は深い構造的特性を共有しており、表層形式の多様性は根底にある統一性を隠しているというものです。これは今も論争的ですが(多くの類型論者や機能主義者は異議を唱えています)、チョムスキーが導入した形式的ツール——句構造規則、変形文法、階層そのもの——は計算言語学の基礎となりました。
II. 普遍翻訳の夢
ラモン・リュルの思考機械(1305年)
思考を機械化するという夢——そしてそれとともに機械翻訳の夢——は驚くほど古いものです。13世紀のカタルーニャの神秘主義者ラモン・リュルはアルス・マグナを設計しました。基本的な概念が刻まれた回転する同心円盤の体系で、その組み合わせがあらゆる可能な真理を生成することを意図していました。リュルの円盤はある意味で最初の組み合わせ論的論理機械でした。ライプニッツは後にリュルを霊感の源として挙げています。
アタナシウス・キルヒャーとポリグラフィア・ノヴァ(1663年)
偉大なイエズス会の博学者アタナシウス・キルヒャーは1663年にポリグラフィア・ノヴァ・エト・ウニヴェルサリスを出版しました——言語の壁を越えたコミュニケーションを可能にすることを意図した「普遍的文字」の体系です。キルヒャーの体系は概念に番号を割り当て、適切な表を使って任意の言語に解読できるようにしました。それは本質的に中間言語——意味の言語に依存しない表現——でした。
体系はうまく機能しませんでした。しかし考え方は持続しました。任意の二つの言語の間には共通の概念空間が存在し、翻訳はそれを通じてマッピングする問題であるという考えです。この中間言語仮説は単なる欠陥のある科学実験ではありませんでした。それは異なる存在論をマッピングできない、植民地的支配の認識論的延長でした。哲学者W・V・O・クワインは後に翻訳の不確定性(1960年)という概念でこの失敗を形式化し、根本的な翻訳は本質的に不確定であると論じました。根本的に異なる言語体系間の普遍的で文脈に依存しないマッピングは、単なる工学的なハードルではなく、哲学的な不可能性です。
ジョン・ウィルキンスと哲学的言語(1668年)
キルヒャーのわずか五年後、イギリスの自然哲学者ジョン・ウィルキンスは実在文字と哲学的言語に向けての試論を出版しました——その構造が現実の構造を完全に反映する言語を作ろうとする試みです。すべての概念は大きな分類体系に分類され、その名前は分類体系における位置を符号化するものでした。
ウィルキンスのプロジェクトは失敗しました(現実は整然とした分類に抵抗しました)が、重要なことを予示していました。言語は設計できるという考え、単語と意味の関係を体系的かつ明示的にできるという考えです。これは深い意味で、計算言語学者が存在論や知識グラフを構築するときにしていることです。
ライプニッツと普遍記号法
微積分を独立に発明し機械式計算機を設計したゴットフリート・ヴィルヘルム・ライプニッツは、すべての人間の知識を表現できる普遍的な形式言語である普遍記号法と、その言語で推論できる機械である推論計算機を夢見ていました。「もし論争が生じたとしても」とライプニッツは書きました。「二人の哲学者の間に、二人の会計士の間以上の論争の必要はないでしょう。手に鉛筆を取り、石板に向かって座り、互いに言えばよいのです。計算しましょう、と。」
ライプニッツはまた二進法算術を発明しました——何世紀も後にデジタルコンピュータの言語となる数体系です。彼の1703年の論文二進法算術の解説は、いかなる数も0と1だけを使って表現できることを示しました。彼はこれを神の創造(無から有)の反映と見ていましたが、それはすべてのデジタル計算の基礎となることが証明されました。
ウォーレン・ウィーバーの覚書(1949年)
機械翻訳の現代的な時代は一つの覚書から始まります。1949年7月、アメリカの数学者で科学行政官のウォーレン・ウィーバーはノーバート・ウィーナーに覚書を書き、新しい電子コンピュータが翻訳に応用できるかもしれないと提案しました。彼の覚書には本稿の冒頭に引用した注目すべき一節が含まれていました。ロシア語のテキストは「本当は英語で書かれているのだが……何か奇妙な記号で符号化されている」という考えです。
ウィーバーの比喩は戦時中の暗号解析から引き出されたものでした——翻訳は根本的に解読の問題であるという考えです。これは単なる比喩ではありませんでした。敵の暗号を解読するために開発されたのと同じ統計的・情報理論的ツールが、翻訳の問題に適用できるかもしれないとウィーバーは示唆しました。
覚書は非常に楽観的でしたが、研究プログラムを立ち上げました。五年以内に最初の機械翻訳のデモンストレーションが行われることになります。
III. 思考の機械:計算と情報
ジョージ・ブールと論理の代数(1854年)
1854年、ジョージ・ブールは思考の法則の研究を出版しました——論理的推論を代数的操作に還元した著作です。ブールは論理の命題が代数と同じ規則を使って操作できることを示しました。ANDは乗算に、ORは加算に、NOTは補数に対応します。
ブール代数は当時は数学的な好奇心のように見えました。それはその後に作られたすべてのデジタル回路の動作原理となりました。
チャールズ・バベッジとエイダ・ラブレス(1837年〜1843年)
チャールズ・バベッジは解析機関を設計しました(ただし完成させることはありませんでした)——機械式の蒸気動力による汎用コンピュータです。彼の以前の差分機関(専用の計算機)とは異なり、解析機関はメモリ(「ストア」)、処理装置(「ミル」)、条件分岐、ループを持っていました。原理的にはチューリング完全でした。
エイダ・ラブレスは機関の説明から作業し、広く最初の公開されたコンピュータプログラムと見なされるものを含む詳細なノートを書きました。ベルヌーイ数を計算するアルゴリズムです(注G、1843年)。しかしラブレスの最も深い貢献は概念的なものでした。彼女は機関が数だけでなく記号を操作できることを見抜きました。「解析機関は代数的なパターンを織り成します」と彼女は書きました。「ちょうどジャカード織機が花や葉を織り成すように。」その含意——計算は言語を含む形式的な構造を持つあらゆる領域に適用できる——は先見の明がありました。
アラン・チューリングと万能機械(1936年)
1936年、アラン・チューリングは「計算可能数について、決定問題への応用とともに」を発表しました——計算を定義し、その限界を証明し、(抽象的な形で)現代のコンピュータを発明した論文です。
チューリングの重要な洞察は万能機械でした。テープに符号化された適切な命令が与えられれば、他のいかなる機械も模倣できる単一の機械です。これはハードウェアとソフトウェアの間に本質的な違いはなく、機械とプログラムの間にも違いはないことを確立しました。適切にプログラムされた単一のデバイスが、計算可能なものはすべて計算できます。
チューリングの研究はまた計算の限界(停止問題)を確立し、機械知能に関する後の探究の基礎を築きました。彼の1950年の論文「計算機械と知性」は有名なチューリングテストを提唱し、機械知能の問題を明示的に言語の観点から組み立てました。会話を通じて人間と区別できなければ、機械は知的であるというものです。
クロード・シャノンと情報理論(1948年)
1948年、クロード・シャノンは「通信の数学的理論」をベル・システム・テクニカル・ジャーナルに発表しました——情報理論の分野を創設した論文です。シャノンは通信をシステムとしてモデル化できることを示しました。情報源がメッセージを生成し、送信機がそれを信号に符号化し、(ノイズの影響を受ける)チャネルを通過し、受信機がそれをメッセージに復号して宛先に届けます。
シャノンの重要な貢献はエントロピーの概念でした——メッセージの不確実性または情報内容の尺度です。彼は、与えられたノイズレベルを持つチャネルに対して、情報を確実に伝送できる最大レート(チャネル容量)が存在し、そのレートは十分に巧みな符号化によって達成できることを証明しました。
翻訳との関連は深いものです。シャノン自身が1951年の論文で情報理論を使って英語の統計的構造を分析しました。英語のテキストは高度に冗長であることを示しました——母語話者は文字の列が与えられると、次の文字を高い精度で予測できます。この冗長性はコミュニケーションをノイズに対して堅牢にしますが、言語の情報内容は生の記号数が示唆するよりもはるかに低いことも意味します。
ウォーレン・ウィーバーはすぐにつながりを見抜きました。翻訳が解読であり、言語の統計的構造がモデル化できるならば、翻訳は情報理論的な問題です。この洞察が実を結ぶまでには数十年かかりましたが、実を結んだとき、それは分野を変革しました。
フォン・ノイマンと記憶プログラム方式コンピュータ(1945年)
ジョン・フォン・ノイマンの1945年のEDVAC(電子式離散変数自動計算機)に関する報告書は、今日フォン・ノイマン・アーキテクチャと呼ばれるものを記述しました。データと命令の両方を格納する単一のメモリ、中央処理装置、入出力機構を持つコンピュータです。このアーキテクチャ——データとプログラムが同じメモリを共有し、CPUによって順次処理される——は今日使用されているほぼすべてのコンピュータの基本設計であり続けています。
フォン・ノイマン・アーキテクチャはソフトウェアを実用的にしました。プログラムを保存し、修正し、他のプログラムによって生成することさえできるようになりました。これはその後に続くすべてのものの技術的前提条件でした。コンパイラ、オペレーティングシステム、そして最終的には現代の機械翻訳を支えるニューラルネットワークフレームワークです。
IV. 機械翻訳:最初のAI問題
ジョージタウン・IBM実験と冷戦(1954年)
1954年1月7日、ジョージタウン大学とIBMの研究者たちが最初の公開機械翻訳システムをデモンストレーションしました。システムは250語の語彙と六つの文法規則を使って60のロシア語文を英語に翻訳しました。文はシステムの能力の範囲内に収まるよう慎重に選ばれていましたが、デモンストレーションは大きな興奮を生み出しました。
ニューヨーク・タイムズは、この実験が「ボタン一つで動く電子翻訳機」によって世界中の科学文献が即座にアクセス可能になる未来を予示すると報じました。しかし、この公的な楽観主義はプロジェクトの資金調達と目的の物質的現実を覆い隠していました。ジョージタウン・IBM実験——そして初期の機械翻訳分野全般——は、普遍的なコミュニケーションへのユートピア的な欲求によって駆動されていたのではありませんでした。それはソビエトの科学・軍事テキストを監視・傍受するための緊急の冷戦上の命令として、米国の軍事・情報機関(CIAやDARPAを含む)によって資金提供されていました。
言語を「解読すべき暗号」(ウィーバーが表現したように)と見る見方は、軍事化された監視と本質的に結びついていました。研究者たちは機械翻訳が五年以内に解決された問題になると予測しました。彼らは半世紀以上間違っていました。
ALPACレポートと最初のAIの冬(1966年)
1966年、米国政府によって召集された自動言語処理諮問委員会(ALPAC)は壊滅的な報告書を発表しました。十年間のMT研究を検討した後、ALPACは機械翻訳は人間の翻訳よりも遅く、精度が低く、費用がかかると結論付け、資金を計算言語学の基礎研究に振り向けることを勧告しました。
ALPACレポートは米国における機械翻訳研究の資金を十年以上にわたって事実上停止させました。それは最初の「AIの冬」でした——大げさな約束、控えめな結果、幻滅、資金崩壊というパターンが繰り返されることになります。
しかしレポートにはより深い洞察も含まれていました。機械翻訳は部分的に、言語が誰もが予想していたよりも難しかったために失敗していました。ルールベースのアプローチ——文を解析して生成するための明示的な文法規則を書くこと——は単純なケースでは機能しましたが、実際のテキストでは壊滅的に崩壊しました。言語はあまりにも曖昧で、文脈に依存し、あまりにも生きていて、脆いルールでは捉えられませんでした。
ルールベースおよび転送ベースのMT(1970年代〜1980年代)
研究は1970年代と1980年代を通じて、より静かに続きました。SYSTRAN(欧州委員会の初期の翻訳サービスを支えた)のようなシステムは、言語ペア間でマッピングするために大規模な手作りの辞書と転送規則を使用しました。これらのシステムは制限されたドメインに対して有用な粗い翻訳を生成できましたが、各言語ペアに対して膨大なエンジニアリング努力を必要とし、制限のないテキストを優雅に処理することはほとんどありませんでした。
根本的な問題は明らかでした。言語は暗号ではありません。辞書で単語を調べて文法規則に従って並べ替えることで翻訳することはできません。なぜなら意味は文脈、世界の知識、話者の意図、会話の全体的な歴史に依存するからです。中間言語アプローチ——抽象的な言語に依存しない表現を通じて翻訳する——は理論的には優雅でしたが、実際には不可能でした。誰も中間言語を定義できませんでした。
統計革命(1990年代)
突破口はより良いルールからではなく、より良いデータからもたらされました。1980年代後半から1990年代初頭にかけて、IBMの研究者たち(ピーター・ブラウン、スティーブン・デラ・ピエトラ、ヴィンセント・デラ・ピエトラ、ロバート・マーサー)が機械翻訳のための一連の統計モデルを開発しました——有名なIBMモデル1から5です。
重要な洞察はウィーバーの古い考えをついに厳密にしたものでした。解読としての翻訳です。外国語の文fが与えられたとき、P(e|f)を最大化する英語の文eを見つけます。ベイズの定理により、これはP(f|e) × P(e)を最大化することと等価です——翻訳モデル(この英語の文が与えられたとき、この外国語の文はどれほど可能性があるか?)と言語モデル(この英語の文はそれ自体でどれほど可能性があるか?)の積です。
IBMモデルはこれらの確率を大規模な対訳コーパスから学習しました——両方の言語で存在するテキストのコレクション(英語とフランス語の両方で出版されたカナダ議会のハンサードなど)です。手作りのルールは必要ありませんでした。システムは人間の翻訳の何百万もの例を観察することで翻訳を学習しました。
統計的MTは豊富な対訳データを持つ言語に対してルールベースのMTよりも劇的に優れた性能を発揮しました。また重要なインフラも導入しました。BLEUスコア(Papineni et al., 2002)です。機械出力を人間の参照翻訳と比較することで翻訳品質を自動的に評価するメトリクスです。BLEUにより、進捗を定量的に測定し、大規模な実験を実行することが可能になりました。
しかし統計的MTには根本的な仮定が組み込まれていました。対訳コーパスが必要だということです。世界の主要な言語ペア——英仏、英中、英西——では対訳データが豊富でした。世界の7,000の言語の大多数では、それは単純に存在しませんでした。
ニューラル革命:Seq2Seq、アテンション、トランスフォーマー(2014年〜2017年)
次の変革はディープラーニングとともにやってきました。2014年、イリヤ・サツケバー、オリオル・ヴィニャルス、クオック・レーは機械翻訳のためのシーケンス・ツー・シーケンス(seq2seq)モデルを実証しました。明示的なアライメントやフレーズテーブルなしに、ある言語で文全体を読み込み、別の言語で翻訳を生成できるニューラルネットワークです。
2015年、ジミトリ・バダナウ、キュンヒョン・チョ、ヨシュア・ベンジオはアテンション機構を導入しました——デコーダが翻訳の各単語を生成しながら、ソース文の異なる部分を「振り返る」ことを可能にするものです。これにより長い文の性能が劇的に向上しました。
そして2017年、GoogleのVaswaniらは「Attention Is All You Need」を発表し、トランスフォーマーアーキテクチャを導入しました。トランスフォーマーは再帰を完全に廃し、自己アテンションを使ってシーケンス全体を並列処理します。訓練が速く、スケールが容易で、それ以前のいかなるものよりも優れた翻訳を生成しました。
トランスフォーマーは2020年代の大規模言語モデル(LLM)に直接つながりました。GPT、BERT、PaLM、LLaMA、そしてその後継です。インターネットからの膨大な量のテキストで訓練されたこれらのモデルは、数百の言語ペア間で驚くほど流暢に翻訳できます。
しかし「驚くほど流暢」は「信頼できる精度」と同じではありません。そして世界の低リソース言語にとって、状況は見た目よりもはるかに悪いのです。
V. もう一つの歴史:言語、権力、文化的ジェノサイド
前の四つのセクションは思想の物語を語っています——文法学者、数学者、エンジニアが機械翻訳に向けて構築してきた物語です。しかし、並行して走るもう一つの歴史があります。最も翻訳技術を必要とする言語がまさにその技術の存在しない言語である理由を説明する歴史です。これはデータ不足を中立的な事実として語る物語ではありません。意図的な破壊の物語です。
プレーンズ・クリー語に機械翻訳サポートがない主な理由は、クリー語がコンピュータにとって難しい言語だからではありません(難しいのは確かですが)。それは一世紀以上にわたって、カナダと米国の政府が先住民の言語を子供たちの口から根絶するための組織的なプログラムを実施してきたからです。低リソースのMTをこれほど困難にしている「データ不足」は、大部分において文化的ジェノサイドの下流の結果です。これらの言語がなぜ絶滅の瀬戸際に追い込まれたのかを正直に説明するには、なぜ技術が必要なのかを語る際にその事実と向き合わなければなりません。
接触以前:言語の大陸
接触以前のアメリカ大陸の言語的多様性は驚異的でした。ヨーロッパとの接触時、北米だけで推定300から600の異なる言語が話されており、数十の無関係な語族に組織されていました——ヨーロッパ全体よりも多くの遺伝的多様性です。南米には1,500以上あったかもしれません(Campbell, 1997)。オーストラリアには250以上の言語がありました。太平洋諸島、サハラ以南のアフリカ、東南アジア本土も同様に多様でした。
これらは「原始的」または「単純な」言語ではありませんでした。これまでに記録された最も構造的に複雑な言語の多くは先住民のものです。アルゴンキン語族(クリー語、オジブウェー語、ブラックフット語を含む)の多合成語的形態論、ナバホ語の声調体系、ケチュア語の精巧な証拠性標示、コイサン語族のクリック子音——これらは人間の言語が何になれるかの全範囲を表しています。それらは親族関係、生態学、法律、精神性、歴史についての洗練された知識体系を符号化しています。各言語は図書館です——一つのコミュニティが世界を理解し組織する方法の、かけがえない記録です。
エドワード・サピアはこれを明確に認識していました。1921年に書いて、彼は「言語形式に関しては、プラトンはマケドニアの豚飼いと歩み、孔子はアッサムの首狩り族の野蛮人と歩む」と観察しました。先住民の言語は劣っていませんでした。それらは異なっていました——そしてその違いには他のいかなる言語も持たない知識が含まれていました。
言語死のメカニズム
言語は自然死しません。言語は伝達の条件が乱されたときに死にます——子供たちが言語を学ぶのをやめるとき、話者が使用を罰せられるとき、支配的な言語を話すことが生存の条件となるほど社会的・経済的インセンティブが変化するときです。
この混乱は経済的・人口統計的圧力を通じて徐々に起こることがあります。しかし植民地世界全体で、それは圧倒的に意図的でした。先住民言語の抑圧は植民地化の副作用ではありませんでした。それは明示された政策目標でした。
カナダ:寄宿学校制度(1831年〜1996年)
カナダでは、インディアン寄宿学校制度が160年以上にわたって運営され、先住民の言語と文化を排除するという明示的な目標を持っていました。推定15万人のファースト・ネーションズ、メティス、イヌイットの子供たちが家族やコミュニティから引き離され、政府が資金を提供し教会が運営する寄宿学校に入れられました。
中心的な政策は、1920年にインディアン問題副長官ダンカン・キャンベル・スコットによって冷酷なほど明確に表現されました。「私はインディアン問題を解決したい……私たちの目標は、カナダにインディアンが一人も残らず、すべてが政治体に吸収され、インディアン問題もインディアン省もなくなるまで続けることです。」
メカニズムは言語でした。子供たちは母語を話すことを禁じられました。先住民言語を話した場合の罰は、殴打から独房監禁、舌に針を刺すことまで及びました。子供たちはクリー語、オジブウェー語、イヌクティトゥット語、デネ語、ハイダ語、その他数十の言語を話して到着しました。彼らは話すのをやめるまで罰せられました。
カナダ真実和解委員会(2015年)はこの攻撃の組織的な性質を記録しました。最終報告書は、寄宿学校制度が文化的ジェノサイドを構成すると結論付けました——グループがグループとして存続することを可能にする構造と実践の破壊です。言語が主要な標的でした。言語なしには、儀式は乱され、口承の歴史は断ち切られ、親族体系は理解不能となり、知識の世代間伝達は停止します。
カナダで連邦政府が運営する最後の寄宿学校は1996年に閉鎖されました。今日、自分たちの言語の最後の流暢な話者であるエルダーの多くは寄宿学校のサバイバーです。彼らの流暢さは単なる言語的資源ではありません。それは抵抗の行為です。
米国:インディアン寄宿学校(1860年代〜1960年代)
米国は並行したシステムを運営していました。1879年にカーライル・インディアン・インダストリアル・スクールを設立したリチャード・ヘンリー・プラット大尉は、その時代を定義するフレーズを作りました。「インディアンを殺し、人間を救え。」350以上の政府資金による寄宿学校が米国全土で運営され、カナダとほぼ同一の政策を持っていました。先住民の子供たちは言語を話すことを禁じられ、英語名を採用することを強制され、組織的な文化的消去にさらされました。
2022年の米国内務省の報告書は37州の400以上の連邦インディアン寄宿学校を特定し、システム内で少なくとも500人の子供の死亡を記録しました——報告書はこの数字がほぼ確実に大幅な過小評価であることを認めました。調査は、システムが単に教育するためだけでなく、「インディアンの子供たちを家族やコミュニティから強制的に引き離すことによって文化的にインディアンの子供たちを同化させる」ために設計されていたことを発見しました。
言語的な結果は壊滅的でした。米国となった領土で話されていた約300の先住民言語のうち、半数以上が今や絶滅しています。生き残っているものの多くは流暢な話者が1,000人未満であり、多くは10人未満です。絶滅危惧言語プロジェクトは、生き残っているネイティブ・アメリカンの言語の大多数を「深刻に」または「危機的に」絶滅危惧と分類しています。
オーストラリア:盗まれた世代(1910年〜1970年)
オーストラリアでは、1910年から1970年の間の政府政策がアボリジナルおよびトレス海峡諸島民の子供たちを家族から強制的に引き離しました。盗まれた世代として知られるこれらの子供たちは、ミッション、保護区、白人の里親家族に置かれました。明示的な目的は同化でした。数世代以内にアボリジナルのアイデンティティを消し去ることです。
アボリジナルの言語はミッションや政府機関で抑圧されました。自分たちの言語を話した子供たちは罰せられました。オーストラリア人権委員会が作成した「彼らを家に連れ帰る」報告書(1997年)は、これらの引き離しの組織的な性質と言語、文化、家族への壊滅的な影響を記録しました。
ヨーロッパとの接触時に話されていた推定250のアボリジナル・オーストラリア言語のうち、今日子供たちに伝達されているのは20未満です(Marmion et al., 2014)。100以上が完全に絶滅しています。残りの言語は主に、時間との競争の中で言語学者やコミュニティ組織と協力する高齢の話者の努力によって生き残っています。
スカンジナビア:サーミ語
先住民言語の抑圧は南半球の入植者植民地国家に限られていませんでした。ノルウェー、スウェーデン、フィンランドでは、サーミの子供たちが19世紀半ばから1960年代まで寄宿学校(internatskoler)に入れられました。サーミ語は学校で禁止され、子供たちは話すと罰せられました。ノルウェーの「ノルウェー化」(fornorskingspolitikk)政策はサーミ語を排除してノルウェー語に置き換えることを明示的に目指していました。
九つの現存するサーミ語のうち、いくつかは話者が500人未満です。ウメ・サーミ語は約20人です。ピテ・サーミ語は30人未満です。言語は部分的に1970年代に始まった復興プログラムによって生き残っています。サーミ語学校やメディアの設立を含むこれらのプログラムは、一部の方言には間に合い、他の方言には間に合いませんでした。
アオテアロア・ニュージーランド:テ・レオ・マオリ
マオリ語(テ・レオ・マオリ)は20世紀半ばまでアオテアロアの多数派言語でした。1860年代から始まったイギリスの植民地教育政策は、学校でテ・レオを徐々に周縁化しました。1970年代までに、マオリの流暢な話者は20%未満となり、言語は一世代以内に絶滅の危機に瀕していました。
マオリの対応は世界で最も早く最も成功した言語復興運動の一つでした。1982年に設立された就学前の子供のためのコハンガ・レオ(言語の巣)は、乳幼児を生まれたときからテ・レオに浸しました。クラ・カウパパ・マオリ(マオリ語媒体学校)が続きました。これらのプログラムは、マオリ語法(1987年、テ・レオを公用語にした)とともに、言語を安定させました——ただし流暢な話者は依然としてマオリ人口の少数派を構成しています。
ニュージーランドはまた先住民データガバナンスの最も重要な枠組みの一つを生み出しました。テ・マナ・ララウンガ、マオリ・データ主権ネットワークです。この枠組みは、マオリのデータ——言語データを含む——はカイティアキタンガ(管理)の権利と責任に従うタオンガ(宝)であると主張します。それはIBMデータガバナンスのCARE原則の発展に直接影響を与え、champollionのデータ主権メカニズムの基礎的な参照となっています。
パターン:植民地権力の標的としての言語
地理的・文化的な詳細は異なりますが、パターンは驚くほど一貫しています。カナダ、米国、オーストラリア、スカンジナビア、ニュージーランド全体で——そして台湾からシベリア、アンデス高地まで他の多くの場所で——植民地および後植民地国家は先住民言語を同化の障害として特定し、排除の標的にしました。ツールはどこでも似ていました。子供たちを家族から引き離し、先住民言語の使用を禁じ、違反を罰し、植民地言語の採用を奨励しました。
これは歴史的な脚注ではありませんでした。カナダの最後の寄宿学校は1996年に閉鎖されました。米国の最後のインディアン寄宿学校は1960年代に閉鎖されました。これらのシステムを生き延びた人々の多くはまだ生きています。トラウマは世代を超えています。そして言語的な損害は続いています。寄宿学校時代に話者の世代を失った言語は今、最後の流暢なエルダーを失いつつあります。
文化的ジェノサイドから「データ不足」へ
この歴史は機械翻訳の技術的問題に直接関連しています。コンピュータ科学者が言語を「低リソース」と表現するとき、彼らは通常こう意味します。デジタルテキストが少なく、対訳コーパスが少なく、辞書が少なく、注釈付きデータセットが少ない、と。この枠組みは中立的です。まるでデータ不足が雨の少ない砂漠のような自然の行為であるかのように。
そうではありません。先住民言語の「データ不足」は言語抑圧政策の下流の結果です。学校で禁じられた言語は書かれたテキストをより少なく生み出しました。話者が話すことを罰せられた言語は制度的な使用をより少なく発展させました。伝達の世代を失った言語は対訳コーパスを作成できるバイリンガル話者をより少なく生み出しました。
文化的ジェノサイドからデータ不足へのパイプラインは直接的です。
- 抑圧 → 言語を話すことで罰せられる子供たち
- 伝達の混乱 → 言語を学ぶ子供が減少
- 話者基盤の縮小 → 日常生活で使用する大人が減少
- 制度的使用の減少 → 書かれた文書が減少、デジタルテキストが減少
- データ不足 → MLモデルに訓練するものがない
- MTサポートなし → 言語がテクノロジーに対して不可視になる
- 加速する衰退 → テクノロジーが政策が始めた周縁化を強化する
このパイプラインは、先住民言語を扱うあらゆる技術プロジェクトが、それを認めるかどうかにかかわらず、政治的・道徳的文脈を引き継ぐことを意味します。クリー語のデータをモデルに取り込む原材料として扱う機械翻訳システムは、どれほど意図せずとも、寄宿学校から始まった収奪的なダイナミクスを継続しています。データは暴力によって希少にされました。存在するデータを作成した話者たちは、巨大な困難に抗してそうしました。コミュニティの意味のある管理なしにそのデータを使用するシステムは、元の害を複合させています。
科学と西洋イデオロギーの共犯性
科学と技術がこの植民地プロジェクトの無実の傍観者ではなかったことを認識することが重要です。それらは積極的な参加者でした。世界を分類し、定量化し、標準化しようとした「啓蒙主義」のイデオロギーは、しばしば先住民の人々とその言語を単なる研究の対象や「救済人類学」の好奇心として扱いました。この収奪的な実践は知識を西洋の大学に閉じ込め、それらのコミュニティを破壊していた政治的機械を止めるためにほとんど何もしませんでした。
このプロジェクトは、BIPOC(黒人、先住民、有色人種)の人々を実験対象や生データの受動的な提供者として扱うタスキギー梅毒研究や収奪的な言語人類学のような方法論とは対照的な立場に立っています。私たちは先住民の人々を実験したり、彼らの知識を抽出したり、西洋の文化的に単一主義的なイデオロギーを押し付けたりするためにここにいるのではありません。私たちの目的は、彼ら自身の知り方と彼ら自身の価値基準を促進することです。私たちはインフラを提供します。言語コミュニティがテストセットを構築し、メトリクスを定義し、賛同を維持します。彼らの賛同なしには、これは何も機能しません。
この歴史が私たちの設計を形作る理由
これがchampollionのガバナンスモデルが単なる機能ではなく、基盤である理由です。プロジェクトのすべての主要な設計決定は、上述の歴史への直接的な応答です。目標はデータ主権です。コミュニティが完全に自分たちの条件で生きた言語を維持し、復興し、管理することを支援することです。
テストデータが暗号化されてコミュニティ・トラストによって保持される理由。 先住民の言語データは一世紀以上にわたって同意なしに抽出、出版、利用されてきたからです。夏期言語学研究所(SIL)のような宣教師言語学は、歴史的に収奪的・同化主義的な枠組みの下で先住民の対訳コーパスを独占してきました。さらに、低リソース言語の主要な対訳コーパスとして翻訳された聖書に大きく依存する多くの現代のNLPプロジェクトとは異なり、私たちは翻訳された聖書をコーパスとして明示的に使用しません。コミュニティのガバナンス組織のみが鍵を保持する暗号化されたテストセットは、収奪的なパターンを繰り返すことをアーキテクチャ的に不可能にする技術的メカニズムです。
オープンなテストセットの代わりにサンドボックス実行を使用する理由。 言語データが一度公開されると、コミュニティはそれに対する管理を永久に失うからです。従来のML ベンチマークはテストセットを公開します——誰でもダウンロードし、訓練し、あらゆる目的に使用できます。この現代のAIデータスクレイピングは「データ植民地主義」と「デジタル囲い込み」の新しい形を表しています。言語が力によってほぼ根絶されたコミュニティにとって、残りの言語資源に対する管理を失うことは些細な不便ではありません。それは歴史的な領土収奪の直接的な継続です。サンドボックス実行により、コミュニティのデータが彼らのインフラを離れることはありません。
メソッドの所有権がコミュニティに移転する理由。 先住民コミュニティを「支援する」歴史は、圧倒的に、部外者が先住民の人々についてではなく、先住民の人々のためにまたは先住民の人々と共にではなく物事を構築する歴史だからです。学術論文が発表され、助成金が集められ、キャリアが前進します——そしてコミュニティには何も残りません。所有権移転メカニズムにより、MLエンジニアがプレーンズ・クリー語のための機能する翻訳メソッドを構築したとき、プレーンズ・クリーのコミュニティがそのメソッドを所有します。エンジニアはクレジットと帰属を保持します。コミュニティは資産を保持します。
収益モデルが90%をコミュニティに送る理由。 言語復興は費用がかかり、最も困難な仕事をしているコミュニティ——教えているエルダー、子供たちをイマージョンスクールに送っている親、言語の巣を運営している活動家——は慢性的に資金不足だからです。さらに、私たちが使用するAIインフラ(データセンター、鉱物採掘、水の使用など)は世界中の先住民の土地に不均衡な物質的負担を課しています。クリー語翻訳APIが収益を生み出すならば、その収益の90%はクリー語プログラムに資金を提供すべきです。テクノロジーはコミュニティに奉仕するツールであるべきであり、コミュニティから価値を抽出するメカニズムであってはなりません。
「OCAP®準拠」ではなく「OCAP®フォワード」と言う理由。 OCAP®原則(所有権、管理、アクセス、所持)はファースト・ネーションズ情報ガバナンスセンターによってファースト・ネーションズの文脈のために特別に開発されたからです。他の先住民データガバナンス枠組み——CARE(集合的利益、管理する権限、責任、倫理)、テ・マナ・ララウンガ(マオリ・データ主権)、FAIR原則——は異なる文化的・法的立場から同様の懸念に対処しています。私たちはOCAP®を完全に実装すると主張しません。その決定はファースト・ネーションズのコミュニティに属します。私たちは設計がOCAP®フォワードであると言います。コミュニティがデータとそこから派生した技術の所有権、管理、アクセス、所持を行使できるように構築されています。アーキテクチャは主権を可能にします。それが主権を達成するかどうかはコミュニティが決めることです。
プラットフォームがモデルではなくメソッドをベンチマークする理由。 先住民言語コミュニティはいかなる単一企業のモデルにも依存すべきではないからです。「メソッド」のオープンなアーキテクチャは、解決策が費用のかかる物質的に重いLLMである必要さえないことを意味します。従来のコンピューティングハードウェアで動作する、高効率でコミュニティがホストするルールベースのシステムである可能性もあります。クリー語の最良の翻訳メソッドが今日GoogleのGeminiを使用しているとしても、コミュニティはすべてを再構築することなく明日オープンソースまたは決定論的な代替に切り替えられるべきです。メソッドレベルのベンチマークにより、コミュニティの資産が依存関係ではなくレシピであることが保証されます。
コミュニティが今すぐこのインフラを構築しなければならない理由。 AIを活用しながらその物質的抽出を批判するという逆説は、厳しい戦略的現実によって解決されます。この問題がコミュニティ自身の主権的な条件で解決されなければ、それは必然的にビッグテック(Google、Meta、OpenAI)によって収奪的な条件で「解決」されることになります。巨大企業が最終的に特定の先住民言語の翻訳モデルを構築したとしても、コミュニティはコミュニティの基準に従って彼らが実際に成功したかどうかを検証するための独自の独立したサンドボックスベンチマークインフラを必要とします——そしてコミュニティがその成功の価値を確保することを保証するために。
これは技術に後付けされた政治ではありません。歴史を理解している人々によって設計された技術です。
VI. 現在の瞬間:取り残された6,800の言語
問題の規模
今日地球上で話されている約7,000の生きた言語のうち、機械翻訳サポートがあるのは200未満です。残りの6,800以上はテクノロジーに対して不可視です——それらが価値が低いからではなく、現代のMTを支配する統計的・ニューラルアプローチが根本的にデータを大量に必要とするからです。それらは学習するために何百万もの対訳文を必要とします。世界の言語のほとんどにとって、それらの文は存在しません。
最も影響を受けている言語は、まさに最も絶滅危惧にある言語です。先住民言語、少数言語、書かれた記録が限られた口承の伝統。これらは話者がしばしば高齢で、コミュニティが小さく、政治的権力が最小限の言語です。それらは保存と復興のための技術的サポートを最も必要とする言語です——そして既存の技術が最も役に立たない言語です。
多合成語的な課題
問題は単にデータ不足の問題ではありません。世界で最も絶滅危惧にある言語の多くは多合成語的です——標準的なNLPの仮定を根本的に破る、並外れた複雑さの形態論的体系を持っています。
カナダの草原地帯で話されるアルゴンキン語族の言語、プレーンズ・クリー語(nêhiyawêwin)を考えてみましょう。クリー語の動詞一つが、英語では節全体に広がる情報を符号化できます。主語、目的語、時制、アスペクト、証拠性、様相、その他さまざまな文法カテゴリが、接頭辞、接尾辞、内部修飾のシステムを通じて一語に詰め込まれています。
これは標準的なMTアプローチにいくつかの問題を生み出します。
-
トークン化の失敗。 BPE(バイト対符号化)のようなサブワードトークナイザーは、英語のような分析的言語のために設計されており、多合成語的な単語を意味のない断片に粉砕します。形態論的構造はモデルがそれを見る前に破壊されます。BPEは中立ではありません。それは多合成語的言語に固有の深いルールベースの形態論的階層と根本的に衝突する、純粋に経験主義的な表面レベルの認識論を表しています。それは構造的形態論を積極的に解体するアーキテクチャ的バイアスです。
-
組み合わせ爆発。 多合成語的言語は単一の動詞語根に対して何百万もの可能な語形を持つかもしれません。いかなる訓練コーパスも、どれほど大きくても、それらのほんの一部しか含むことができません。ニューラルモデルは未見の形式に汎化する方法を持っていません。
-
幻覚。 大規模言語モデルは、多合成語的言語に翻訳するよう求められると、しばしば形態論的に無効な形式を生成します——母語話者が決して生成しないような単語です。モデルは限られたデータから統計的パターンを学習しましたが、言語の形態論的規則を理解していません。
有限状態トランスデューサ:橋渡し
しかし、形態論的複雑さをうまく処理する技術があります。有限状態トランスデューサ(FST)です。FSTは、一連の状態遷移を通じて入力文字列と出力文字列の間でマッピングする形式的な計算デバイスです。形態論的分析のために、FSTは表層の語形をその根底にある形態論的構造にマッピングでき(またその逆も)、言語の形態論の完全な組み合わせ的複雑さを処理します。
FSTはパーニニの書き換え規則の直接の子孫です。それらは計算形式でのチョムスキーのタイプ3(正規)文法です。それらは形式言語学と計算の間のつながりの生きた具現化です。
FSTをLLMと組み合わせることで、champollionは重要な哲学的統合を実行します。現代AIのデータを大量に必要とする多数派主義的バイアスに対抗するために、合理主義的な構造的伝統(規則)と経験主義的な統計的パラダイム(確率)を調和させます。
多合成語的言語にとって、FSTはニューラルモデルができないことを提供できます。決定論的検証です。語形が与えられると、FSTはそれが言語の有効な形式であるかどうかを確定的に言えます——確率的にではなく、「これは正しそうだ」ではなく、はいまたはいいえと。これは低リソース言語のニューラルMTを悩ます核心的な問いへの答えです。ループ内に人間なしで生成された単語が本物であることをどのように検証するか?
技術的な答えは、形式文法を使うことです。パーニニが二十五世紀前に発明し、チューリングとチョムスキーが厳密にした計算形式主義に符号化されたツールを使うことです。
しかし、この決定論的な力には独自のリスクが伴うことを認識しなければなりません。口承的で流動的な言語に「はい」または「いいえ」の検証を強制することは、それが回避しようとしていたまさに植民地的な規範性を再現するリスクがあります——方言的変異を平坦化し、コードスイッチングを罰し、多様なコミュニティに単一の正規化された文法を強制します。FSTは形式的な正確さの一つのメトリクスに過ぎないため、その硬直した経験主義は和らげられなければなりません。これがまさにコミュニティがペンを持たなければならない理由です。コミュニティが基準を設定し、規則を構築し、機械が有効として受け入れるものを定義し、口承の流動性と地域の方言のための空間を切り開くFSTを設計します。形式文法はコンピュータ科学者によって与えられた普遍的な真理ではありません。それは話者自身によって運営されるインフラです。
champollion:糸が収束する場所
これがchampollionプロジェクトが登場する場所です。それは私たちが追ってきたすべての糸の正確な収束点に位置しています。
- パーニニから:言語は形式的な生成規則によって記述できるという原理。
- シュライヒャーとサピアから:世界の言語は多様で、構造化されており、しばしば絶滅危惧にあるという理解。
- 寄宿学校とその余波から:「データ不足」は中立的な技術的事実ではなく、意図的な言語抑圧の結果であり——これらの言語に触れるあらゆる技術は主権を基盤として構築されなければならないという理解。
- チョムスキーから:言語学を計算に結びつける文法の形式的階層。
- シャノンから:コミュニケーション、ノイズ、信号を理解するための数学的枠組み。
- チューリングとフォン・ノイマンから:計算可能なあらゆる関数を実行できる万能機械。
- ウィーバーとIBMモデルから:翻訳を統計的問題として扱えるという洞察。
- トランスフォーマー革命から:翻訳できる強力なニューラルモデル——ただし十分なデータがある場合のみ。
- FST伝統から:ニューラルモデルが失敗する形態論的複雑さを処理できる形式的ツール。
- OCAP®、CARE、テ・マナ・ララウンガから:テクノロジーがコミュニティから抽出するのではなくコミュニティに奉仕することを保証するガバナンス枠組み。
champollionは、機械学習コミュニティの競争的エネルギーを市場が見捨てた言語に向けるために設計されたプラットフォームです。ニューラル、ルールベース、ハイブリッド、または新規を問わず、誰でも翻訳メソッドを提出し、厳格な基準に対して評価できるベンチマークインフラを提供します。重要なことに、FSTベースの検証を使用して生成された形式が形態論的に有効であることを保証し、最終的な真実として母語話者による検証に依存しています。
プラットフォームはこの歴史が明確にするいくつかの原則を体現しています。
単一のアプローチでは不十分です。 MTの歴史はパラダイムシフトの歴史です——ルールから統計へ、ニューラルネットワークへ。各新しいパラダイムは前のものができなかった問題を解決しましたが、それぞれにも盲点がありました。低リソースの多合成語的言語にとって、答えはほぼ確実にハイブリッドです。形式的な正確さによって制約されたニューラルな流暢さです。
データ主権はオプションではありません——それは歴史的な害への構造的な応答です。 セクションVが詳細に記録しているように、先住民言語は偶然に「データ不足」ではありません。それらは意図的な政策によって希少にされました。プロジェクトのOCAP®フォワード設計——言語データが先住民コミュニティの管理下に留まることを保証し、復号鍵がコミュニティ・トラストによって保持され、アルゴリズムの所有権が話者に移転する——は後付けではありません。それは部外者による寄宿学校時代の文書化から現代のデータセットスクレイピングまで、何世紀にもわたる収奪的な実践への直接的な応答です。アーキテクチャはこれらのパターンを繰り返すことを技術的に不可能にします。
長期的な目標は復興です。 翻訳は試験場ですが、本当の賞は教育を通じた言語復興です。機械翻訳のために構築された形式文法と形態論的モデルは、機械支援の言語学習に必要な技術的基盤でもあります。翻訳システムのためにクリー語の動詞形式を検証するFSTを構築できれば、そのFSTを使って学生がクリー語の動詞を活用することを学ぶのを助けることもできます。
なぜ今この瞬間なのか
私たちは言語技術の歴史において独自の瞬間に生きています。いくつかの要因が収束しています。
-
オープンソースツールが成熟しています。 FSTツールキット(HFSTやFomaなど)、ニューラルMTフレームワーク(OpenNMTやFairseqなど)、評価インフラは今や小さなチームが最小限のコストで組み立てられます。
-
コミュニティの組織化が加速しています。 先住民言語コミュニティはテクノロジーの使用とデータ主権の主張においてますます洗練されています。First Voicesイニシアティブ、カナダ先住民言語技術プロジェクト、その他多くのコミュニティ主導の取り組みのような組織が、テクノロジーだけでは提供できない人的インフラを構築しています。
-
AIの能力が閾値に達しました。 大規模言語モデルは、低リソースMTに単独では不十分ですが、ハイブリッドシステムの強力なコンポーネントとして機能できます——形式的な方法によって検証・制約される候補翻訳を生成します。
-
コストが崩壊しました。 1954年に政府の研究所を必要とし、2000年に大企業を必要としたものが、今やクラウドコンピューティングのクレジットとオープンソースソフトウェアで実現できます。ボトルネックはもはやテクノロジーでも資金でもありません。それは意志です。
問題は技術が構築できるかどうかではありません。できます。問題は、それが正しく構築されるかどうかです——適切なガバナンス、適切なインセンティブ、そして奉仕することを意図したコミュニティへの適切な敬意を持って。
それがこのプロジェクトが答えるために存在する問いです。
参考文献
- Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
- Boole, G. (1854). An Investigation of the Laws of Thought. Walton and Maberly.
- Bringing Them Home: Report of the National Inquiry into the Separation of Aboriginal and Torres Strait Islander Children from Their Families. (1997). Australian Human Rights Commission.
- Brown, P., Della Pietra, S., Della Pietra, V., & Mercer, R. (1993). The Mathematics of Statistical Machine Translation. Computational Linguistics, 19(2).
- Campbell, L. (1997). American Indian Languages: The Historical Linguistics of Native America. Oxford University Press.
- Champollion, J.-F. (1822). Lettre à M. Dacier relative à l'alphabet des hiéroglyphes phonétiques.
- Chomsky, N. (1957). Syntactic Structures. Mouton.
- Chomsky, N. (1956). Three Models for the Description of Language. IRE Transactions on Information Theory, 2(3).
- Huet, G. (2006). Lexicon-directed Segmentation and Tagging of Sanskrit. In Proceedings of the XIIth World Sanskrit Conference.
- Jones, W. (1786). The Third Anniversary Discourse. Asiatick Researches, 1.
- Kiparsky, P. (1993). Paninian Linguistics. In R. E. Asher (Ed.), The Encyclopedia of Language and Linguistics. Pergamon.
- Kircher, A. (1663). Polygraphia Nova et Universalis.
- Leibniz, G. W. (1703). Explication de l'Arithmétique Binaire. Mémoires de l'Académie Royale des Sciences.
- Llull, R. (c. 1305). Ars Magna.
- Lovelace, A. (1843). Notes by the Translator (Note G). In L. F. Menabrea, Sketch of the Analytical Engine Invented by Charles Babbage.
- Marmion, D., Obata, K., & Troy, J. (2014). Community, Identity, Wellbeing: The Report of the Second National Indigenous Languages Survey. Australian Institute of Aboriginal and Torres Strait Islander Studies.
- National Research Council. (1966). Language and Machines: Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences.
- Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. ACL.
- Saussure, F. de. (1916). Cours de linguistique générale (C. Bally & A. Sechehaye, Eds.). Payot.
- Schleicher, A. (1861). Compendium der vergleichenden Grammatik der indogermanischen Sprachen.
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3).
- Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1).
- Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. NeurIPS.
- Truth and Reconciliation Commission of Canada. (2015). Honouring the Truth, Reconciling for the Future: Summary of the Final Report. Government of Canada.
- Turing, A. M. (1936). On Computable Numbers, with an Application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 2(42).
- Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236).
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
- von Neumann, J. (1945). First Draft of a Report on the EDVAC. University of Pennsylvania.
- Weaver, W. (1949). Translation. Memorandum, Rockefeller Foundation.
- Wilkins, J. (1668). An Essay towards a Real Character, and a Philosophical Language. Royal Society.
- U.S. Department of the Interior. (2022). Federal Indian Boarding School Initiative Investigative Report. Bureau of Indian Affairs.
本ドキュメントはchampollionプロジェクトのドキュメントの一部です。プロジェクト本体と同じライセンスの下で公開されています。