翻訳は言語復興ではない
立場表明。 機械翻訳はテキストを言語間で変換します。言語復興は新たな話者を生み出します。この二つは異なる活動であり、成功の基準も異なります。リーダーボードのスコアがそれを変えることはありません。私たちはMTをコミュニティの目標に奉仕するインフラとして構築しています——世代間伝承の代替としてではありません。子どもは機械からではなく、人から言語を学びます。
2026年、ソフトウェアがあらゆる問題を解決できる——話者を失いつつある言語でさえも——という信念を持つことは容易です。私たちは、その信念がなぜ誤りなのか、そして翻訳技術が正直に何に貢献できるのかを明確にしたいと思います。
このページが存在するのは、このプロジェクトを批評するために招いたある言語学者が、次の論点を強く主張したからです。完璧な英語→クリー語翻訳システムがあったとしても、伝承の問題(子どもが家庭で言語を学ばないこと)、威信の問題(英語が経済的権力の言語であること)、教育の問題(イマージョンスクールと訓練を受けた教師の不足)は解決されない、と。それどころか、「コンピューターがクリー語を話せる」という幻想を生み出し、人による伝承の緊急性を薄めることで、状況を悪化させる可能性さえある、と。私たちはその批評の大部分を受け入れ、それを埋もれさせるのではなく、ここに回答を公開します。
言語復興が実際に必要とするもの
言語復興に関する研究文献は、一点において一致しています。言語は世代間で受け継がれるときに生き残る——親や祖父母、コミュニティが子どもに語りかけ、子どもが語り返しながら育つとき(Fishman 1991; Hinton & Hale 2001)。それ以外のすべて——学校、メディア、辞書、アプリ——はその伝承を支援するか、さもなければ何も支援しないかのどちらかです。
いかなる翻訳システムも、その交換に参加することはありません。英語の文書をプレーンズ・クリー語に変換するモデルは、話者を生み出しません。イマージョン教室に人員を配置することも、教師を育成することも、台所のテーブルで子どもと向き合うこともありません。私たちの取り組みが「言語を救う」と表現されることがあれば、その表現は誤りであり、私たちはそう明言します。
MTにできないこと
後で曖昧さが生じないよう、明確に述べます。
- 話者の代替はできません。 流暢な話者によるレビューを経ていない出力は、テキストではなく草稿です。私たちのスコアリング規則では、すべての自動スコアを代理指標として扱います。使用可能かどうかを確認できるのは、人によるレビューのみです。
- 第一言語を教えることはできません。 子どもは翻訳された文書からではなく、関係性とイマージョンを通じて言語を習得します。
- 有害な幻想を生み出す可能性があります。 ある言語を「話す」デモは、その言語が安全な状態にあるという印象を与えかねません。この威信に関するリスクは現実のものであり、私たちはそれを管理すべき話題としてではなく、コミュニティとともに検討すべき未解決の問いとして扱います。
- 何も決定することはできません。 ある言語に対して翻訳システムを構築すべきかどうか、またどこで使用してよいかは、コミュニティが判断することです——まったく導入しないという判断も含めて。その制御は所有権の移転およびデータ主権のアーキテクチャに組み込まれており、用途も含まれます。コミュニティは公式文書へのMT利用を認めながら、教室教材への利用を拒否することもあり得ます。
MTが正直にできること
以上を踏まえた上で、翻訳インフラが貢献できる具体的かつ限定的なことがあります——それぞれが、実際の仕事をすでに担っている人々に奉仕するものです。
1. 過負荷状態の翻訳者のスループット向上。 コミュニティの翻訳部門は、人間の翻訳者がゼロから作成できる量をはるかに超える、本来その言語で存在すべき文書に直面しています。機械による草稿は、仕事の内容を「すべてを翻訳する」から「レビューして修正する」へと変えます。管理された研究では、ポストエディットはゼロからの翻訳よりも大幅に速く、品質は維持または向上することが示されています(Plitt & Masselot 2010; Green, Heer & Manning 2013)。このワークフローの詳細はベンチマークから日常利用へで説明しています。留保事項として、これらの研究は高リソース言語ペアを対象としており、多合成語的言語に関する同等のエビデンスはまだありません。それを測定することが、このプロジェクトの目的の一つです。
2. 言語権のための実践的なレバレッジ。 先住民族の言語による行政サービスを受ける権利は、複数の法域で法律上認められています。しかし多くの場合、欠けているのは、官僚主義が要求するスピードで翻訳を生産する実践的な能力です。50ページの政策文書を数ヶ月ではなく数日でレビュー済み翻訳に変えられるコミュニティは、より強い交渉力を持ちます。技術が権利を生み出すのではありません。技術は、その権利を無視しにくくするのです。
3. 再利用可能な言語インフラ。 翻訳出力に実在する単語が含まれているか——幻覚された単語ではないか——を検証するために使用する形態素解析器(FST)は、各語形がなぜ有効であるかをエンコードしています。その同じ仕組みが、学習ツールの基盤となります。活用練習ツール、誤り訂正付きライティング支援、形態素エクスプローラーなどです。検証エンジンと教育エンジンは同一のアーティファクトです。これは約束ではなく、一つの経路です——学習ツールは構築する必要があり、構築するかどうかはコミュニティの判断です。
4. 第二言語学習者への支援。 言語復興は、子どもが第一言語を習得することだけではありません。大人が第二言語として学ぶことでもあります——長老レベルの流暢さには達しないかもしれないが、コミュニティの文書を読み、理解しながら参加し、言語を使うことでその公的な存在感を高められる人々です。この層にとって、翻訳支援ツールは辞書と同様の、真に有用なツールです。
5. 取り組みが地元で資金調達・所有される理由。 私たちのモデルでは、実証済みの手法はコミュニティの所有権に移転され、APIの収益は圧倒的にコミュニティに還元されます(経済モデル)。話者は専門知識に対して報酬を受け取り、ボランティアを求められることはありません。これらのいずれも言語復興ではありません——しかし、言語復興を担う人々から資源を遠ざけるのではなく、その人々へと向けるものです。
正直なフレーミング
この分野には、救済の物語とともに現れ、論文を持って去っていくテクノロジープロジェクトの長い歴史があります(Bird 2020)。私たちはより限定的な主張を保持しようとしています。MTはインフラです。 インフラは他者が設定した目標に奉仕します。道路はあなたの行き先を決めません。この技術は言語が生き残るかどうかを決めません。それを決めるのは話者、家族、そしてコミュニティです——ユネスコ先住民族言語の国際の十年のフレーミングが、ツールではなく先住民族を中心に置いているのは正しいことです。
コミュニティが翻訳技術は自分たちの目標に役立つと結論づけるなら、私たちはそれを可能な限り最良で、最も説明責任を果たせるものにしたいと思います——コミュニティが所有し、話者によって検証され、コミュニティの条件で展開されるものとして。コミュニティが役立たないと結論づけるなら、その結論はこのプロジェクトの失敗ではなく、有効な成果です。この文の両方の部分が、私たちのコミットメントです。
あなたへの意味
:::info コミュニティのメンバーの方へ このプロジェクトは、アプリがあなたの言語を救えるとは言いません——救えないのです。提供できるものは限定的です。流暢な話者によるレビューのもとでの文書翻訳の高速化、コミュニティが完全に所有できるインフラ、そして話者の専門知識への報酬です。それをどのように、またはそもそも使用するかは、使用しないという判断も含め、コミュニティの決定です。言語コミュニティの方へおよびエラーの報告と修正の所有をご覧ください。 :::
:::info 研究者の方へ 「絶滅危機言語のためのMT」をインフラの主張として扱い、言語復興の主張としては扱わないようにすると、評価の問いが変わります。「BLEUスコアは高いか?」ではなく、「これは実際の仕事を担う人々の作業負荷を、彼らの条件のもとで測定可能な形で軽減するか?」という問いになります。ベンチマーク仕様および仕組み §8(緊張と限界)が、私たちが自らをその基準に照らして問い続ける場所です。 :::
:::info 開発者の方へ デモではなく、ポストエディットのワークフローのために構築してください。あなたの手法のユーザーは草稿を修正する流暢な話者であり、最悪の失敗モードは非話者には妥当に見える幻覚された単語です——だからこそ、形態素検証がここではすべてのゲートとなっています。手法の提出およびベンチマークから日常利用へから始めてください。 :::
参考文献
- Fishman, J. A. (1991). Reversing Language Shift: Theoretical and Empirical Foundations of Assistance to Threatened Languages. Multilingual Matters.
- Hinton, L., & Hale, K. (eds.) (2001). The Green Book of Language Revitalization in Practice. Academic Press.
- Plitt, M., & Masselot, F. (2010). "A Productivity Test of Statistical Machine Translation Post-Editing in a Typical Localisation Context." The Prague Bulletin of Mathematical Linguistics, 93, 7–16. PDF
- Green, S., Heer, J., & Manning, C. D. (2013). "The Efficacy of Human Post-Editing for Language Translation." Proceedings of CHI 2013. 論文
- Bird, S. (2020). "Decolonising Speech and Language Technology." Proceedings of COLING 2020, 3504–3519. 論文
- UNESCO. International Decade of Indigenous Languages 2022–2032. idil2022-2032.org
関連ページ
- 話者への報酬 — 報酬モデルの数値詳細
- ベンチマークから日常利用へ — ポストエディットの経路
- 仕組み — プラットフォームの全体アーキテクチャ(未解決の緊張を扱う §8 を含む)