データ主権
要約。 このページでは、OCAP®、CARE、Te Mana Raraunga のデータ主権原則と、先住民族言語の翻訳メソッドを開発する際にそれらが意味することを説明します。コミュニティの同意が必要な場面、champollion の
apiメソッドアーキテクチャがデータ主権をどのように支援するか、そして先住民族の言語データを扱うすべての人の倫理的義務について説明します。
先住民族言語の機械翻訳は、フランス語や日本語には存在しない問いを提起します。訓練データは誰のものか?言語モデルの発話を誰が管理するか?翻訳が公開に値するかどうかを誰が決めるか?
答えは常にコミュニティです。
champollion はこれを支援するために設計されています。api メソッドはすべての言語リソースをコミュニティの管理下にあるサーバー側に保持します。プラグインシステムはメソッドをツールから分離します。しかし、ツールは倫理を強制することはできません。このページでは、従うべき原則を説明します。
OCAP® 原則
OCAP(Ownership・Control・Access・Possession)は、First Nations Information Governance Centre(FNIGC)が策定した原則であり、ファーストネーションズのデータをどのように収集・保護・使用・共有すべきかを定めています。
| 原則 | 翻訳における意味 |
|---|---|
| Ownership(所有権) | コミュニティはその言語データ(辞書、文法、対訳テキスト、コーチングファイル、およびそれらから生成されたすべての翻訳)を所有します。 |
| Control(管理権) | コミュニティは言語データの使用方法、アクセス権者、および許容される翻訳メソッドを管理します。 |
| Access(アクセス権) | コミュニティのメンバーは、保存場所にかかわらず、自分たちの言語リソースにアクセスし管理する権利を持ちます。 |
| Possession(占有権) | 物理的なデータ(コーチングファイル、辞書、モデルの重み)は、コミュニティが管理するインフラ上に置かれなければなりません。サードパーティのクラウドは不可です。 |
OCAP の実践的な意味
- 先住民族言語の翻訳を公開しないでください。コミュニティの明示的な承認なしに公開することは禁じられています。
- コミュニティが提供した言語データでモデルを訓練しないでください。データ共有契約なしに訓練することは禁じられています。
- コミュニティの言語リソースをスクレイピングしないでください。ウェブサイト、ソーシャルメディア、教育資料からの収集は禁じられています。
apiメソッドを使用してください。プロンプト、コーチングデータ、辞書がコミュニティ管理のサーバー上に留まるようにします。champollion のapiメソッドは「ダムパイプ」です。キーを送信して翻訳を受け取るだけで、すべての言語的知的財産はサーバー側に保持されます。- 出所を記録してください。プラグインマニフェストの
provenanceフィールドには、使用したすべてのリソース、そのライセンス、および出所を記載してください。
:::warning OCAP® は登録商標です OCAP® は First Nations Information Governance Centre の登録商標です。カナダのファーストネーションズに特化して適用されます。原則はより広い関連性を持ちますが、商標および統治権限は FNIGC に帰属します。 :::
CARE 原則
先住民族データガバナンスのための CARE 原則は、Global Indigenous Data Alliance(GIDA)が FAIR データ原則を補完するものとして策定しました。FAIR はデータが Findable(発見可能)、Accessible(アクセス可能)、Interoperable(相互運用可能)、Reusable(再利用可能)であるべきとしています。CARE はそれだけでは不十分であり、データガバナンスは先住民族の権利を中心に据えなければならないと主張します。
| 原則 | 適用 |
|---|---|
| Collective Benefit(集団的利益) | 翻訳ツールはまずその言語コミュニティに利益をもたらすべきです。リーダーボードのスコアはメソッドを改善するための手段であり、コミュニティの言語から商業的価値を引き出すためのものではありません。 |
| Authority to Control(管理権限) | コミュニティは言語データの収集・使用・共有方法を統治する権限を持ちます。リーダーボードの高スコアは翻訳の公開許可を与えるものではありません。 |
| Responsibility(責任) | 先住民族の言語データを扱う研究者や開発者は、関係を構築し、同意を得て、利益を共有する責任があります。 |
| Ethics(倫理) | 先住民族の権利と福祉が最優先事項でなければなりません。翻訳メソッドはコミュニティについてではなく、コミュニティとともに開発されるべきです。 |
Te Mana Raraunga — マオリのデータ主権
Te Mana Raraunga は Māori Data Sovereignty Network です。マオリのデータ(言語データを含む)は、ワイタンギ条約の原則とティカンガ・マオリ(マオリの慣習法)に従うタオンガ(宝)であると主張しています。
主要な原則:
| 原則 | 意味 |
|---|---|
| Rangatiratanga(権威) | マオリは言語データを含む自分たちのデータに対して権威を行使する固有の権利を持ちます。 |
| Whakapapa(関係性) | データには起源と繋がりがあります。言語データはそれを生み出した人々の関係性と知識を担っています。 |
| Whanaungatanga(義務) | マオリのデータを保持または処理する者は、そのデータが由来するコミュニティに対して相互的な義務を負います。 |
| Kotahitanga(集団的利益) | マオリのデータはマオリの集団的利益のために使用されるべきです。 |
| Manaakitanga(互恵性) | マオリのデータの使用には、配慮、尊重、互恵性が伴わなければなりません。 |
| Kaitiakitanga(後見) | データの後見人はデータを保護し、適切に使用されるよう確保する義務があります。 |
これらの原則は、テ・レオ・マオリ(マオリ語)および、マオリ語データを扱うすべての計算処理に適用されます。
champollion ユーザーへの意味
標準的な言語(フランス語、日本語、スペイン語など)
champollion を通常どおり使用してください。これらの言語には大規模な公開コーパス、確立された翻訳 API があり、主権に関する懸念はありません。自由に翻訳、同期、公開してください。
先住民族言語および低リソース言語
状況は根本的に異なります:
-
まず同意を得てください。 先住民族言語の翻訳メソッドを構築する前に、コミュニティとの関係を確立してください。コミュニティの関与なしに構築されたメソッドは、技術的にどれほど優れていても、公開または配布すべきではありません。
-
apiメソッドを使用してください。 コミュニティが管理するインフラ上で翻訳パイプラインをホストしてください。champollion のapiメソッドはこのために設計されています。プロンプト、辞書、コーチングデータを公開することなく、キーを送信して翻訳を受け取ります。Community-controlled setup{"pairs": {"en:crk": {"method": "api","endpoint": "https://api.community-server.example/translate"}}} -
すべてを記録してください。 プラグインマニフェストの
provenanceフィールドを使用して、すべてのリソース、そのライセンス、およびコミュニティの同意を得て提供されたかどうかを記載してください。 -
スコアはライセンスではありません。 リーダーボードの高スコアは、メソッドが技術的に優れていることを証明します。翻訳の公開、プラグインの配布、またはメソッドの商業化の許可を与えるものではありません。コミュニティが決定します。
-
データではなくメソッドを共有してください。 優れた技術(例:「コーチングプロンプトを用いた FST ゲート LLM」)を開発した場合は、アーキテクチャとアプローチをリーダーボードで共有してください。特定の言語でそれを機能させる言語データの管理権はコミュニティが保持します。
api メソッドと主権
api 翻訳メソッドは、データ主権を支援するために特別に設計されています。その理由を以下に示します:
| 側面 | その他のメソッド | api メソッド |
|---|---|---|
| プロンプトの保存場所 | champollion の設定ファイル内(すべての開発者に公開) | コミュニティのサーバー上(非公開) |
| コーチングデータの保存場所 | .champollion/coaching/ ディレクトリ内(git にコミット) | コミュニティのサーバー上(非公開) |
| 辞書の保存場所 | プラグインディレクトリ内(プラグインとともに配布) | コミュニティのサーバー上(非公開) |
| パイプラインの管理者 | champollion sync を実行する者 | API を運用するコミュニティ |
| champollion が見るもの | すべて | キーの入力と翻訳の出力のみ |
api メソッドは意図的なアーキテクチャ上の選択です。知的財産(言語的知識、文法規則、慎重に整備されたコーチング例)はツールではなくコミュニティに帰属するため、「ダムパイプ」として設計されています。
実装の詳細については、API によるメソッドの提供を参照してください。
ケーススタディ:OMT-1600 とデータ主権
Meta の OMT-1600(2026年3月)は、先住民族言語においてデータ主権がなぜ重要かを示す具体的な例です。OMT-1600 は以下を使用して 1,600 言語の翻訳モデルを訓練しました:
- CC-2000-Web:2,000 以上の言語変種からウェブスクレイピングされた単言語テキスト — コミュニティの同意なしに収集
- 聖書翻訳:最低リソース言語の並列訓練・評価データとして使用された宗教テキスト
- MeDLEy:手動でキュレーションされた対訳テキスト — ただし OCAP® または CARE への準拠は記録されていない
- 逆翻訳による合成データ:モデル自身が生成した約 2 億 7,000 万件の合成並列文
プレーンズ・クリー語(CRK)などの先住民族言語については、以下のことを意味します:
| 原則 | OMT-1600 の実践 | 影響 |
|---|---|---|
| Ownership(所有権) | Meta がモデルを所有し、リリース方法を決定する | コミュニティは自分たちの言語がモデル化される方法に所有権を持たない |
| Control(管理権) | Meta が訓練データの選択、モデルアーキテクチャ、リリーススケジュールを管理する | コミュニティはどのデータが使用されるか、言語がどのように表現されるかについて意見を持てない |
| Access(アクセス権) | モデルの重みは現在公開されていない — 「著者の管理外の要因により未公開」 | コミュニティは自分たちの言語を話すモデルにアクセス、検査、または修正できない |
| Possession(占有権) | すべてのデータとモデルは Meta のインフラ上に存在する | コミュニティはモデルの訓練に使用されたデータをホスト、監査、または削除できない |
OMT-1600 は研究上の成果です。同時に、収奪的なデータ実践の例でもあります。言語データはウェブと宗教テキストから収集され、モデルに処理され、論文として公開されました — コミュニティの関与、同意、利益共有はすべてなしに。
これはまさに champollion の主権アーキテクチャが防ぐパターンです。 api メソッドは言語的知的財産をコミュニティ管理のサーバー上に保持します。評価コーパスはコミュニティの同意を得て提供され、コミュニティのキー管理下に保存されます。受賞メソッドはコミュニティの所有権に移転されます。違いは技術的なものではなく、倫理的かつ構造的なものです。
:::note OMT-1600 だけが問題なのではありません このパターン(ウェブスクレイピングに続くコミュニティの同意なしのモデル訓練)は、大規模多言語 NLP 研究における標準的な慣行です。OMT-1600 がケーススタディとして取り上げられるのは、その規模(1,600 言語)と新しさ(2026年3月)によるものであり、特別に収奪的だからではありません。同じ批判は NLLB-200、Google の多言語化の取り組み、およびほとんどの大規模 MT 研究にも当てはまります。 :::
参考資料
- First Nations Information Governance Centre — OCAP®
- Global Indigenous Data Alliance — CARE 原則
- Te Mana Raraunga — Māori Data Sovereignty Network
- USIDSN — United States Indigenous Data Sovereignty Network
関連項目
- 低リソース言語のサポート — OCAP のコンテキストを含む技術ガイド
- 翻訳メソッド —
apiメソッドと知的財産の保護方法 - API によるメソッドの提供 — コミュニティ管理パイプラインのホスティング
- プラグイン仕様 — リソース帰属のための
provenanceフィールド - クックブック:FST ゲートパイプライン — コミュニティがセルフホストできるパイプラインの構築