メインコンテンツへスキップ

データ主権

要約。 このページでは、OCAP®、CARE、Te Mana Raraunga のデータ主権原則と、先住民族言語の翻訳メソッドを開発する際にそれらが意味することを説明します。コミュニティの同意が必要な場面、champollion の api メソッドアーキテクチャがデータ主権をどのように支援するか、そして先住民族の言語データを扱うすべての人の倫理的義務について説明します。

先住民族言語の機械翻訳は、フランス語や日本語には存在しない問いを提起します。訓練データは誰のものか?言語モデルの発話を誰が管理するか?翻訳が公開に値するかどうかを誰が決めるか?

答えは常にコミュニティです。

champollion はこれを支援するために設計されています。api メソッドはすべての言語リソースをコミュニティの管理下にあるサーバー側に保持します。プラグインシステムはメソッドをツールから分離します。しかし、ツールは倫理を強制することはできません。このページでは、従うべき原則を説明します。


OCAP® 原則

OCAP(Ownership・Control・Access・Possession)は、First Nations Information Governance Centre(FNIGC)が策定した原則であり、ファーストネーションズのデータをどのように収集・保護・使用・共有すべきかを定めています。

原則翻訳における意味
Ownership(所有権)コミュニティはその言語データ(辞書、文法、対訳テキスト、コーチングファイル、およびそれらから生成されたすべての翻訳)を所有します。
Control(管理権)コミュニティは言語データの使用方法、アクセス権者、および許容される翻訳メソッドを管理します。
Access(アクセス権)コミュニティのメンバーは、保存場所にかかわらず、自分たちの言語リソースにアクセスし管理する権利を持ちます。
Possession(占有権)物理的なデータ(コーチングファイル、辞書、モデルの重み)は、コミュニティが管理するインフラ上に置かれなければなりません。サードパーティのクラウドは不可です。

OCAP の実践的な意味

  • 先住民族言語の翻訳を公開しないでください。コミュニティの明示的な承認なしに公開することは禁じられています。
  • コミュニティが提供した言語データでモデルを訓練しないでください。データ共有契約なしに訓練することは禁じられています。
  • コミュニティの言語リソースをスクレイピングしないでください。ウェブサイト、ソーシャルメディア、教育資料からの収集は禁じられています。
  • api メソッドを使用してください。プロンプト、コーチングデータ、辞書がコミュニティ管理のサーバー上に留まるようにします。champollion の api メソッドは「ダムパイプ」です。キーを送信して翻訳を受け取るだけで、すべての言語的知的財産はサーバー側に保持されます。
  • 出所を記録してくださいプラグインマニフェストprovenance フィールドには、使用したすべてのリソース、そのライセンス、および出所を記載してください。

:::warning OCAP® は登録商標です OCAP® は First Nations Information Governance Centre の登録商標です。カナダのファーストネーションズに特化して適用されます。原則はより広い関連性を持ちますが、商標および統治権限は FNIGC に帰属します。 :::


CARE 原則

先住民族データガバナンスのための CARE 原則は、Global Indigenous Data Alliance(GIDA)が FAIR データ原則を補完するものとして策定しました。FAIR はデータが Findable(発見可能)、Accessible(アクセス可能)、Interoperable(相互運用可能)、Reusable(再利用可能)であるべきとしています。CARE はそれだけでは不十分であり、データガバナンスは先住民族の権利を中心に据えなければならないと主張します。

原則適用
Collective Benefit(集団的利益)翻訳ツールはまずその言語コミュニティに利益をもたらすべきです。リーダーボードのスコアはメソッドを改善するための手段であり、コミュニティの言語から商業的価値を引き出すためのものではありません。
Authority to Control(管理権限)コミュニティは言語データの収集・使用・共有方法を統治する権限を持ちます。リーダーボードの高スコアは翻訳の公開許可を与えるものではありません。
Responsibility(責任)先住民族の言語データを扱う研究者や開発者は、関係を構築し、同意を得て、利益を共有する責任があります。
Ethics(倫理)先住民族の権利と福祉が最優先事項でなければなりません。翻訳メソッドはコミュニティについてではなく、コミュニティとともに開発されるべきです。

Te Mana Raraunga — マオリのデータ主権

Te Mana RaraungaMāori Data Sovereignty Network です。マオリのデータ(言語データを含む)は、ワイタンギ条約の原則とティカンガ・マオリ(マオリの慣習法)に従うタオンガ(宝)であると主張しています。

主要な原則:

原則意味
Rangatiratanga(権威)マオリは言語データを含む自分たちのデータに対して権威を行使する固有の権利を持ちます。
Whakapapa(関係性)データには起源と繋がりがあります。言語データはそれを生み出した人々の関係性と知識を担っています。
Whanaungatanga(義務)マオリのデータを保持または処理する者は、そのデータが由来するコミュニティに対して相互的な義務を負います。
Kotahitanga(集団的利益)マオリのデータはマオリの集団的利益のために使用されるべきです。
Manaakitanga(互恵性)マオリのデータの使用には、配慮、尊重、互恵性が伴わなければなりません。
Kaitiakitanga(後見)データの後見人はデータを保護し、適切に使用されるよう確保する義務があります。

これらの原則は、テ・レオ・マオリ(マオリ語)および、マオリ語データを扱うすべての計算処理に適用されます。


champollion ユーザーへの意味

標準的な言語(フランス語、日本語、スペイン語など)

champollion を通常どおり使用してください。これらの言語には大規模な公開コーパス、確立された翻訳 API があり、主権に関する懸念はありません。自由に翻訳、同期、公開してください。

先住民族言語および低リソース言語

状況は根本的に異なります:

  1. まず同意を得てください。 先住民族言語の翻訳メソッドを構築する前に、コミュニティとの関係を確立してください。コミュニティの関与なしに構築されたメソッドは、技術的にどれほど優れていても、公開または配布すべきではありません。

  2. api メソッドを使用してください。 コミュニティが管理するインフラ上で翻訳パイプラインをホストしてください。champollion の api メソッドはこのために設計されています。プロンプト、辞書、コーチングデータを公開することなく、キーを送信して翻訳を受け取ります。

    Community-controlled setup
    {
    "pairs": {
    "en:crk": {
    "method": "api",
    "endpoint": "https://api.community-server.example/translate"
    }
    }
    }
  3. すべてを記録してください。 プラグインマニフェストの provenance フィールドを使用して、すべてのリソース、そのライセンス、およびコミュニティの同意を得て提供されたかどうかを記載してください。

  4. スコアはライセンスではありません。 リーダーボードの高スコアは、メソッドが技術的に優れていることを証明します。翻訳の公開、プラグインの配布、またはメソッドの商業化の許可を与えるものではありません。コミュニティが決定します。

  5. データではなくメソッドを共有してください。 優れた技術(例:「コーチングプロンプトを用いた FST ゲート LLM」)を開発した場合は、アーキテクチャアプローチをリーダーボードで共有してください。特定の言語でそれを機能させる言語データの管理権はコミュニティが保持します。


api メソッドと主権

api 翻訳メソッドは、データ主権を支援するために特別に設計されています。その理由を以下に示します:

側面その他のメソッドapi メソッド
プロンプトの保存場所champollion の設定ファイル内(すべての開発者に公開)コミュニティのサーバー上(非公開)
コーチングデータの保存場所.champollion/coaching/ ディレクトリ内(git にコミット)コミュニティのサーバー上(非公開)
辞書の保存場所プラグインディレクトリ内(プラグインとともに配布)コミュニティのサーバー上(非公開)
パイプラインの管理者champollion sync を実行する者API を運用するコミュニティ
champollion が見るものすべてキーの入力と翻訳の出力のみ

api メソッドは意図的なアーキテクチャ上の選択です。知的財産(言語的知識、文法規則、慎重に整備されたコーチング例)はツールではなくコミュニティに帰属するため、「ダムパイプ」として設計されています。

実装の詳細については、API によるメソッドの提供を参照してください。


ケーススタディ:OMT-1600 とデータ主権

Meta の OMT-1600(2026年3月)は、先住民族言語においてデータ主権がなぜ重要かを示す具体的な例です。OMT-1600 は以下を使用して 1,600 言語の翻訳モデルを訓練しました:

  • CC-2000-Web:2,000 以上の言語変種からウェブスクレイピングされた単言語テキスト — コミュニティの同意なしに収集
  • 聖書翻訳:最低リソース言語の並列訓練・評価データとして使用された宗教テキスト
  • MeDLEy:手動でキュレーションされた対訳テキスト — ただし OCAP® または CARE への準拠は記録されていない
  • 逆翻訳による合成データ:モデル自身が生成した約 2 億 7,000 万件の合成並列文

プレーンズ・クリー語(CRK)などの先住民族言語については、以下のことを意味します:

原則OMT-1600 の実践影響
Ownership(所有権)Meta がモデルを所有し、リリース方法を決定するコミュニティは自分たちの言語がモデル化される方法に所有権を持たない
Control(管理権)Meta が訓練データの選択、モデルアーキテクチャ、リリーススケジュールを管理するコミュニティはどのデータが使用されるか、言語がどのように表現されるかについて意見を持てない
Access(アクセス権)モデルの重みは現在公開されていない — 「著者の管理外の要因により未公開」コミュニティは自分たちの言語を話すモデルにアクセス、検査、または修正できない
Possession(占有権)すべてのデータとモデルは Meta のインフラ上に存在するコミュニティはモデルの訓練に使用されたデータをホスト、監査、または削除できない

OMT-1600 は研究上の成果です。同時に、収奪的なデータ実践の例でもあります。言語データはウェブと宗教テキストから収集され、モデルに処理され、論文として公開されました — コミュニティの関与、同意、利益共有はすべてなしに。

これはまさに champollion の主権アーキテクチャが防ぐパターンです。 api メソッドは言語的知的財産をコミュニティ管理のサーバー上に保持します。評価コーパスはコミュニティの同意を得て提供され、コミュニティのキー管理下に保存されます。受賞メソッドはコミュニティの所有権に移転されます。違いは技術的なものではなく、倫理的かつ構造的なものです。

:::note OMT-1600 だけが問題なのではありません このパターン(ウェブスクレイピングに続くコミュニティの同意なしのモデル訓練)は、大規模多言語 NLP 研究における標準的な慣行です。OMT-1600 がケーススタディとして取り上げられるのは、その規模(1,600 言語)と新しさ(2026年3月)によるものであり、特別に収奪的だからではありません。同じ批判は NLLB-200、Google の多言語化の取り組み、およびほとんどの大規模 MT 研究にも当てはまります。 :::


参考資料


関連項目