数据主权

执行摘要。 本页解释了 OCAP®、CARE 和 Te Mana Raraunga 数据主权原则，以及它们对为土著语言开发翻译方法的开发者意味着什么。涵盖何时需要社区同意、champollion 的 api 方法架构如何支持数据主权，以及任何从事土著语言数据工作的人的伦理义务。

土著语言的机器翻译提出了法语或日语中不存在的问题。谁拥有训练数据？谁控制语言模型如何说话？谁决定翻译是否足够好以至于可以发布？

答案总是社区。

champollion 的构建就是为了支持这一点。api 方法将所有语言资源保留在服务器端，由社区控制。插件系统将方法与工具分离。但工具无法强制执行伦理——本页解释了你应该遵循的原则。

OCAP® 原则

OCAP（所有权、控制权、访问权、占有权）是由第一民族信息治理中心（FNIGC）开发的一套原则，规定了第一民族数据应如何被收集、保护、使用和共享。

原则	对翻译的含义
所有权	社区拥有其语言数据——词典、语法、平行文本、教练文件以及由其生成的任何翻译。
控制权	社区控制其语言数据的使用方式、谁有访问权限以及哪些翻译方法是可接受的。
访问权	社区成员有权访问和管理自己的语言资源，无论它们存储在何处。
占有权	物理数据（教练文件、词典、模型权重）必须驻留在社区控制的基础设施上——而不是第三方云。

OCAP 在实践中的含义

不要发布土著语言的翻译，除非获得明确的社区授权。
不要在社区提供的语言数据上训练模型，除非有数据共享协议。
不要抓取来自网站、社交媒体或教育材料的社区语言资源。
使用 api 方法，以便提示、教练数据和词典保留在社区控制的服务器上。champollion api 方法是一个"哑管道"——它发送密钥并获取翻译。所有语言知识产权保留在服务器端。
记录来源——插件清单中的 provenance 字段应列出使用的每个资源、其许可证和来源。

:::warning OCAP® 是注册商标 OCAP® 是第一民族信息治理中心的注册商标。它特别适用于加拿大的第一民族。这些原则具有更广泛的相关性，但商标和治理权属于 FNIGC。 :::

CARE 原则

土著数据治理 CARE 原则由全球土著数据联盟（GIDA）开发，作为 FAIR 数据原则的补充。FAIR 说数据应该是可发现的、可访问的、可互操作的和可重用的。CARE 说这还不够——数据治理还必须以土著权利为中心。

原则	应用
集体利益	翻译工具应首先造福语言社区。排行榜分数是改进方法的手段，而不是从社区语言中提取商业价值的手段。
控制权	社区有权管理其语言数据的收集、使用和共享方式。排行榜上的高分不授予发布翻译的权限。
责任	从事土著语言数据工作的研究人员和开发者有责任建立关系、获得同意并分享利益。
伦理	土著人民的权利和福祉必须是首要关切。翻译方法应与社区一起开发，而不是关于社区。

Te Mana Raraunga——毛利人数据主权

Te Mana Raraunga 是毛利人数据主权网络。它声称毛利人数据——包括语言数据——是受《怀唐伊条约》原则和蒂卡纳·毛利（毛利习惯法）约束的瑰宝（taonga）。

关键原则：

原则	含义
Rangatiratanga（权威）	毛利人拥有对其数据（包括语言数据）行使权威的固有权利。
Whakapapa（关系）	数据有其起源和联系。语言数据承载创建它的人民的关系和知识。
Whanaungatanga（义务）	持有或处理毛利人数据的人对其来源的社区有相互义务。
Kotahitanga（集体利益）	毛利人数据应用于毛利人的集体利益。
Manaakitanga（互惠）	毛利人数据的使用应涉及关怀、尊重和互惠。
Kaitiakitanga（监护）	数据监护人有责任保护数据并确保其被适当使用。

这些原则适用于 te reo Māori（毛利语言）和任何涉及毛利语言数据的计算工作。

这对 champollion 用户意味着什么

对于标准语言（法语、日语、西班牙语...）

正常使用 champollion。这些语言拥有大量公开可用的语料库、已建立的翻译 API，且没有主权问题。随意翻译、同步和发布。

对于土著和低资源语言

情况从根本上不同：

首先获得同意。 在为土著语言构建翻译方法之前，与社区建立关系。没有社区参与而构建的方法——无论技术上多么令人印象深刻——都不应该被发布或分发。
使用 api 方法。 在社区控制的基础设施上托管翻译管道。champollion 中的 api 方法就是为此设计的：它发送密钥并获取翻译，而不暴露使方法工作的提示、词典或教练数据。
Community-controlled setup
```
{
  "pairs": {
    "en:crk": {
      "method": "api",
      "endpoint": "https://api.community-server.example/translate"
    }
  }
}
```
记录一切。 在插件清单中使用 provenance 字段列出每个资源、其许可证以及是否获得社区同意。
分数不是许可证。 排行榜上的高分证明方法在技术上运行良好。它不授予发布翻译、分发插件或将方法商业化的权限。社区决定。
分享方法，而不是数据。 如果你开发了一种效果很好的技术（例如"FST 门控 LLM 与教练提示"），在排行榜上分享架构和方法。社区保留对使其对其特定语言工作的语言数据的控制。

`api` 方法和主权

api 翻译方法的存在正是为了支持数据主权。原因如下：

方面	其他方法	`api` 方法
提示的位置	在 champollion 的配置文件中（对所有开发者可见）	在社区的服务器上（私密）
教练数据的位置	在 `.champollion/coaching/` 目录中（提交到 git）	在社区的服务器上（私密）
词典的位置	在插件目录中（与插件一起分发）	在社区的服务器上（私密）
谁控制管道	运行 `champollion sync` 的任何人	操作 API 的社区
champollion 看到什么	一切	密钥进，翻译出

api 方法是一个深思熟虑的架构选择。它是一个"哑管道"，因为知识产权——语言知识、语法规则、精心策划的教练示例——属于社区，而不是工具。

有关实现细节，请参阅通过 API 提供方法。

案例研究：OMT-1600 和数据主权

Meta 的 OMT-1600（2026 年 3 月）提供了一个具体的例子，说明为什么数据主权对土著语言很重要。OMT-1600 使用以下方式为 1,600 种语言训练了翻译模型：

CC-2000-Web：从 2,000+ 语言中网络抓取的单语文本——在没有社区同意的情况下收集
圣经翻译：用作最低资源语言的平行训练和评估数据的宗教文本
MeDLEy：手动策划的双语文本——但没有记录 OCAP® 或 CARE 合规性
回译合成数据：约 2.7 亿个由模型本身生成的合成平行句子

对于平原克里语（CRK）等土著语言，这意味着：

原则	OMT-1600 实践	影响
所有权	Meta 拥有模型并决定如何发布它们	社区在其语言如何被建模中没有所有权权益
控制权	Meta 控制训练数据选择、模型架构和发布时间表	社区对使用什么数据或语言如何表示没有发言权
访问权	模型权重目前不可用——"由于超出作者控制范围的因素而未发布"	社区无法访问、检查或修改说其语言的模型
占有权	所有数据和模型驻留在 Meta 的基础设施上	社区无法托管、审计或删除用于训练模型的数据

OMT-1600 是一项研究成就。它也是提取性数据实践的一个例子：语言数据从网络和宗教文本中收集，处理成模型，并作为论文发布——所有这一切都没有社区参与、同意或利益分享。

这正是 champollion 的主权架构所防止的模式。 api 方法将语言知识产权保留在社区控制的服务器上。评估语料库在社区同意下提供，并存储在社区密钥监护下。获奖方法转移到社区所有权。区别不是技术性的——它是伦理和结构性的。

:::note OMT-1600 并非唯一有过错这种模式——网络抓取后跟没有社区同意的模型训练——是大规模多语言 NLP 研究中的标准做法。OMT-1600 是一个案例研究，因为其规模（1,600 种语言）和时间（2026 年 3 月），而不是因为它是唯一提取性的。同样的批评适用于 NLLB-200、Google 的多语言工作以及大多数大规模 MT 研究。 :::

进一步阅读

另见

支持低资源语言——具有 OCAP 背景的技术指南
翻译方法——api 方法及其如何保护知识产权
通过 API 提供方法——托管社区控制的管道
插件规范——用于资源归属的 provenance 字段
食谱：FST 门控管道——构建社区可以自托管的管道

OCAP® 原则​

OCAP 在实践中的含义​

CARE 原则​

Te Mana Raraunga——毛利人数据主权​

这对 champollion 用户意味着什么​

对于标准语言（法语、日语、西班牙语...）​

对于土著和低资源语言​

api 方法和主权​

案例研究：OMT-1600 和数据主权​

进一步阅读​

另见​