数据主权
执行摘要。 本页解释了 OCAP®、CARE 和 Te Mana Raraunga 数据主权原则,以及它们对为土著语言开发翻译方法的开发者意味着什么。涵盖何时需要社区同意、champollion 的
api方法架构如何支持数据主权,以及任何从事土著语言数据工作的人的伦理义务。
土著语言的机器翻译提出了法语或日语中不存在的问题。谁拥有训练数据?谁控制语言模型如何说话?谁决定翻译是否足够好以至于可以发布?
答案总是社区。
champollion 的构建就是为了支持这一点。api 方法将所有语言资源保留在服务器端,由社区控制。插件系统将方法与工具分离。但工具无法强制执行伦理——本页解释了你应该遵循的原则。
OCAP® 原则
OCAP(所有权、控制权、访问权、占有权)是由第一民族信息治理中心(FNIGC)开发的一套原则,规定了第一民族数据应如何被收集、保护、使用和共享。
| 原则 | 对翻译的含义 |
|---|---|
| 所有权 | 社区拥有其语言数据——词典、语法、平行文本、教练文件以及由其生成的任何翻译。 |
| 控制权 | 社区控制其语言数据的使用方式、谁有访问权限以及哪些翻译方法是可接受的。 |
| 访问权 | 社区成员有权访问和管理自己的语言资源,无论它们存储在何处。 |
| 占有权 | 物理数据(教练文件、词典、模型权重)必须驻留在社区控制的基础设施上——而不是第三方云。 |
OCAP 在实践中的含义
- 不要发布土著语言的翻译,除非获得明确的社区授权。
- 不要在社区提供的语言数据上训练模型,除非有数据共享协议。
- 不要抓取来自网站、社交媒体或教育材料的社区语言资源。
- 使用
api方法,以便提示、教练数据和词典保留在社区控制的服务器上。champollionapi方法是一个"哑管道"——它发送密钥并获取翻译。所有语言知识产权保留在服务器端。 - 记录来源——插件清单中的
provenance字段应列出使用的每个资源、其许可证和来源。
:::warning OCAP® 是注册商标 OCAP® 是第一民族信息治理中心的注册商标。它特别适用于加拿大的第一民族。这些原则具有更广泛的相关性,但商标和治理权属于 FNIGC。 :::
CARE 原则
土著数据治理 CARE 原则由全球土著数据联盟(GIDA)开发,作为 FAIR 数据原则的补充。FAIR 说数据应该是可发现的、可访问的、可互操作的和可重用的。CARE 说这还不够——数据治理还必须以土著权利为中心。
| 原则 | 应用 |
|---|---|
| 集体利益 | 翻译工具应首先造福语言社区。排行榜分数是改进方法的手段,而不是从社区语言中提取商业价值的手段。 |
| 控制权 | 社区有权管理其语言数据的收集、使用和共享方式。排行榜上的高分不授予发布翻译的权限。 |
| 责任 | 从事土著语言数据工作的研究人员和开发者有责任建立关系、获得同意并分享利益。 |
| 伦理 | 土著人民的权利和福祉必须是首要关切。翻译方法应与社区一起开发,而不是关于社区。 |
Te Mana Raraunga——毛利人数据主权
Te Mana Raraunga 是毛利人数据主权网络。它声称毛利人数据——包括语言数据——是受《怀唐伊条约》原则和蒂卡纳·毛利(毛利习惯法)约束的瑰宝(taonga)。
关键原则:
| 原则 | 含义 |
|---|---|
| Rangatiratanga(权威) | 毛利人拥有对其数据(包括语言数据)行使权威的固有权利。 |
| Whakapapa(关系) | 数据有其起源和联系。语言数据承载创建它的人民的关系和知识。 |
| Whanaungatanga(义务) | 持有或处理毛利人数据的人对其来源的社区有相互义务。 |
| Kotahitanga(集体利益) | 毛利人数据应用于毛利人的集体利益。 |
| Manaakitanga(互惠) | 毛利人数据的使用应涉及关怀、尊重和互惠。 |
| Kaitiakitanga(监护) | 数据监护人有责任保护数据并确保其被适当使用。 |
这些原则适用于 te reo Māori(毛利语言)和任何涉及毛利语言数据的计算工作。
这对 champollion 用户意味着什么
对于标准语言(法语、日语、西班牙语...)
正常使用 champollion。这些语言拥有大量公开可用的语料库、已建立的翻译 API,且没有主权问题。随意翻译、同步和发布。
对于土著和低资源语言
情况从根本上不同:
-
首先获得同意。 在为土著语言构建翻译方法之前,与社区建立关系。没有社区参与而构建的方法——无论技术上多么令人印象深刻——都不应该被发布或分发。
-
使用
api方法。 在社区控制的基础设施上托管翻译管道。champollion 中的api方法就是为此设计的:它发送密钥并获取翻译,而不暴露使方法工作的提示、词典或教练数据。Community-controlled setup{"pairs": {"en:crk": {"method": "api","endpoint": "https://api.community-server.example/translate"}}} -
记录一切。 在插件清单中使用
provenance字段列出每个资源、其许可证以及是否获得社区同意。 -
分数不是许可证。 排行榜上的高分证明方法在技术上运行良好。它不授予发布翻译、分发插件或将方法商业化的权限。社区决定。
-
分享方法,而不是数据。 如果你开发了一种效果很好的技术(例如"FST 门控 LLM 与教练提示"),在排行榜上分享架构和方法。社区保留对使其对其特定语言工作的语言数据的控制。
api 方法和主权
api 翻译方法的存在正是为了支持数据主权。原因如下:
| 方面 | 其他方法 | api 方法 |
|---|---|---|
| 提示的位置 | 在 champollion 的配置文件中(对所有开发者可见) | 在社区的服务器上(私密) |
| 教练数据的位置 | 在 .champollion/coaching/ 目录中(提交到 git) | 在社区的服务器上(私密) |
| 词典的位置 | 在插件目录中(与插件一起分发) | 在社区的服务器上(私密) |
| 谁控制管道 | 运行 champollion sync 的任何人 | 操作 API 的社区 |
| champollion 看到什么 | 一切 | 密钥进,翻译出 |
api 方法是一个深思熟虑的架构选择。它是一个"哑管道",因为知识产权——语言知识、语法规则、精心策划的教练示例——属于社区,而不是工具。
有关实现细节,请参阅通过 API 提供方法。
案例研究:OMT-1600 和数据主权
Meta 的 OMT-1600(2026 年 3 月)提供了一个具体的例子,说明为什么数据主权对土著语言很重要。OMT-1600 使用以下方式为 1,600 种语言训练了翻译模型:
- CC-2000-Web:从 2,000+ 语言中网络抓取的单语文本——在没有社区同意的情况下收集
- 圣经翻译:用作最低资源语言的平行训练和评估数据的宗教文本
- MeDLEy:手动策划的双语文本——但没有记录 OCAP® 或 CARE 合规性
- 回译合成数据:约 2.7 亿个由模型本身生成的合成平行句子
对于平原克里语(CRK)等土著语言,这意味着:
| 原则 | OMT-1600 实践 | 影响 |
|---|---|---|
| 所有权 | Meta 拥有模型并决定如何发布它们 | 社区在其语言如何被建模中没有所有权权益 |
| 控制权 | Meta 控制训练数据选择、模型架构和发布时间表 | 社区对使用什么数据或语言如何表示没有发言权 |
| 访问权 | 模型权重目前不可用——"由于超出作者控制范围的因素而未发布" | 社区无法访问、检查或修改说其语言的模型 |
| 占有权 | 所有数据和模型驻留在 Meta 的基础设施上 | 社区无法托管、审计或删除用于训练模型的数据 |
OMT-1600 是一项研究成就。它也是提取性数据实践的一个例子:语言数据从网络和宗教文本中收集,处理成模型,并作为论文发布——所有这一切都没有社区参与、同意或利益分享。
这正是 champollion 的主权架构所防止的模式。 api 方法将语言知识产权保留在社区控制的服务器上。评估语料库在社区同意下提供,并存储在社区密钥监护下。获奖方法转移到社区所有权。区别不是技术性的——它是伦理和结构性的。
:::note OMT-1600 并非唯一有过错 这种模式——网络抓取后跟没有社区同意的模型训练——是大规模多语言 NLP 研究中的标准做法。OMT-1600 是一个案例研究,因为其规模(1,600 种语言)和时间(2026 年 3 月),而不是因为它是唯一提取性的。同样的批评适用于 NLLB-200、Google 的多语言工作以及大多数大规模 MT 研究。 :::
进一步阅读
另见
- 支持低资源语言——具有 OCAP 背景的技术指南
- 翻译方法——
api方法及其如何保护知识产权 - 通过 API 提供方法——托管社区控制的管道
- 插件规范——用于资源归属的
provenance字段 - 食谱:FST 门控管道——构建社区可以自托管的管道