跳转到主要内容

数据主权

执行摘要。 本页解释了 OCAP®、CARE 和 Te Mana Raraunga 数据主权原则,以及它们对为土著语言开发翻译方法的开发者意味着什么。涵盖何时需要社区同意、champollion 的 api 方法架构如何支持数据主权,以及任何从事土著语言数据工作的人的伦理义务。

土著语言的机器翻译提出了法语或日语中不存在的问题。谁拥有训练数据?谁控制语言模型如何说话?谁决定翻译是否足够好以至于可以发布?

答案总是社区。

champollion 的构建就是为了支持这一点。api 方法将所有语言资源保留在服务器端,由社区控制。插件系统将方法与工具分离。但工具无法强制执行伦理——本页解释了你应该遵循的原则。


OCAP® 原则

OCAP(所有权、控制权、访问权、占有权)是由第一民族信息治理中心(FNIGC)开发的一套原则,规定了第一民族数据应如何被收集、保护、使用和共享。

原则对翻译的含义
所有权社区拥有其语言数据——词典、语法、平行文本、教练文件以及由其生成的任何翻译。
控制权社区控制其语言数据的使用方式、谁有访问权限以及哪些翻译方法是可接受的。
访问权社区成员有权访问和管理自己的语言资源,无论它们存储在何处。
占有权物理数据(教练文件、词典、模型权重)必须驻留在社区控制的基础设施上——而不是第三方云。

OCAP 在实践中的含义

  • 不要发布土著语言的翻译,除非获得明确的社区授权。
  • 不要在社区提供的语言数据上训练模型,除非有数据共享协议。
  • 不要抓取来自网站、社交媒体或教育材料的社区语言资源。
  • 使用 api 方法,以便提示、教练数据和词典保留在社区控制的服务器上。champollion api 方法是一个"哑管道"——它发送密钥并获取翻译。所有语言知识产权保留在服务器端。
  • 记录来源——插件清单中的 provenance 字段应列出使用的每个资源、其许可证和来源。

:::warning OCAP® 是注册商标 OCAP® 是第一民族信息治理中心的注册商标。它特别适用于加拿大的第一民族。这些原则具有更广泛的相关性,但商标和治理权属于 FNIGC。 :::


CARE 原则

土著数据治理 CARE 原则全球土著数据联盟(GIDA)开发,作为 FAIR 数据原则的补充。FAIR 说数据应该是可发现的、可访问的、可互操作的和可重用的。CARE 说这还不够——数据治理还必须以土著权利为中心。

原则应用
集体利益翻译工具应首先造福语言社区。排行榜分数是改进方法的手段,而不是从社区语言中提取商业价值的手段。
控制权社区有权管理其语言数据的收集、使用和共享方式。排行榜上的高分不授予发布翻译的权限。
责任从事土著语言数据工作的研究人员和开发者有责任建立关系、获得同意并分享利益。
伦理土著人民的权利和福祉必须是首要关切。翻译方法应与社区一起开发,而不是关于社区。

Te Mana Raraunga——毛利人数据主权

Te Mana Raraunga毛利人数据主权网络。它声称毛利人数据——包括语言数据——是受《怀唐伊条约》原则和蒂卡纳·毛利(毛利习惯法)约束的瑰宝(taonga)。

关键原则:

原则含义
Rangatiratanga(权威)毛利人拥有对其数据(包括语言数据)行使权威的固有权利。
Whakapapa(关系)数据有其起源和联系。语言数据承载创建它的人民的关系和知识。
Whanaungatanga(义务)持有或处理毛利人数据的人对其来源的社区有相互义务。
Kotahitanga(集体利益)毛利人数据应用于毛利人的集体利益。
Manaakitanga(互惠)毛利人数据的使用应涉及关怀、尊重和互惠。
Kaitiakitanga(监护)数据监护人有责任保护数据并确保其被适当使用。

这些原则适用于 te reo Māori(毛利语言)和任何涉及毛利语言数据的计算工作。


这对 champollion 用户意味着什么

对于标准语言(法语、日语、西班牙语...)

正常使用 champollion。这些语言拥有大量公开可用的语料库、已建立的翻译 API,且没有主权问题。随意翻译、同步和发布。

对于土著和低资源语言

情况从根本上不同:

  1. 首先获得同意。 在为土著语言构建翻译方法之前,与社区建立关系。没有社区参与而构建的方法——无论技术上多么令人印象深刻——都不应该被发布或分发。

  2. 使用 api 方法。 在社区控制的基础设施上托管翻译管道。champollion 中的 api 方法就是为此设计的:它发送密钥并获取翻译,而不暴露使方法工作的提示、词典或教练数据。

    Community-controlled setup
    {
    "pairs": {
    "en:crk": {
    "method": "api",
    "endpoint": "https://api.community-server.example/translate"
    }
    }
    }
  3. 记录一切。 在插件清单中使用 provenance 字段列出每个资源、其许可证以及是否获得社区同意。

  4. 分数不是许可证。 排行榜上的高分证明方法在技术上运行良好。它不授予发布翻译、分发插件或将方法商业化的权限。社区决定。

  5. 分享方法,而不是数据。 如果你开发了一种效果很好的技术(例如"FST 门控 LLM 与教练提示"),在排行榜上分享架构方法。社区保留对使其对其特定语言工作的语言数据的控制。


api 方法和主权

api 翻译方法的存在正是为了支持数据主权。原因如下:

方面其他方法api 方法
提示的位置在 champollion 的配置文件中(对所有开发者可见)在社区的服务器上(私密)
教练数据的位置.champollion/coaching/ 目录中(提交到 git)在社区的服务器上(私密)
词典的位置在插件目录中(与插件一起分发)在社区的服务器上(私密)
谁控制管道运行 champollion sync 的任何人操作 API 的社区
champollion 看到什么一切密钥进,翻译出

api 方法是一个深思熟虑的架构选择。它是一个"哑管道",因为知识产权——语言知识、语法规则、精心策划的教练示例——属于社区,而不是工具。

有关实现细节,请参阅通过 API 提供方法


案例研究:OMT-1600 和数据主权

Meta 的 OMT-1600(2026 年 3 月)提供了一个具体的例子,说明为什么数据主权对土著语言很重要。OMT-1600 使用以下方式为 1,600 种语言训练了翻译模型:

  • CC-2000-Web:从 2,000+ 语言中网络抓取的单语文本——在没有社区同意的情况下收集
  • 圣经翻译:用作最低资源语言的平行训练和评估数据的宗教文本
  • MeDLEy:手动策划的双语文本——但没有记录 OCAP® 或 CARE 合规性
  • 回译合成数据:约 2.7 亿个由模型本身生成的合成平行句子

对于平原克里语(CRK)等土著语言,这意味着:

原则OMT-1600 实践影响
所有权Meta 拥有模型并决定如何发布它们社区在其语言如何被建模中没有所有权权益
控制权Meta 控制训练数据选择、模型架构和发布时间表社区对使用什么数据或语言如何表示没有发言权
访问权模型权重目前不可用——"由于超出作者控制范围的因素而未发布"社区无法访问、检查或修改说其语言的模型
占有权所有数据和模型驻留在 Meta 的基础设施上社区无法托管、审计或删除用于训练模型的数据

OMT-1600 是一项研究成就。它也是提取性数据实践的一个例子:语言数据从网络和宗教文本中收集,处理成模型,并作为论文发布——所有这一切都没有社区参与、同意或利益分享。

这正是 champollion 的主权架构所防止的模式。 api 方法将语言知识产权保留在社区控制的服务器上。评估语料库在社区同意下提供,并存储在社区密钥监护下。获奖方法转移到社区所有权。区别不是技术性的——它是伦理和结构性的。

:::note OMT-1600 并非唯一有过错 这种模式——网络抓取后跟没有社区同意的模型训练——是大规模多语言 NLP 研究中的标准做法。OMT-1600 是一个案例研究,因为其规模(1,600 种语言)和时间(2026 年 3 月),而不是因为它是唯一提取性的。同样的批评适用于 NLLB-200、Google 的多语言工作以及大多数大规模 MT 研究。 :::


进一步阅读


另见