所有权转移
执行摘要。 当翻译方法达到可部署层级(综合评分 ≥ 0.70)并通过社区审查时,代码所有权从研究人员转移到土著治理组织。本页面记录了五阶段转移流程、OCAP® 对齐情况,以及为土著语言构建方法的研究人员指南。
当翻译方法在竞技场排行榜上获胜时,代码会发生什么?对于土著语言和低资源语言,答案不是"研究人员保留它"。答案是:社区拥有它。
工作原理
竞技场强制执行从研究到社区所有权的清晰流程:
1. 方法开发
研究人员、学生或开发者构建翻译方法——FST 门控流程、经过指导的 LLM、微调模型或任何其他方法。他们使用自己的资源开发它。
2. 竞技场评估
该方法通过 eval harness 进行基准测试。每次提交都被指纹识别到特定的 Git 提交和数据集版本。评分是可重现的。
3. 社区审查
对于土著语言方法,结果由社区语言工作者和治理组织审查。高排行榜评分证明该方法有效;它不能证明它是适当的。
4. 代码转移
当方法达到可部署层级(针对黄金标准评估的综合评分 ≥ 0.70)且通过社区审查(人工验证)时:
- 研究人员交出源代码
- 法律所有权转移到土著治理组织(例如,部落委员会、语言权威或梅蒂斯组织)
- 治理组织持有评估数据集的加密密钥
- 该方法成为社区控制的资产
请参阅 评分规范,第 5 节了解质量层级定义,以及 基准规范,第 8.3 节了解完整的转移条件,第 7 节了解人工验证门控。
5. 生产部署
该方法被导出为 champollion 插件并部署到生产 API。社区控制:
- 谁可以访问该方法
- 适用什么定价条款
- 该方法是否可用于商业用途
- 何时以及如何更新该方法
为什么这很重要
传统的机器学习研究遵循一种掠夺性模式:
- 研究人员从社区收集数据
- 研究人员训练模型
- 研究人员发表论文
- 社区一无所获
这种模式现在以工业规模运作。Meta 的 OMT-1600(2026 年 3 月)为 1,600 种语言训练了翻译模型——包括平原克里语等土著语言——使用网络爬取的数据和圣经翻译。这些模型在没有社区同意协议的情况下进行了训练,权重目前不可下载,这些语言被建模的社区没有所有权权益、没有治理角色、也没有收入。论文是产品。社区是数据源。
竞技场颠倒了这一点:
- 研究人员构建方法
- 竞技场针对社区策划的语料库使用形态学指标验证它
- 社区获得工作代码的所有权
- 社区从 API 使用中获得收入
这是 Champollion 与所有其他低资源语言机器翻译工作(包括 OMT-1600)的根本区别: 我们不仅为社区生产方法——我们将方法的所有权转移给社区。代码、权重、部署基础设施——一切都成为社区财产。这不是理论框架——它是平台上每个土著语言方法的操作流程。
OCAP® 对齐
所有权转移流程直接实现了 OCAP® 原则:
| 原则 | 实现 |
|---|---|
| 所有权 | 治理组织持有方法代码和模型权重的所有权 |
| 控制 | 治理组织控制部署条款、访问和定价 |
| 访问 | 社区成员通过 champollion API 或直接下载访问该方法 |
| 占有 | 语言资源(指导数据、词典、FST 规则)通过 api 方法保留在社区控制的基础设施上 |
对研究人员
如果您正在为土著语言开发方法:
- 建立关系 在开始前与语言社区建立关系
- 使用开放许可数据 用于开发(不是社区限制资源)
- 记录出处 在您的 run card 中——列出每个资源、其许可证和来源
- 准备转移 ——如果您的方法成功,代码属于社区,而不是您
- 这是一个特性,不是限制 ——您的贡献是架构和技术,您可以发布和重用。社区的贡献是使其适用于他们语言的语言知识。