面向语言社区
执行摘要。 本指南面向土著语言和低资源语言使用者,说明如何为竞技场做出贡献(参考译文、翻译审核、教练数据),以及社区将获得什么回报(代码所有权、API 收入、完整部署控制)。无需编程。
您无需成为程序员即可为竞技场做出贡献。如果您使用土著语言或低资源语言,您是这个生态系统中最重要的人。
我们需要您提供什么
参考译文
我们需要精心策划的翻译对用于评估——一侧是英文,另一侧是您的语言。这些成为所有翻译方法都要评分的"标准答案"。
您可以从以下来源创建这些翻译:
- 教育材料 — 教科书练习、课程计划、工作表
- 社区文件 — 会议记录、新闻通讯、公告
- 日常短语 — UI 字符串、应用标签、常见表达
- 文化内容 — 故事、歌曲或描述(需获得适当许可)
格式很简单,采用 JSON:
{
"entries": [
{ "id": 1, "source": "Hello", "reference": "tânisi" },
{ "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
]
}
翻译审核
每个声称能够生成可用翻译的方法都需要人工验证。双语使用者审核输出结果,告诉我们计算机是否正确——更重要的是,为什么它出错了。
教练数据
语法规则、词典条目、形态学模式——这些是使翻译方法发挥作用的语言资源。您对自己语言工作方式的了解是任何 AI 模型都无法替代的。
您将获得什么回报
所有权
当为您的语言构建的翻译方法在竞技场上得到验证时,所有权转移到您社区的治理组织。您拥有代码、模型权重和部署。
收入
当开发者通过 champollion API 使用您语言的方法时,您的社区获得 API 收入的 90%。剩余的 10% 用于覆盖基础设施成本。
控制
您的治理组织控制:
- 谁可以访问该方法
- 是否可以商业使用
- 适用什么定价条款
- 何时以及如何更新
- 用于进一步开发的数据
如何参与
- 联系我们 — 在 竞技场仓库上提交 issue 或给维护者发送电子邮件
- 描述您的语言 — 它属于哪个语族?有多少使用者?使用什么书写系统?存在什么计算资源(FST、词典、语料库)?
- 从小处开始 — 即使只有 50 对精心策划的翻译对也足以创建评估数据集并开启新的排行榜赛道
- 连接我们与治理 — 您社区中谁对语言数据和技术有权威?竞技场的主权模型需要一个治理合作伙伴
数据主权
您的语言数据属于您。竞技场建立在 OCAP® 原则之上:
- 我们从不在服务器上收集或存储您的语言数据
- 翻译方法使用
api架构——所有教练数据、词典和语法规则都保留在您控制的基础设施上 - 您决定谁可以为您的语言开发方法
- 排行榜分数证明方法有效;它们不授予部署权限