MT Eval Arena
执行摘要。 MT Eval Arena 是一个开放的机器翻译方法基准测试平台,重点关注商业 MT 不存在或尚未经过独立验证的语言。它提供标准化评估、公开排行榜,以及通过 champollion 部署到生产环境的桥接。对于土著语言,经过验证的方法将所有权转移给社区。
一个开放的机器翻译方法验证平台——特别是针对商业 MT 不存在或尚未经过独立验证的语言。
构建一个方法。对其进行基准测试。证明它有效。如果它获胜,就会被部署。
问题所在
Google Translate 支持约 130 种语言。Meta 的 NLLB-200 覆盖约 200 种,OMT-1600(2026 年 3 月)声称覆盖 1,600 种。地球上有超过 7,000 种语言。对于 OMT-1600 最低资源层级的约 1,300 种语言,模型权重不可用,质量低于可用阈值,评估使用圣经领域文本和标准机器指标——没有形态学验证、没有独立测试、没有社区治理。对于剩余的约 5,400 种语言,没有任何预训练模型能产生任何输出。
Big Tech 现在正在投资低资源语言覆盖——但没有独立质量验证、形态学验证或社区治理的覆盖,就是没有信任的覆盖。最需要翻译工具的使用者恰好是最不可能拥有这些工具的社区。
Arena 的存在就是为了改变这一点。 它提供基础设施来开发、评估和部署任何语言的翻译方法——具有可重现的评分、开放提交和社区治理。
工作原理
- 你构建一个翻译方法 ——微调 LLM、微调模型、FST 门控管道或任何其他产生翻译的方法。
- harness 对其进行基准测试 ——标准化指标(chrF++、精确匹配、FST 接受度),指纹识别到特定的 Git 提交。
- 结果出现在排行榜上 ——每次提交都是可重现和可比较的。
- 如果它获胜,所有权转移 ——对于土著语言,获胜方法的代码转移给社区治理组织。
- 方法部署到生产环境 ——通过 champollion,面向开发者的 API。收入流向社区。
在这里证明它。在那里部署它。
适用人群
| 你是... | Arena 为你提供... |
|---|---|
| 机器学习工程师 / 研究员 | 标准化基准、可重现评分、竞争排行榜 |
| 语言学家 | 一个框架,将语法规则和词典转化为可测试的方法 |
| 语言社区成员 | 对你的语言方法如何开发和部署的治理权 |
| 资助者 / 拨款审查员 | 透明、可重现的指标来评估翻译研究提案 |
| 学生 | 一个具有真实影响的开放挑战——构建方法、提交分数 |
当前基准
EDTeKLA Development Set v1
- 语言对: English → Plains Cree (SRO)
- 条目: 548 个精选对(486 个教科书 + 62 个黄金标准)
- 许可证: CC BY-NC-SA 4.0
- 来源: EdTeKLA 研究小组,阿尔伯塔大学
FLORES+ Devtest
- 语言对: English → 39 种语言
- 条目: 每种语言 1,012 个句子
- 许可证: CC BY-SA 4.0
- 来源: OLDI
唯一规则
:::danger 不要在评估数据上进行训练 暴露于基准数据集的方法——作为训练数据、少样本示例、词典条目或提示材料——将被取消资格。可以在任何数据上进行微调。只是不要在测试集上。 :::