跳转到主要内容

MT Eval Arena

Think you can solve it? Prove it.

低资源机器翻译的独立基准测试平台 — 48 个开发语料库、19 项评分指标、bootstrap 置信区间,以及针对商业服务不支持的语言的 FST 形态学验证。

MT Eval Arena 是 Champollion 项目的评估引擎。

📐

标准化基准测试

使用 chrF++、精确匹配、FST 接受度、语义评分和 bootstrap 置信区间进行可重现的评估。每次运行都有指纹标记。

🏴

社区主权

获胜方法将所有权转移给语言社区。遵循 OCAP® 原则。社区控制其数据、方法和收益。

🔌

开放插件架构

支持任何方法:经过训练的 LLM、微调模型、FST 门控管道或自定义插件。只要能生成翻译,测试框架就能对其评分。

🚀

部署桥接

经过验证的方法通过 champollion 部署到生产环境。开发者通过 API 使用。收益流向社区。

当前基准测试

EDTeKLA Dev Set v1

  • 语言: 英语 → 平原克里语 (SRO)
  • 条目: 486+ 精选对
  • 许可证: CC BY-NC-SA 4.0
  • 来源: 阿尔伯塔大学

FLORES+ Devtest

  • 语言: 英语 → 39 种语言
  • 条目: 每种语言 1,012 个句子
  • 许可证: CC BY-SA 4.0
  • 来源: OLDI / HuggingFace