跳转到主要内容

MT 评估

执行摘要。 本页定义了排行榜提交标准、评分指标(chrF++、FST 接受度、精确匹配、等价匹配、语义分数)、反作弊政策、验证层级和提交工作流。已暴露于评估数据的方法将被取消资格。

champollion 包含一个机器翻译评估框架,专为翻译方法的可重复基准测试而设计——特别是针对低资源和土著语言,这些语言缺乏标准 MT 基准,质量声明难以验证。


排行榜

中心是**方法排行榜**——一个由 Supabase 支持的实时记分板,研究人员和社区成员可以在此提交和比较翻译方法,具有指纹识别和可重复的评估。

每次提交包括:

  • 指纹识别管道 — 绑定到特定的 Git 提交和配置哈希,因此结果可追溯到生成它们的确切代码
  • 版本化数据集 — 内容哈希和版本化;分数仅在相同数据集版本内可比较
  • 标准化指标 — 所有评分由共享评估工具计算,消除实现差异
  • 信任层级 — 自基准测试、GDS 验证或社区验证
  • 成本追踪 — 每次提交的 API 成本,使成本-质量权衡透明化

排行榜目前追踪五个指标。三个适用于任何语言;两个可用于平原克里语,随着我们的扩展将被推广:

指标类型测量内容
chrF++字符 n-gram F 分数主要质量指标——与人类判断相关性好,特别是对于形态丰富的语言
精确匹配完美匹配的比例严格准确性——翻译与金标准完全相同的频率有多高?
FST 接受度形态学门槛通过率对于具有有限状态转换器验证的方法——有多大比例的输出在形态学上有效?
等价匹配可接受变体率与参考或可接受变体匹配的比例(词序、正字法约定)。目前为 CRK;正在推广。
语义分数语义保真度意义保留——翻译是否捕捉了预期的含义,无论表面形式如何?目前为 CRK;正在推广。

:::info 完整指标套件 评分规范定义了完整的 19 个指标库,涵盖 5 个类别、复合分数公式、权重表和质量层级阈值。 :::

→ 查看排行榜


可用数据集

EDTeKLA 开发集 v1

为英语→平原克里语 (SRO) 翻译构建的第一个评估数据集。由阿尔伯塔大学 EdTeKLA 研究小组创建。

属性
IDedtekla-dev-v1
语言对EN → CRK(平原克里语,SRO 正字法)
条目数404(master_corpus.json:62 个金标准 + 342 个教科书);共 548 个可用
许可证CC BY-NC-SA 4.0
来源gold_standard(由使用者验证)、textbook(已发布教育材料)

FLORES+ 开发测试 — 仅供开发使用

[!WARNING] FLORES+ 可用于开发和调试,但不用于官方排行榜评估。 FLORES+(原 Meta FLORES-200)是一个广泛公开的基准数据集,前沿 LLM 几乎肯定已在其上进行了训练。针对 FLORES+ 的分数不能可靠地反映基于 LLM 的方法的真实翻译质量。非 LLM 方法(FST、基于规则、微调 NMT)受影响较少,但 FLORES+ 分数仍不会发布到排行榜。

FLORES+ 测试装置仍可在 test/benchmark/fixtures/ 中获得,用于管道冒烟测试、跨语言验证和开发使用。官方评估使用从人工编写文本构建的自定义语料库,这些文本在平行形式中不公开可用。

有关完整数据集架构、难度层级以及如何创建自己的数据集,请参阅评估数据集

:::danger 不要在评估数据上进行训练

这些数据集仅用于评估。 在评估数据上进行训练、微调、少样本提示或以其他方式暴露的方法将产生人为夸大的分数,并将被取消排行榜资格。

这不是建议——这是评估完整性的最重要规则。使用单独的语料库进行训练。评估集必须在开发期间对模型保持不可见。

如果您使用教练数据或少样本示例,这些必须来自完全独立的来源。如有疑问,请不要包含它。 :::

:::warning LLM 非确定性

LLM 输出是非确定性的。分数代表在特定模型版本和 API 配置下的时间点测量。模型提供商可能随时更新权重、解码策略或安全过滤器,这可能导致运行之间的分数漂移。排行榜记录每次提交的确切模型 slug 和时间戳。 :::


什么是好方法

并非所有方法都是平等的。以下是严谨工作与夸大分数的区别。

强方法的特征

  • 训练和评估数据的清晰分离 — 您的方法在开发、调优、提示工程或少样本示例选择期间从未见过评估集
  • 可重复 — 其他人可以克隆您的仓库、运行工具,并获得相同的分数(在 LLM 非确定性范围内)
  • 有文档 — 您的方法卡描述了您的方法做什么、使用什么工具以及其局限性
  • 对范围诚实 — 如果您的方法仅适用于一个语言对,请说明;如果它在某些形态学模式上性能下降,请记录下来
  • 社区意识 — 对于土著语言,您的方法尊重数据主权。您已咨询过语言社区或仅使用开放许可数据

红旗(导致取消资格的情况)

红旗为什么这是个问题
在评估数据上训练完全违反评估目的。夸大的分数误导所有人。
精选结果运行 10 次并提交最佳运行,而不披露其他运行
未披露的后处理在评分前手动修复输出
受污染的教练数据使用评估集示例作为少样本提示或字典条目
声称商业就绪性而无来源如果您的方法使用 CC BY-NC-SA 数据,则不具有商业就绪性

验证层级

验证层级描述谁验证了结果——与评分规范,§5中定义的质量层级(基线 → 流畅)分开,后者描述自动复合分数的含义。

层级含义如何获得
自基准测试您自己运行了工具并提交了结果打开 PR 并提交您的运行卡
GDS 验证champollion 维护者重现了您的结果将您的方法作为可安装插件提交
社区验证治理组织针对金标准运行 + 社区审查将方法代码提交给治理组织

如何提交

  1. 构建您的方法 — 参阅构建方法了解方法接口
  2. 运行评估工具 — 参阅评估工具了解设置和使用
  3. 生成运行卡 — 工具生成包含您的分数、指纹和元数据的 JSON 运行卡
  4. 打开 PR — 将您的运行卡提交到评估工具仓库
  5. 出现在排行榜上 — 合并后,您的结果将出现在方法排行榜

未来方向

  • 综合模型比较运行 — 使用自定义评估语料库(而非公开基准)对 champollion 语言的前沿模型(GPT-4o、Claude、Gemini 等)进行系统评估
  • 更多语言对 — 随着社区验证数据集的可用,添加克丘亚语、因纽克提图特语和其他低资源语言
  • 数据集导入 — 将外部评估数据集(WMT、Tatoeba 等)转换为 champollion 评估格式的工具
  • 自动重新运行 — 检测模型版本更改并重新运行基准以追踪分数漂移

另请参阅