MT 评估

执行摘要。 本页定义了排行榜提交标准、评分指标（chrF++、FST 接受度、精确匹配、等价匹配、语义分数）、反作弊政策、验证层级和提交工作流。已暴露于评估数据的方法将被取消资格。

champollion 包含一个机器翻译评估框架，专为翻译方法的可重复基准测试而设计——特别是针对低资源和土著语言，这些语言缺乏标准 MT 基准，质量声明难以验证。

排行榜

中心是**方法排行榜**——一个由 Supabase 支持的实时记分板，研究人员和社区成员可以在此提交和比较翻译方法，具有指纹识别和可重复的评估。

每次提交包括：

指纹识别管道 — 绑定到特定的 Git 提交和配置哈希，因此结果可追溯到生成它们的确切代码
版本化数据集 — 内容哈希和版本化；分数仅在相同数据集版本内可比较
标准化指标 — 所有评分由共享评估工具计算，消除实现差异
信任层级 — 自基准测试、GDS 验证或社区验证
成本追踪 — 每次提交的 API 成本，使成本-质量权衡透明化

排行榜目前追踪五个指标。三个适用于任何语言；两个可用于平原克里语，随着我们的扩展将被推广：

指标	类型	测量内容
chrF++	字符 n-gram F 分数	主要质量指标——与人类判断相关性好，特别是对于形态丰富的语言
精确匹配	完美匹配的比例	严格准确性——翻译与金标准完全相同的频率有多高？
FST 接受度	形态学门槛通过率	对于具有有限状态转换器验证的方法——有多大比例的输出在形态学上有效？
等价匹配	可接受变体率	与参考或可接受变体匹配的比例（词序、正字法约定）。目前为 CRK；正在推广。
语义分数	语义保真度	意义保留——翻译是否捕捉了预期的含义，无论表面形式如何？目前为 CRK；正在推广。

:::info 完整指标套件评分规范定义了完整的 19 个指标库，涵盖 5 个类别、复合分数公式、权重表和质量层级阈值。 :::

→ 查看排行榜

可用数据集

EDTeKLA 开发集 v1

为英语→平原克里语 (SRO) 翻译构建的第一个评估数据集。由阿尔伯塔大学 EdTeKLA 研究小组创建。

属性	值
ID	`edtekla-dev-v1`
语言对	EN → CRK（平原克里语，SRO 正字法）
条目数	404（`master_corpus.json`：62 个金标准 + 342 个教科书）；共 548 个可用
许可证	CC BY-NC-SA 4.0
来源	`gold_standard`（由使用者验证）、`textbook`（已发布教育材料）

FLORES+ 开发测试 — 仅供开发使用

[!WARNING] FLORES+ 可用于开发和调试，但不用于官方排行榜评估。 FLORES+（原 Meta FLORES-200）是一个广泛公开的基准数据集，前沿 LLM 几乎肯定已在其上进行了训练。针对 FLORES+ 的分数不能可靠地反映基于 LLM 的方法的真实翻译质量。非 LLM 方法（FST、基于规则、微调 NMT）受影响较少，但 FLORES+ 分数仍不会发布到排行榜。

FLORES+ 测试装置仍可在 test/benchmark/fixtures/ 中获得，用于管道冒烟测试、跨语言验证和开发使用。官方评估使用从人工编写文本构建的自定义语料库，这些文本在平行形式中不公开可用。

有关完整数据集架构、难度层级以及如何创建自己的数据集，请参阅评估数据集。

:::danger 不要在评估数据上进行训练

这些数据集仅用于评估。 在评估数据上进行训练、微调、少样本提示或以其他方式暴露的方法将产生人为夸大的分数，并将被取消排行榜资格。

这不是建议——这是评估完整性的最重要规则。使用单独的语料库进行训练。评估集必须在开发期间对模型保持不可见。

如果您使用教练数据或少样本示例，这些必须来自完全独立的来源。如有疑问，请不要包含它。 :::

:::warning LLM 非确定性

LLM 输出是非确定性的。分数代表在特定模型版本和 API 配置下的时间点测量。模型提供商可能随时更新权重、解码策略或安全过滤器，这可能导致运行之间的分数漂移。排行榜记录每次提交的确切模型 slug 和时间戳。 :::

什么是好方法

并非所有方法都是平等的。以下是严谨工作与夸大分数的区别。

强方法的特征

训练和评估数据的清晰分离 — 您的方法在开发、调优、提示工程或少样本示例选择期间从未见过评估集
可重复 — 其他人可以克隆您的仓库、运行工具，并获得相同的分数（在 LLM 非确定性范围内）
有文档 — 您的方法卡描述了您的方法做什么、使用什么工具以及其局限性
对范围诚实 — 如果您的方法仅适用于一个语言对，请说明；如果它在某些形态学模式上性能下降，请记录下来
社区意识 — 对于土著语言，您的方法尊重数据主权。您已咨询过语言社区或仅使用开放许可数据

红旗（导致取消资格的情况）

红旗	为什么这是个问题
在评估数据上训练	完全违反评估目的。夸大的分数误导所有人。
精选结果	运行 10 次并提交最佳运行，而不披露其他运行
未披露的后处理	在评分前手动修复输出
受污染的教练数据	使用评估集示例作为少样本提示或字典条目
声称商业就绪性而无来源	如果您的方法使用 CC BY-NC-SA 数据，则不具有商业就绪性

验证层级

验证层级描述谁验证了结果——与评分规范，§5中定义的质量层级（基线 → 流畅）分开，后者描述自动复合分数的含义。

层级	含义	如何获得
自基准测试	您自己运行了工具并提交了结果	打开 PR 并提交您的运行卡
GDS 验证	champollion 维护者重现了您的结果	将您的方法作为可安装插件提交
社区验证	治理组织针对金标准运行 + 社区审查	将方法代码提交给治理组织

如何提交

构建您的方法 — 参阅构建方法了解方法接口
运行评估工具 — 参阅评估工具了解设置和使用
生成运行卡 — 工具生成包含您的分数、指纹和元数据的 JSON 运行卡
打开 PR — 将您的运行卡提交到评估工具仓库
出现在排行榜上 — 合并后，您的结果将出现在方法排行榜上

未来方向

综合模型比较运行 — 使用自定义评估语料库（而非公开基准）对 champollion 语言的前沿模型（GPT-4o、Claude、Gemini 等）进行系统评估
更多语言对 — 随着社区验证数据集的可用，添加克丘亚语、因纽克提图特语和其他低资源语言
数据集导入 — 将外部评估数据集（WMT、Tatoeba 等）转换为 champollion 评估格式的工具
自动重新运行 — 检测模型版本更改并重新运行基准以追踪分数漂移

另请参阅

方法排行榜 — 实时分数和提交
评估工具 — 如何运行评估
评估数据集 — 数据集格式和可用数据集
构建方法 — 方法接口规范
运行卡规范 — 运行卡 JSON 架构
基准规范 — 评估协议、语料库格式、主权
评分规范 — 指标、复合权重和质量层级的单一信息源

排行榜​

可用数据集​

EDTeKLA 开发集 v1​

FLORES+ 开发测试 — 仅供开发使用​

什么是好方法​

强方法的特征​

红旗（导致取消资格的情况）​

验证层级​

如何提交​

未来方向​

另请参阅​

排行榜