常见问题

执行摘要。 关于 MT Eval Arena 的常见问题解答 — 评分工作原理、哪些提交会被取消资格、如何处理没有 FST 的语言、模型和参数建议，以及提交流程。

评分与指标

工具包计算哪些指标？

工具包为平原克里语（当前基准语言）计算五个指标。其中三个与语言无关，适用于任何语言；两个目前依赖于 CRK 特定插件，随着我们扩展到更多语言，这两个也将被泛化。

指标	范围	测量内容	状态
chrF++	0–100	预测翻译与参考翻译之间的字符 n-gram 重叠。对形态丰富的语言最佳的表面指标。使用 sacrebleu 的原生评分。	✅ 所有语言
精确匹配	0.0–1.0	规范化后预测与参考完全匹配的条目比例。	✅ 所有语言
FST 接受度	0.0–1.0	有限状态转换器（形态分析器）接受的输出词的比例。仅在提供 FST 二进制文件时计算。	✅ 所有具有 FST 的语言
等价匹配	0.0–1.0	与参考或可接受变体匹配的条目分数 — 考虑词序、正字法约定和方言差异。	⚡ CRK（泛化中）
语义分数	0.0–1.0	意义保留分数 — 翻译在多大程度上捕捉了预期含义，不考虑表面形式？	⚡ CRK（泛化中）

计划增加更多指标：形态准确性、代码混用检测、术语遵循度和幻觉检测。完整的 19 个指标清单见评分规范 §2。

综合分数如何计算？

综合分数是可用指标的加权平均值，归一化到 0.0–1.0 范围。权重在两个配置文件中定义：

配置文件 A（具有 FST 的语言）：9 个指标，结构指标（FST + 形态准确性）占综合权重的 40%
配置文件 B（没有 FST 的语言）：8 个指标，语义和 chrF++ 具有相等的最高权重

当指标不可用时，其权重按比例重新分配到其余指标。这意味着早期基准（仅有 chrF++ 和精确匹配可用）仍然产生有效的综合分数 — 有效权重只是反映可用的内容。

完整的权重表、规范化规则和排除理由见评分规范 §4。 工具包代码在 mt_eval_harness/scoring.py 中镜像这些表。chrF++ 通过除以 100 进行规范化后再加权；代码混用和幻觉率被反转（越低越好）。

什么是质量等级？

质量等级是映射到综合分数范围的启发式标签。它们帮助传达分数在实践中的含义：

等级	综合范围	解释
基线	0.00 – 0.30	低于有用质量。方法需要显著改进。
新兴	0.30 – 0.50	显示前景。某些翻译正确但不一致。
功能性	0.50 – 0.70	可用于参考，需要人工审查。不适合未审查的部署。
可部署	0.70 – 0.85	准备好用于生产，需要定期审查。触发所有权转移资格。
流畅	0.85 – 1.00	接近母语质量。适合无监督部署。

质量等级和验证等级有什么区别？

质量等级描述自动化分数的含义（基线 → 流畅）。验证等级描述谁验证了结果：

验证等级	含义
自我基准测试	提交者自己运行了工具包。分数看起来合理但未验证。
GDS 验证	维护者使用提交的方法配置重现了结果。
社区验证	双语使用者审查了翻译并确认了质量。

一个方法可以是"可部署"质量但仅"自我基准测试"验证 — 意味着分数看起来很好但没有人独立确认过。

提交与取消资格

什么会导致我的提交被取消资格？

如果出现以下情况，您的提交将被拒绝或标记：

您的方法接触过评估数据。 如果您训练、微调、少样本提示或以其他方式使用了评估数据集中的任何条目，您的分数被人为夸大。这包括在提示中使用参考翻译。
您的运行卡片未通过完整性检查。 指纹必须与配置匹配。篡改的运行卡片被拒绝。
您的方法未实现 TranslationMethod 协议。 工具包期望 translate(entries, config) → results。绕过工具包的自定义集成不被接受。

我可以多次提交吗？

可以。排行榜跟踪所有提交。您可以迭代 — 运行数十个实验，仅提交最佳结果。每个提交记录一个唯一指纹，因此不存在关于哪个运行产生哪个分数的歧义。

我如何获得分数验证？

自我基准测试（自动）： 每个提交都从这里开始。
GDS 验证： 将您的方法作为可重现的包提交（代码 + 配置 + 教练数据）。维护者将针对相同数据集重新运行它并确认分数匹配。
社区验证： 对于土著语言，这需要双语使用者审查翻译样本。这无法自动化 — 需要社区参与。

提交 API 是否已上线？

还没有。https://mtevalarena.org/api/leaderboard/submit 端点是理想状态。当前提交应通过拉取请求提交到 eval 工具包仓库，将您的运行卡片 JSON 放在 results/ 目录中。

模型与参数

我应该使用什么模型？

没有单一的最佳模型 — 这取决于语言对、您的预算和您的方法。一般指导：

语言类型	推荐起点	原因
高资源 (法语、西班牙语、日语)	`google/gemini-2.5-flash` 或 `gpt-4o-mini`	快速、便宜、强大的基线
低资源但有一定 LLM 覆盖 (克丘亚语、约鲁巴语)	`google/gemini-2.5-pro` 或 `anthropic/claude-sonnet-4`	更大的模型具有更好的潜在知识
多综合型 / 极低资源 (平原克里语、因纽克提图特语)	`google/gemini-2.5-pro` 配合教练数据	教练数据比模型选择更重要。OMT-1600 包括一些多综合型语言（例如 R1 等级的 CRK），但使用标准 BPE 分词 — 在 Arena 中将其作为基线进行基准测试。

评估工具包使用 OpenRouter，因此可以对 OpenRouter 上可用的任何模型进行基准测试。运行 champollion models --method llm 查看可用模型。

我应该使用什么温度？

通常越低越好用于翻译：

温度	效果	推荐用于
0.0 – 0.2	高度确定性、一致的输出	生产方法、最终基准
0.3 – 0.5	某些变化、偶尔更有创意	探索、早期迭代
0.6+	高度变化、不可预测	不推荐用于 MT 基准测试

温度记录在运行卡片中，因此不同的温度产生不同的指纹 — 它们被视为不同的实验。

教练数据有帮助吗？

是的，对于低资源语言特别有帮助。教练数据（语法规则、字典条目、风格说明）被注入到 LLM 系统提示中。对于平原克里语，教练方法对多综合型语言的性能一致优于原始 LLM 方法，因为通用 LLM 对多综合型的接触有限，且缺乏形态意识。即使是专门为 CRK 训练的 OMT-1600，也使用无法在结构上表示多综合型形态的标准 BPE 分词。教练数据提供了模型缺乏的语言学背景。

对于高资源语言（法语、西班牙语），教练的影响较小，因为模型已经具有强大的基线知识。

完整规范见教练数据。

FST 与形态验证

如果我的语言没有 FST 怎么办？

许多语言没有有限状态转换器。这没关系 — 工具包在没有 FST 的情况下也能工作。综合分数使用配置文件 B 权重（见评分规范 §4.3），将权重转移到语义和表面指标。FST 接受度在运行卡片中标记为 null。

现有 FST 的主要注册表：

注册表	覆盖范围	URL
GiellaLT	萨米语、克里语、因纽克提图特语和其他北极/亚北极语言	giellalt.uit.no
ALTLab	平原克里语、林地克里语、奥吉布瓦语	altlab.artsrn.ualberta.ca
Apertium	~60 个语言对，主要是欧洲语言	apertium.org
UniMorph	150+ 种语言的形态范式	unimorph.github.io

我可以构建 FST 吗？

可以，但这并非易事。FST 编码语言的形态规则 — 所有有效的词形。构建 FST 需要对语言有深入的语言学知识。如果您可以访问形态语法（例如来自语言学系），可以使用 HFST 或 Foma 等工具将其编译为 FST。

FST 门控在实践中如何工作？

FST 门控管道的工作方式如下：

LLM 生成翻译
输出中的每个词都针对 FST 进行检查
FST 拒绝的词被标记为形态无效
方法可以使用反馈重试（"词 X 无效，请重试"）
重试后，剩余的无效词被记录

FST 接受度测量有多少词通过验证。完整的工作示例见 FST 门控管道教程。

数据与数据集

我可以为新语言贡献数据集吗？

可以。来自基准规范 §11 的最低要求：

50 个金标准条目（源 + 验证的参考翻译）
30 个开发条目（对于小型语料库可与金标准重叠）
社区同意（对于土著语言，需要来自治理机构的明确授权）
来源文档（数据来自何处、适用什么许可证）

新数据集自动打开新的排行榜轨道。贡献者指南见面向语言社区。

我的数据集应该是什么格式？

具有规范字段名称的 JSON：

{
  "name": "my-language-dev-v1",
  "language_pair": "en-xxx",
  "segment": "development",
  "version": "1.0",
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "[translation in target language]",
      "difficulty": 1,
      "domain": "general"
    }
  ]
}

完整的模式和难度等级定义见数据集。

主权与所有权

谁拥有为土著语言构建的方法？

对于土著语言，达到可部署等级（综合分数 ≥ 0.70）且通过社区验证的方法触发所有权转移流程。代码所有权从研究者转移到语言社区的治理组织。

研究者保留：

出版权（关于该方法的学术论文）
排行榜上的署名
将相同技术应用于其他语言的权利

治理组织获得：

方法代码和教练数据的完全所有权
部署控制权（何时、何地、如何）
API 使用收入（90% 社区、10% 基础设施）

我可以在没有任何主权问题的情况下将 champollion 用于非土著语言吗？

可以。对于标准语言（法语、日语、西班牙语等），没有主权考虑。正常使用 champollion — 翻译、同步、发布随意。主权框架特别适用于土著和社区治理语言，其中数据治理原则（OCAP®、CARE、Te Mana Raraunga）需要特殊考虑。

另见

工作原理 — 完整的解决方案说明
评分规范 — 所有评分逻辑的 SSOT（指标、权重、等级）
基准规范 — 评估协议、语料库格式、主权
提交方法 — 分步快速入门
排行榜规则 — 提交标准
数据主权 — OCAP®、CARE 和伦理义务

评分与指标​

工具包计算哪些指标？​

综合分数如何计算？​

什么是质量等级？​

质量等级和验证等级有什么区别？​

提交与取消资格​

什么会导致我的提交被取消资格？​

我可以多次提交吗？​

我如何获得分数验证？​

提交 API 是否已上线？​

模型与参数​

我应该使用什么模型？​

我应该使用什么温度？​

教练数据有帮助吗？​

FST 与形态验证​

如果我的语言没有 FST 怎么办？​

我可以构建 FST 吗？​

FST 门控在实践中如何工作？​

数据与数据集​

我可以为新语言贡献数据集吗？​

我的数据集应该是什么格式？​

主权与所有权​

谁拥有为土著语言构建的方法？​

我可以在没有任何主权问题的情况下将 champollion 用于非土著语言吗？​

另见​