提交方法

执行摘要。 分步快速入门指南，用于向排行榜提交您的第一个基准测试运行。克隆工具，针对数据集运行它，查看您的运行卡，然后提交。如果您有 API 密钥，只需 10 分钟。

本指南将引导您完成向 MT Eval Arena 排行榜提交第一个基准测试运行的过程。

前置条件

# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

工具针对标准化数据集对您的方法进行评分：

mt-eval run \
  --corpus data/edtekla-dev-v1.json \
  --model gemini-pro \
  --condition your-method-name \
  --temperature 0.2

标志	功能
`--corpus`	评估语料库的路径（`.json`、`.jsonl`、`.tsv`）
`--model`	模型标识 — 短别名（例如 `gemini-pro`）或完整 OpenRouter ID
`--condition`	您的方法的标签（显示在排行榜上）
`--temperature`	采样温度（较低 = 更具确定性）
`--fst-retries`	可选：FST 重试次数
`--submit`	自动将运行卡提交到排行榜

工具生成一个运行卡 — 一个自包含的 JSON 文件，包含您的分数、数据集哈希、模型标识和一个将结果与确切实验配置绑定的密码学指纹。

运行卡保存到 results/。在提交前检查您的：

cat results/your-run-card.json | python -m json.tool

要检查的关键字段：

查看运行卡规范了解完整架构。

如果您在运行工具时传递了 --submit，您的运行卡已经上传。

通过 API 提交任何运行卡：

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
  -H "Content-Type: application/json" \
  -d @results/your-run-card.json

或通过排行榜 UI 上传。