提交方法
执行摘要。 分步快速入门指南,用于向排行榜提交您的第一个基准测试运行。克隆工具,针对数据集运行它,查看您的运行卡,然后提交。如果您有 API 密钥,只需 10 分钟。
本指南将引导您完成向 MT Eval Arena 排行榜提交第一个基准测试运行的过程。
前置条件
- Python 3.10+
- OpenRouter API 密钥(或您的模型提供商的等效密钥)
- 翻译方法 — 任何能从源文本生成翻译的方法
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp
步骤 1:运行工具
工具针对标准化数据集对您的方法进行评分:
mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
| 标志 | 功能 |
|---|---|
--corpus | 评估语料库的路径(.json、.jsonl、.tsv) |
--model | 模型标识 — 短别名(例如 gemini-pro)或完整 OpenRouter ID |
--condition | 您的方法的标签(显示在排行榜上) |
--temperature | 采样温度(较低 = 更具确定性) |
--fst-retries | 可选:FST 重试次数 |
--submit | 自动将运行卡提交到排行榜 |
工具生成一个运行卡 — 一个自包含的 JSON 文件,包含您的分数、数据集哈希、模型标识和一个将结果与确切实验配置绑定的密码学指纹。
步骤 2:查看您的运行卡
运行卡保存到 results/。在提交前检查您的:
cat results/your-run-card.json | python -m json.tool
要检查的关键字段:
scores.chrf_plus_plus— 您的主要质量指标scores.exact_match_rate— 完美翻译的比例scores.fst_acceptance_rate— 形态学有效性(如果使用了 FST)totals.total_cost_usd— 运行的成本fingerprint— 实验的可重现性哈希
查看运行卡规范了解完整架构。
步骤 3:提交
自动提交
如果您在运行工具时传递了 --submit,您的运行卡已经上传。
手动提交
通过 API 提交任何运行卡:
curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json
或通过排行榜 UI 上传。
接下来会发生什么
- 您的提交被验证(数据集哈希、运行卡完整性)
- 结果以自基准测试(信任等级 1)的形式出现在排行榜上
- 要获得 GDS Verified 状态,请将您的方法作为可安装的插件提交,以便维护者可以重现您的结果
- 对于土著语言方法:如果您的方法排名靠前,所有权转移流程开始