メソッドを提出する

概要。 リーダーボードへの最初のベンチマーク実行を提出するためのステップバイステップのクイックスタートです。ハーネスをクローンし、データセットに対して実行し、ランカードを確認して提出します。APIキーがあれば10分で完了します。

このガイドでは、MT Eval Arena リーダーボードへの最初のベンチマーク実行を提出する手順を説明します。

前提条件

# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

ハーネスは、標準化されたデータセットに対してメソッドをスコアリングします：

mt-eval run \
  --corpus data/edtekla-dev-v1.json \
  --model gemini-pro \
  --condition your-method-name \
  --temperature 0.2

フラグ	説明
`--corpus`	評価コーパスへのパス（`.json`、`.jsonl`、`.tsv`）
`--model`	モデルスラッグ — 短いエイリアス（例：`gemini-pro`）またはフル OpenRouter ID
`--condition`	メソッドのラベル（リーダーボードに表示されます）
`--temperature`	サンプリング温度（低いほど決定論的）
`--fst-retries`	オプション：FST リトライ試行回数
`--submit`	ランカードをリーダーボードへ自動提出する

ハーネスはランカードを生成します。これは、スコア、データセットハッシュ、モデルスラッグ、および結果を正確な実験設定に紐付ける暗号学的フィンガープリントを含む自己完結型の JSON ファイルです。

ランカードは results/ に保存されます。提出前に内容を確認してください：

cat results/your-run-card.json | python -m json.tool

確認すべき主なフィールド：

完全なスキーマについては、ランカード仕様を参照してください。

ハーネス実行時に --submit を指定した場合、ランカードはすでにアップロードされています。

API を使用して任意のランカードを提出できます：

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
  -H "Content-Type: application/json" \
  -d @results/your-run-card.json

またはリーダーボード UI からアップロードすることもできます。