메서드 제출하기

요약. 첫 벤치마크 실행을 리더보드에 제출하기 위한 단계별 빠른 시작 가이드예요. 하니스를 클론하고, 데이터셋에 대해 실행하고, 실행 카드를 검토한 뒤 제출하세요. API 키가 있다면 10분이면 충분해요.

이 가이드는 첫 벤치마크 실행을 MT Eval Arena 리더보드에 제출하는 과정을 안내해 드려요.

사전 준비 사항

# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

하니스는 표준화된 데이터셋에 대해 메서드를 채점해요:

mt-eval run \
  --corpus data/edtekla-dev-v1.json \
  --model gemini-pro \
  --condition your-method-name \
  --temperature 0.2

플래그	기능
`--corpus`	평가 코퍼스 경로 (`.json`, `.jsonl`, `.tsv`)
`--model`	모델 슬러그 — 짧은 별칭 (예: `gemini-pro`) 또는 전체 OpenRouter ID
`--condition`	메서드의 레이블 (리더보드에 표시됨)
`--temperature`	샘플링 온도 (낮을수록 더 결정론적)
`--fst-retries`	선택 사항: FST 재시도 횟수
`--submit`	실행 카드를 리더보드에 자동 제출

하니스는 실행 카드를 생성해요 — 점수, 데이터셋 해시, 모델 슬러그, 그리고 결과를 정확한 실험 구성과 연결하는 암호화 지문을 담은 독립적인 JSON 파일이에요.

실행 카드는 results/에 저장돼요. 제출하기 전에 검토하세요:

cat results/your-run-card.json | python -m json.tool

확인해야 할 주요 필드:

전체 스키마는 실행 카드 명세를 참고하세요.

하니스를 실행할 때 --submit를 전달했다면, 실행 카드가 이미 업로드되었어요.

API를 통해 어떤 실행 카드든 제출할 수 있어요:

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
  -H "Content-Type: application/json" \
  -d @results/your-run-card.json

또는 리더보드 UI를 통해 업로드하세요.