Magsumite ng Pamamaraan
Ehekutibong Buod. Isang sunod-sunod na mabilisang panimula para sa pagsusumite ng inyong unang benchmark run sa leaderboard. I-clone ang harness, patakbuhin ito laban sa isang dataset, suriin ang inyong run card, at isumite. Aabutin ito ng 10 minuto kung mayroon kayong API key.
Ginagabayan kayo ng gabay na ito sa pagsusumite ng inyong unang benchmark run sa MT Eval Arena leaderboard.
Mga Kinakailangan
- Python 3.10+
- Isang OpenRouter API key (o katumbas para sa inyong model provider)
- Isang pamamaraan ng pagsasalin — anumang gumagawa ng mga pagsasalin mula sa source text
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp
Hakbang 1: Patakbuhin ang Harness
Sinusukat ng harness ang inyong pamamaraan laban sa isang estandardisadong dataset:
mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
| Flag | Ginagawa Nito |
|---|---|
--corpus | Path patungo sa evaluation corpus (.json, .jsonl, .tsv) |
--model | Model slug — maikling alias (hal. gemini-pro) o buong OpenRouter ID |
--condition | Label para sa inyong pamamaraan (lumalabas sa leaderboard) |
--temperature | Sampling temperature (mas mababa = mas deterministiko) |
--fst-retries | Opsyonal: bilang ng mga pagtatangkang ulitin ng FST |
--submit | Awtomatikong isumite ang run card sa leaderboard |
Gumagawa ang harness ng isang run card — isang nagsasariling JSON file na may inyong mga score, dataset hash, model slug, at kriptograpikong fingerprint na nag-uugnay ng mga resulta sa eksaktong configuration ng eksperimento.
Hakbang 2: Suriin ang Inyong Run Card
Sine-save ang mga run card sa results/. Suriin ang sa inyo bago magsumite:
cat results/your-run-card.json | python -m json.tool
Mahahalagang field na dapat suriin:
scores.chrf_plus_plus— ang inyong pangunahing quality metricscores.exact_match_rate— proporsyon ng mga perpektong pagsasalinscores.fst_acceptance_rate— morphological validity (kung ginamit ang FST)totals.total_cost_usd— gastos ng runfingerprint— reproducibility hash ng eksperimento
Tingnan ang Run Card Specification para sa kumpletong schema.
Hakbang 3: Isumite
Awtomatikong pagsusumite
Kung ipinasa ninyo ang --submit nang patakbuhin ang harness, na-upload na ang inyong run card.
Manwal na pagsusumite
Isumite ang anumang run card sa pamamagitan ng API:
curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json
O mag-upload sa pamamagitan ng Leaderboard UI.
Ano ang Susunod na Mangyayari
- Vine-validate ang inyong pagsusumite (dataset hash, integridad ng run card)
- Lumalabas ang mga resulta sa leaderboard bilang Self-benchmarked (trust tier 1)
- Upang makakuha ng status na GDS Verified, isumite ang inyong pamamaraan bilang installable plugin upang magawang i-reproduce ng mga maintainer ang inyong mga resulta
- Para sa mga pamamaraan para sa mga katutubong wika: kung umabot sa tuktok ang inyong pamamaraan, magsisimula ang proseso ng paglilipat ng pagmamay-ari
Tingnan Din
- Paggamit ng Harness — kumpletong CLI reference
- Mga Panuntunan ng Leaderboard — pamantayan sa pagsusumite at mga patakaran laban sa gaming
- Pagbuo ng Pamamaraan — ang TranslationMethod protocol
- Mga Dataset — mga available na evaluation dataset