Lumaktaw sa pangunahing nilalaman

Magsumite ng Pamamaraan

Ehekutibong Buod. Isang sunod-sunod na mabilisang panimula para sa pagsusumite ng inyong unang benchmark run sa leaderboard. I-clone ang harness, patakbuhin ito laban sa isang dataset, suriin ang inyong run card, at isumite. Aabutin ito ng 10 minuto kung mayroon kayong API key.

Ginagabayan kayo ng gabay na ito sa pagsusumite ng inyong unang benchmark run sa MT Eval Arena leaderboard.


Mga Kinakailangan

  • Python 3.10+
  • Isang OpenRouter API key (o katumbas para sa inyong model provider)
  • Isang pamamaraan ng pagsasalin — anumang gumagawa ng mga pagsasalin mula sa source text
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

Hakbang 1: Patakbuhin ang Harness

Sinusukat ng harness ang inyong pamamaraan laban sa isang estandardisadong dataset:

mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
FlagGinagawa Nito
--corpusPath patungo sa evaluation corpus (.json, .jsonl, .tsv)
--modelModel slug — maikling alias (hal. gemini-pro) o buong OpenRouter ID
--conditionLabel para sa inyong pamamaraan (lumalabas sa leaderboard)
--temperatureSampling temperature (mas mababa = mas deterministiko)
--fst-retriesOpsyonal: bilang ng mga pagtatangkang ulitin ng FST
--submitAwtomatikong isumite ang run card sa leaderboard

Gumagawa ang harness ng isang run card — isang nagsasariling JSON file na may inyong mga score, dataset hash, model slug, at kriptograpikong fingerprint na nag-uugnay ng mga resulta sa eksaktong configuration ng eksperimento.


Hakbang 2: Suriin ang Inyong Run Card

Sine-save ang mga run card sa results/. Suriin ang sa inyo bago magsumite:

cat results/your-run-card.json | python -m json.tool

Mahahalagang field na dapat suriin:

  • scores.chrf_plus_plus — ang inyong pangunahing quality metric
  • scores.exact_match_rate — proporsyon ng mga perpektong pagsasalin
  • scores.fst_acceptance_rate — morphological validity (kung ginamit ang FST)
  • totals.total_cost_usd — gastos ng run
  • fingerprint — reproducibility hash ng eksperimento

Tingnan ang Run Card Specification para sa kumpletong schema.


Hakbang 3: Isumite

Awtomatikong pagsusumite

Kung ipinasa ninyo ang --submit nang patakbuhin ang harness, na-upload na ang inyong run card.

Manwal na pagsusumite

Isumite ang anumang run card sa pamamagitan ng API:

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json

O mag-upload sa pamamagitan ng Leaderboard UI.


Ano ang Susunod na Mangyayari

  1. Vine-validate ang inyong pagsusumite (dataset hash, integridad ng run card)
  2. Lumalabas ang mga resulta sa leaderboard bilang Self-benchmarked (trust tier 1)
  3. Upang makakuha ng status na GDS Verified, isumite ang inyong pamamaraan bilang installable plugin upang magawang i-reproduce ng mga maintainer ang inyong mga resulta
  4. Para sa mga pamamaraan para sa mga katutubong wika: kung umabot sa tuktok ang inyong pamamaraan, magsisimula ang proseso ng paglilipat ng pagmamay-ari

Tingnan Din