Magsumite ng Pamamaraan

Ehekutibong Buod. Isang sunod-sunod na mabilisang panimula para sa pagsusumite ng inyong unang benchmark run sa leaderboard. I-clone ang harness, patakbuhin ito laban sa isang dataset, suriin ang inyong run card, at isumite. Aabutin ito ng 10 minuto kung mayroon kayong API key.

Ginagabayan kayo ng gabay na ito sa pagsusumite ng inyong unang benchmark run sa MT Eval Arena leaderboard.

Mga Kinakailangan

Python 3.10+
Isang OpenRouter API key (o katumbas para sa inyong model provider)
Isang pamamaraan ng pagsasalin — anumang gumagawa ng mga pagsasalin mula sa source text

# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

Hakbang 1: Patakbuhin ang Harness

Sinusukat ng harness ang inyong pamamaraan laban sa isang estandardisadong dataset:

mt-eval run \
  --corpus data/edtekla-dev-v1.json \
  --model gemini-pro \
  --condition your-method-name \
  --temperature 0.2

Flag	Ginagawa Nito
`--corpus`	Path patungo sa evaluation corpus (`.json`, `.jsonl`, `.tsv`)
`--model`	Model slug — maikling alias (hal. `gemini-pro`) o buong OpenRouter ID
`--condition`	Label para sa inyong pamamaraan (lumalabas sa leaderboard)
`--temperature`	Sampling temperature (mas mababa = mas deterministiko)
`--fst-retries`	Opsyonal: bilang ng mga pagtatangkang ulitin ng FST
`--submit`	Awtomatikong isumite ang run card sa leaderboard

Gumagawa ang harness ng isang run card — isang nagsasariling JSON file na may inyong mga score, dataset hash, model slug, at kriptograpikong fingerprint na nag-uugnay ng mga resulta sa eksaktong configuration ng eksperimento.

Hakbang 2: Suriin ang Inyong Run Card

Sine-save ang mga run card sa results/. Suriin ang sa inyo bago magsumite:

cat results/your-run-card.json | python -m json.tool

Mahahalagang field na dapat suriin:

scores.chrf_plus_plus — ang inyong pangunahing quality metric
scores.exact_match_rate — proporsyon ng mga perpektong pagsasalin
scores.fst_acceptance_rate — morphological validity (kung ginamit ang FST)
totals.total_cost_usd — gastos ng run
fingerprint — reproducibility hash ng eksperimento

Tingnan ang Run Card Specification para sa kumpletong schema.

Hakbang 3: Isumite

Awtomatikong pagsusumite

Kung ipinasa ninyo ang --submit nang patakbuhin ang harness, na-upload na ang inyong run card.

Manwal na pagsusumite

Isumite ang anumang run card sa pamamagitan ng API:

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
  -H "Content-Type: application/json" \
  -d @results/your-run-card.json

O mag-upload sa pamamagitan ng Leaderboard UI.

Ano ang Susunod na Mangyayari

Vine-validate ang inyong pagsusumite (dataset hash, integridad ng run card)
Lumalabas ang mga resulta sa leaderboard bilang Self-benchmarked (trust tier 1)
Upang makakuha ng status na GDS Verified, isumite ang inyong pamamaraan bilang installable plugin upang magawang i-reproduce ng mga maintainer ang inyong mga resulta
Para sa mga pamamaraan para sa mga katutubong wika: kung umabot sa tuktok ang inyong pamamaraan, magsisimula ang proseso ng paglilipat ng pagmamay-ari

Tingnan Din

Paggamit ng Harness — kumpletong CLI reference
Mga Panuntunan ng Leaderboard — pamantayan sa pagsusumite at mga patakaran laban sa gaming
Pagbuo ng Pamamaraan — ang TranslationMethod protocol
Mga Dataset — mga available na evaluation dataset

Mga Kinakailangan​

Hakbang 1: Patakbuhin ang Harness​

Hakbang 2: Suriin ang Inyong Run Card​

Hakbang 3: Isumite​

Awtomatikong pagsusumite​

Manwal na pagsusumite​

Ano ang Susunod na Mangyayari​

Tingnan Din​