Een Methode Indienen
Samenvatting. Een stapsgewijze quickstart voor het indienen van uw eerste benchmark-run op het leaderboard. Kloon de harness, voer deze uit tegen een dataset, bekijk uw run card en dien in. Duurt 10 minuten als u een API-sleutel heeft.
Deze handleiding begeleidt u bij het indienen van uw eerste benchmark-run op het MT Eval Arena-leaderboard.
Vereisten
- Python 3.10+
- Een OpenRouter API-sleutel (of equivalent voor uw modelprovider)
- Een vertaalmethode — alles wat vertalingen produceert vanuit een brontekst
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp
Stap 1: Voer de Harness Uit
De harness beoordeelt uw methode aan de hand van een gestandaardiseerde dataset:
mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
| Vlag | Functie |
|---|---|
--corpus | Pad naar het evaluatiecorpus (.json, .jsonl, .tsv) |
--model | Model-slug — korte alias (bijv. gemini-pro) of volledig OpenRouter-ID |
--condition | Label voor uw methode (verschijnt op het leaderboard) |
--temperature | Samplingtemperatuur (lager = meer deterministisch) |
--fst-retries | Optioneel: aantal FST-pogingen bij herstart |
--submit | Dien de run card automatisch in op het leaderboard |
De harness produceert een run card — een op zichzelf staand JSON-bestand met uw scores, de dataset-hash, de model-slug en een cryptografische vingerafdruk die de resultaten koppelt aan de exacte experimentconfiguratie.
Stap 2: Bekijk Uw Run Card
Run cards worden opgeslagen in results/. Controleer de uwe vóór het indienen:
cat results/your-run-card.json | python -m json.tool
Belangrijke velden om te controleren:
scores.chrf_plus_plus— uw primaire kwaliteitsmetriekscores.exact_match_rate— aandeel perfecte vertalingenscores.fst_acceptance_rate— morfologische geldigheid (indien FST werd gebruikt)totals.total_cost_usd— de kosten van de runfingerprint— de reproduceerbaarheidshash van het experiment
Zie de Run Card-specificatie voor het volledige schema.
Stap 3: Indienen
Automatisch indienen
Als u --submit heeft meegegeven bij het uitvoeren van de harness, is uw run card al geüpload.
Handmatig indienen
Dien een run card in via de API:
curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json
Of upload via de Leaderboard UI.
Wat Gebeurt Er Vervolgens
- Uw inzending wordt gevalideerd (dataset-hash, integriteit van de run card)
- Resultaten verschijnen op het leaderboard als Zelf-gebenchmarkt (vertrouwensniveau 1)
- Voor de status GDS Geverifieerd dient u uw methode in als installeerbare plugin, zodat beheerders uw resultaten kunnen reproduceren
- Voor methoden voor inheemse talen: als uw methode de top bereikt, wordt het proces voor eigendomsoverdracht gestart
Zie Ook
- Harness-gebruik — volledige CLI-referentie
- Leaderboard-regels — indieningscriteria en anti-misbruikbeleid
- Een Methode Bouwen — het TranslationMethod-protocol
- Datasets — beschikbare evaluatiedatasets