Een Methode Indienen

Samenvatting. Een stapsgewijze quickstart voor het indienen van uw eerste benchmark-run op het leaderboard. Kloon de harness, voer deze uit tegen een dataset, bekijk uw run card en dien in. Duurt 10 minuten als u een API-sleutel heeft.

Deze handleiding begeleidt u bij het indienen van uw eerste benchmark-run op het MT Eval Arena-leaderboard.

Vereisten

Python 3.10+
Een OpenRouter API-sleutel (of equivalent voor uw modelprovider)
Een vertaalmethode — alles wat vertalingen produceert vanuit een brontekst

# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

Stap 1: Voer de Harness Uit

De harness beoordeelt uw methode aan de hand van een gestandaardiseerde dataset:

mt-eval run \
  --corpus data/edtekla-dev-v1.json \
  --model gemini-pro \
  --condition your-method-name \
  --temperature 0.2

Vlag	Functie
`--corpus`	Pad naar het evaluatiecorpus (`.json`, `.jsonl`, `.tsv`)
`--model`	Model-slug — korte alias (bijv. `gemini-pro`) of volledig OpenRouter-ID
`--condition`	Label voor uw methode (verschijnt op het leaderboard)
`--temperature`	Samplingtemperatuur (lager = meer deterministisch)
`--fst-retries`	Optioneel: aantal FST-pogingen bij herstart
`--submit`	Dien de run card automatisch in op het leaderboard

De harness produceert een run card — een op zichzelf staand JSON-bestand met uw scores, de dataset-hash, de model-slug en een cryptografische vingerafdruk die de resultaten koppelt aan de exacte experimentconfiguratie.

Stap 2: Bekijk Uw Run Card

Run cards worden opgeslagen in results/. Controleer de uwe vóór het indienen:

cat results/your-run-card.json | python -m json.tool

Belangrijke velden om te controleren:

scores.chrf_plus_plus — uw primaire kwaliteitsmetriek
scores.exact_match_rate — aandeel perfecte vertalingen
scores.fst_acceptance_rate — morfologische geldigheid (indien FST werd gebruikt)
totals.total_cost_usd — de kosten van de run
fingerprint — de reproduceerbaarheidshash van het experiment

Zie de Run Card-specificatie voor het volledige schema.

Stap 3: Indienen

Automatisch indienen

Als u --submit heeft meegegeven bij het uitvoeren van de harness, is uw run card al geüpload.

Handmatig indienen

Dien een run card in via de API:

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
  -H "Content-Type: application/json" \
  -d @results/your-run-card.json

Of upload via de Leaderboard UI.

Wat Gebeurt Er Vervolgens

Uw inzending wordt gevalideerd (dataset-hash, integriteit van de run card)
Resultaten verschijnen op het leaderboard als Zelf-gebenchmarkt (vertrouwensniveau 1)
Voor de status GDS Geverifieerd dient u uw methode in als installeerbare plugin, zodat beheerders uw resultaten kunnen reproduceren
Voor methoden voor inheemse talen: als uw methode de top bereikt, wordt het proces voor eigendomsoverdracht gestart

Zie Ook

Harness-gebruik — volledige CLI-referentie
Leaderboard-regels — indieningscriteria en anti-misbruikbeleid
Een Methode Bouwen — het TranslationMethod-protocol
Datasets — beschikbare evaluatiedatasets

Vereisten​

Stap 1: Voer de Harness Uit​

Stap 2: Bekijk Uw Run Card​

Stap 3: Indienen​

Automatisch indienen​

Handmatig indienen​

Wat Gebeurt Er Vervolgens​

Zie Ook​