Soumettre une méthode

Résumé exécutif. Un guide pas à pas pour soumettre votre première exécution de benchmark au classement. Clonez le harnais, exécutez-le sur un ensemble de données, examinez votre carte d'exécution et soumettez. Prend 10 minutes si vous disposez d'une clé API.

Ce guide vous accompagne dans la soumission de votre première exécution de benchmark au classement de MT Eval Arena.

Prérequis

Python 3.10+
Une clé API OpenRouter (ou équivalent pour votre fournisseur de modèle)
Une méthode de traduction — tout ce qui produit des traductions à partir d'un texte source

# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

Étape 1 : Exécuter le harnais

Le harnais évalue votre méthode par rapport à un ensemble de données standardisé :

mt-eval run \
  --corpus data/edtekla-dev-v1.json \
  --model gemini-pro \
  --condition your-method-name \
  --temperature 0.2

Drapeau	Fonction
`--corpus`	Chemin d'accès au corpus d'évaluation (`.json`, `.jsonl`, `.tsv`)
`--model`	Slug du modèle — alias court (p. ex. `gemini-pro`) ou identifiant OpenRouter complet
`--condition`	Étiquette de votre méthode (apparaît sur le classement)
`--temperature`	Température d'échantillonnage (plus bas = plus déterministe)
`--fst-retries`	Optionnel : nombre de tentatives de relance FST
`--submit`	Soumettre automatiquement la carte d'exécution au classement

Le harnais produit une carte d'exécution — un fichier JSON autonome contenant vos scores, le hash de l'ensemble de données, le slug du modèle et une empreinte cryptographique reliant les résultats à la configuration exacte de l'expérience.

Étape 2 : Examiner votre carte d'exécution

Les cartes d'exécution sont enregistrées dans results/. Inspectez la vôtre avant de soumettre :

cat results/your-run-card.json | python -m json.tool

Champs clés à vérifier :

scores.chrf_plus_plus — votre métrique de qualité principale
scores.exact_match_rate — proportion de traductions parfaites
scores.fst_acceptance_rate — validité morphologique (si FST a été utilisé)
totals.total_cost_usd — le coût de l'exécution
fingerprint — le hash de reproductibilité de l'expérience

Consultez la Spécification de la carte d'exécution pour le schéma complet.

Étape 3 : Soumettre

Soumission automatique

Si vous avez transmis --submit lors de l'exécution du harnais, votre carte d'exécution a déjà été téléchargée.

Soumission manuelle

Soumettez n'importe quelle carte d'exécution via l'API :

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
  -H "Content-Type: application/json" \
  -d @results/your-run-card.json

Ou téléchargez via l'interface du classement.

Étapes suivantes

Votre soumission est validée (hash de l'ensemble de données, intégrité de la carte d'exécution)
Les résultats apparaissent sur le classement en tant que Auto-évalué (niveau de confiance 1)
Pour obtenir le statut GDS Verified, soumettez votre méthode en tant que plugin installable afin que les responsables puissent reproduire vos résultats
Pour les méthodes de langues autochtones : si votre méthode atteint le sommet, le processus de transfert de propriété commence

Voir aussi

Utilisation du harnais — référence CLI complète
Règles du classement — critères de soumission et politiques anti-triche
Construire une méthode — le protocole TranslationMethod
Ensembles de données — ensembles de données d'évaluation disponibles

Prérequis​

Étape 1 : Exécuter le harnais​

Étape 2 : Examiner votre carte d'exécution​

Étape 3 : Soumettre​

Soumission automatique​

Soumission manuelle​

Étapes suivantes​

Voir aussi​