The MT Eval Arena

Résumé exécutif. The MT Eval Arena est une plateforme d'évaluation comparative ouverte pour les méthodes de traduction automatique, en mettant l'accent sur les langues où la traduction automatique commerciale n'existe pas ou n'a pas été vérifiée de manière indépendante. Elle fournit une évaluation standardisée, un classement public et un pont de déploiement vers la production via champollion. Pour les langues autochtones, les méthodes éprouvées transfèrent la propriété à la communauté.

Un terrain d'essai ouvert pour les méthodes de traduction automatique — en particulier pour les langues où la traduction automatique commerciale n'existe pas ou n'a pas été vérifiée de manière indépendante.

Construisez une méthode. Évaluez-la. Prouvez qu'elle fonctionne. Si elle gagne, elle est déployée.

Le problème

Google Translate prend en charge ~130 langues. NLLB-200 de Meta en couvre ~200, et OMT-1600 (mars 2026) en revendique 1 600. Il y en a plus de 7 000 parlées sur Terre. Pour les ~1 300 langues aux niveaux de ressources les plus faibles d'OMT-1600, les poids du modèle ne sont pas disponibles, la qualité est en dessous des seuils utilisables, et l'évaluation a utilisé du texte du domaine biblique avec des métriques automatiques standard — pas de validation morphologique, pas de test indépendant, pas de gouvernance communautaire. Pour les ~5 400 langues restantes, aucun modèle préentraîné ne produit aucune sortie.

Big Tech investit maintenant dans la couverture des langues à ressources limitées — mais une couverture sans vérification indépendante de la qualité, sans validation morphologique ou sans gouvernance communautaire est une couverture sans confiance. Les locuteurs qui ont le plus besoin d'outils de traduction sont les mêmes communautés les moins susceptibles de les avoir.

The Arena existe pour changer cela. Elle fournit l'infrastructure pour développer, évaluer et déployer des méthodes de traduction pour n'importe quelle langue — avec un scoring reproductible, une soumission ouverte et une gouvernance communautaire sur qui contrôle les résultats.

Comment cela fonctionne

Vous construisez une méthode de traduction — LLM entraîné, modèle affiné, pipeline avec FST, ou n'importe quoi d'autre qui produit des traductions.
Le harness l'évalue — métriques standardisées (chrF++, correspondance exacte, acceptation FST), empreinte digitale d'un commit Git spécifique.
Les résultats apparaissent sur le classement — chaque soumission est reproductible et comparable.
Si elle gagne, la propriété est transférée — pour les langues autochtones, le code de la méthode gagnante est transféré à l'organisation de gouvernance communautaire.
La méthode se déploie en production — via champollion, l'API destinée aux développeurs. Les revenus reviennent à la communauté.

Prouvez-le ici. Déployez-le là.

Pour qui c'est

Vous êtes...	The Arena vous donne...
Ingénieur ML / chercheur	Des benchmarks standardisés, un scoring reproductible, un classement sur lequel concourir
Linguiste	Un cadre pour transformer les règles de grammaire et les dictionnaires en méthodes testables
Membre de la communauté linguistique	Une gouvernance sur la façon dont les méthodes de votre langue sont développées et déployées
Bailleur de fonds / examinateur de subvention	Des métriques transparentes et reproductibles pour évaluer les propositions de recherche en traduction
Étudiant	Un défi ouvert avec un véritable impact — construisez une méthode, soumettez vos scores

Benchmarks actuels

EDTeKLA Development Set v1

Paire linguistique : English → Plains Cree (SRO)
Entrées : 548 paires curées (486 manuels + 62 standard d'or)
Licence : CC BY-NC-SA 4.0
Source : Groupe de recherche EdTeKLA, Université de l'Alberta

FLORES+ Devtest

Paires linguistiques : English → 39 langues
Entrées : 1 012 phrases par langue
Licence : CC BY-SA 4.0
Source : OLDI

La seule règle

:::danger Ne pas entraîner sur les données d'évaluation Les méthodes exposées à l'ensemble de données de référence — en tant que données d'entraînement, exemples few-shot, entrées de dictionnaire ou matériel d'invite — seront disqualifiées. Affinez sur ce que vous voulez. Simplement pas sur l'ensemble de test. :::

Prochaines étapes

Soumettre une méthode — comment soumettre votre première exécution d'évaluation comparative
Spécification du benchmark — le protocole d'expérience complet
Règles du classement — critères de soumission et politiques anti-triche
Souveraineté des données — OCAP, CARE, et pourquoi le transfert de propriété est important
Le modèle économique — comment les scores de The Arena deviennent des revenus communautaires

→ Voir le classement

Le problème​

Comment cela fonctionne​

Pour qui c'est​

Benchmarks actuels​

EDTeKLA Development Set v1​

FLORES+ Devtest​

La seule règle​

Prochaines étapes​