Accéder au contenu principal

Évaluation de la traduction automatique

Résumé exécutif. Cette page définit les critères de soumission au classement, les métriques de notation (chrF++, acceptation FST, correspondance exacte, correspondance équivalente, score sémantique), les politiques anti-triche, les niveaux de vérification et le flux de soumission. Les méthodes exposées aux données d'évaluation sont disqualifiées.

champollion inclut un cadre d'évaluation de la traduction automatique conçu pour l'évaluation comparative reproductible des méthodes de traduction — en particulier pour les langues peu dotées en ressources et les langues autochtones où les étalons de référence MT standard n'existent pas et où les affirmations de qualité sont difficiles à vérifier.


Le classement

Le cœur du système est le Classement des méthodes — un tableau de bord en direct, alimenté par Supabase, où les chercheurs et les membres de la communauté soumettent et comparent les méthodes de traduction avec une évaluation reproductible et empreinte numérique.

Chaque soumission comprend :

  • Pipeline empreinte numérique — lié à un commit Git spécifique et à un hash de configuration, de sorte que les résultats remontent au code exact qui les a produits
  • Ensemble de données versionnée — avec hash de contenu et versionnée ; les scores ne sont comparables que dans la même version d'ensemble de données
  • Métriques standardisées — tous les scores sont calculés par le harnais d'évaluation partagé, éliminant les différences d'implémentation
  • Niveaux de confiance — auto-évalué, GDS Verified ou Community Validated
  • Suivi des coûts — coût API par soumission, de sorte que les compromis coût-qualité sont transparents

Le classement suit actuellement cinq métriques. Trois fonctionnent pour n'importe quelle langue ; deux sont disponibles pour le cri des Plaines et seront généralisées à mesure que nous nous développons :

MétriqueTypeCe qu'elle mesure
chrF++Score F des n-grammes de caractèresMétrique de qualité principale — corrèle bien avec le jugement humain, en particulier pour les langues morphologiquement riches
Exact MatchProportion de correspondances parfaitesPrécision stricte — à quelle fréquence la traduction correspond-elle exactement à l'étalon de référence ?
FST AcceptanceTaux de passage de la porte morphologiquePour les méthodes avec vérification par transducteur à états finis — quelle proportion des résultats sont morphologiquement valides ?
Equivalent MatchTaux de variante acceptableFraction correspondant à la référence ou à une variante acceptable (ordre des mots, convention orthographique). Actuellement CRK ; généralisation en cours.
Semantic ScoreFidélité sémantiquePréservation du sens — la traduction capture-t-elle le sens prévu indépendamment de la forme de surface ? Actuellement CRK ; généralisation en cours.

:::info Suite complète de métriques La Spécification de notation définit l'inventaire complet de 19 métriques réparties en 5 catégories, la formule du score composite, les tableaux de poids et les seuils de niveau de qualité. :::

→ Consulter le classement


Ensembles de données disponibles

Ensemble de développement EDTeKLA v1

Le premier ensemble de données d'évaluation, construit pour la traduction anglais→cri des Plaines (SRO). Créé par le groupe de recherche EdTeKLA de l'Université de l'Alberta.

PropriétéValeur
IDedtekla-dev-v1
Paire de languesEN → CRK (cri des Plaines, orthographe SRO)
Nombre d'entrées404 (master_corpus.json : 62 or + 342 manuel) ; 548 au total disponibles
LicenceCC BY-NC-SA 4.0
Provenancegold_standard (vérifiée par des locuteurs), textbook (matériels pédagogiques publiés)

FLORES+ Devtest — Utilisation en développement uniquement

[!WARNING] FLORES+ est disponible pour le développement et le débogage mais n'est PAS utilisé pour l'évaluation officielle du classement. FLORES+ (anciennement Meta FLORES-200) est un ensemble de données d'évaluation largement public sur lequel les LLM de pointe ont presque certainement été entraînés. Les scores par rapport à FLORES+ ne reflètent pas de manière fiable la qualité réelle de la traduction pour les méthodes basées sur LLM. Les méthodes non-LLM (FST, basées sur des règles, NMT affiné) sont moins affectées mais les scores FLORES+ ne sont toujours pas publiés au classement.

Les fixtures FLORES+ restent disponibles dans test/benchmark/fixtures/ pour les tests de fumée du pipeline, la validation inter-langues et l'utilisation en développement. L'évaluation officielle utilise des corpus personnalisés construits à partir de texte rédigé par des humains non disponible publiquement sous forme parallèle.

Voir Ensembles de données d'évaluation pour le schéma complet de l'ensemble de données, les niveaux de difficulté et comment créer le vôtre.

:::danger NE PAS ENTRAÎNER sur les données d'évaluation

Ces ensembles de données sont réservés à l'évaluation. Les méthodes entraînées, affinées, incitées par quelques exemples ou autrement exposées aux données d'évaluation produiront des scores artificiellement gonflés et seront disqualifiées du classement.

Ce n'est pas une suggestion — c'est la règle la plus importante de l'intégrité de l'évaluation. Utilisez des corpus distincts pour l'entraînement. Les ensembles d'évaluation doivent rester invisibles à votre modèle pendant le développement.

Si vous utilisez des données d'entraînement ou des exemples avec quelques coups, ceux-ci doivent provenir de sources complètement distinctes. En cas de doute, ne l'incluez pas. :::

:::warning Non-déterminisme des LLM

Les résultats des LLM sont non-déterministes. Les scores représentent des mesures ponctuelles dans le temps selon des versions de modèle spécifiques et des configurations API. Les fournisseurs de modèles peuvent mettre à jour les poids, les stratégies de décodage ou les filtres de sécurité à tout moment, ce qui peut entraîner une dérive des scores entre les exécutions. Le classement enregistre le slug de modèle exact et l'horodatage pour chaque soumission. :::


Ce qui fait une bonne méthode

Toutes les méthodes ne sont pas créées égales. Voici ce qui distingue le travail rigoureux des scores gonflés.

Caractéristiques d'une méthode solide

  • Séparation nette des données d'entraînement et d'évaluation — votre méthode n'a jamais vu l'ensemble d'évaluation pendant le développement, l'ajustement, l'ingénierie des incitations ou la sélection d'exemples avec quelques coups
  • Reproductible — quelqu'un d'autre peut cloner votre dépôt, exécuter le harnais et obtenir les mêmes scores (dans les limites du non-déterminisme des LLM)
  • Documentée — votre fiche de méthode décrit ce que votre méthode fait, quels outils elle utilise et quelles sont ses limitations
  • Honnête sur la portée — si votre méthode ne fonctionne que pour une paire de langues, dites-le ; si elle se dégrade sur certains motifs morphologiques, documentez-le
  • Consciente de la communauté — pour les langues autochtones, votre méthode respecte la souveraineté des données. Vous avez consulté les communautés linguistiques ou utilisé uniquement des données sous licence ouverte

Signaux d'alerte (ce qui entraîne une disqualification)

Signal d'alertePourquoi c'est un problème
Entraînement sur les données d'évaluationAnnule complètement l'objectif de l'évaluation. Les scores gonflés trompent tout le monde.
Sélection des résultatsExécution 10 fois et soumission de la meilleure exécution sans divulguer les autres
Post-traitement non divulguéCorrection manuelle des résultats avant la notation
Données d'entraînement contaminéesUtilisation d'exemples d'ensemble d'évaluation comme incitations avec quelques coups ou entrées de dictionnaire
Affirmation de disponibilité commerciale sans provenanceSi votre méthode utilise des données CC BY-NC-SA, elle n'est pas prête commercialement

Niveaux de vérification

Les niveaux de vérification décrivent qui a validé le résultat — distinct des niveaux de qualité (Baseline → Fluent) définis dans la Spécification de notation, §5, qui décrivent ce que le score composite automatisé signifie.

NiveauSignificationComment l'obtenir
Auto-évaluéVous avez exécuté le harnais vous-même et soumis les résultatsOuvrez une PR avec votre fiche d'exécution
GDS VerifiedLes responsables de champollion ont reproduit vos résultatsSoumettez votre méthode en tant que plugin installable
Community ValidatedL'organisation de gouvernance a exécuté contre l'étalon de référence or + examen communautaireSoumettez le code de la méthode à l'organisation de gouvernance

Comment soumettre

  1. Construisez votre méthode — voir Construire une méthode pour l'interface de méthode
  2. Exécutez le harnais — voir Harnais d'évaluation pour la configuration et l'utilisation
  3. Générez une fiche d'exécution — le harnais produit une fiche d'exécution JSON avec vos scores, votre empreinte numérique et vos métadonnées
  4. Ouvrez une PR — soumettez votre fiche d'exécution au dépôt du harnais d'évaluation
  5. Apparaissez au classement — une fois fusionnée, vos résultats apparaissent sur le Classement des méthodes

Orientations futures

  • Exécutions de comparaison de modèles complètes — évaluation systématique des modèles de pointe (GPT-4o, Claude, Gemini, etc.) dans les langues champollion en utilisant des corpus d'évaluation personnalisés (pas des étalons de référence publics)
  • Plus de paires de langues — quechua, inuktitut et autres langues peu dotées en ressources à mesure que des ensembles de données vérifiés par la communauté deviennent disponibles
  • Importation d'ensembles de données — outils pour convertir les ensembles de données d'évaluation externes (WMT, Tatoeba, etc.) au format d'évaluation champollion
  • Réexécutions automatisées — détection des changements de version de modèle et réexécution des étalons de référence pour suivre la dérive des scores

Voir aussi