Ensembles de données d'évaluation

Résumé exécutif. Cette page décrit les ensembles de données d'évaluation disponibles pour l'évaluation comparative, notamment le schéma d'entrée de corpus, les niveaux de difficulté (1–5) et les exigences de provenance. Actuellement disponibles : EDTeKLA Dev v1 (cri des Plaines, 548 entrées au total : 486 manuels + 62 standard de référence) et FLORES+ Devtest (39 langues, 1 012 entrées chacun).

Les ensembles de données sont les cibles fixes contre lesquelles le harnais s'exécute. Chaque ensemble de données est un fichier JSON contenant des paires source→cible avec des références standard de référence. Le harnais évalue les résultats du modèle par rapport à ces références — il ne les modifie jamais.

:::danger NE PAS ENTRAÎNER sur les données d'évaluation

⚠️ Ces ensembles de données sont réservés à l'évaluation uniquement. Les méthodes entraînées, affinées, sollicitées en contexte réduit, ou autrement exposées aux données d'évaluation produiront des scores artificiellement gonflés et seront disqualifiées du classement.

Utilisez des corpus distincts pour l'entraînement. Les ensembles d'évaluation doivent rester invisibles à votre modèle pendant le développement. :::

Format de l'ensemble de données

Chaque ensemble de données suit le même schéma JSON :

{
  "dataset": {
    "id": "dataset-slug",
    "version": "1.0",
    "language_pair": "EN→CRK",
    "description": "Human-readable description of the dataset",
    "source_language": "en",
    "target_language": "crk",
    "created": "2025-05-01",
    "license": "CC-BY-NC-4.0",
    "provenance": ["gold_standard", "textbook"]
  },
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "tânisi",
      "difficulty": 1,
      "provenance": "gold_standard",
      "register": "conversational",
      "context": "greeting",
      "notes": "Common greeting, SRO orthography"
    }
  ]
}

:::info Schéma canonique La Spécification de référence définit le corpus canonique et le schéma d'entrée. Cette page documente les ensembles de données disponibles et comment en créer de nouveaux. :::

Bloc `dataset` de niveau supérieur

Champ	Type	Description
`id`	`string`	Identifiant unique de l'ensemble de données (utilisé dans les cartes d'exécution et le classement)
`version`	`string`	Version sémantique. L'incrémentation invalide les comparaisons de cartes d'exécution antérieures
`language_pair`	`string`	Étiquette d'affichage (par exemple, `EN→CRK`)
`description`	`string`	Optionnel. Résumé lisible par l'homme
`source_language`	`string`	Code de langue source BCP 47
`target_language`	`string`	Code de langue cible BCP 47
`created`	`string`	Date de création ISO 8601
`license`	`string`	Identifiant de licence SPDX
`provenance`	`string[]`	Liste des étiquettes de provenance utilisées dans les entrées

Champs d'entrée

Champ	Type	Requis	Description
`id`	`integer`	✅	Identifiant unique de l'entrée dans le corpus
`source`	`string`	✅	Le texte source à traduire
`reference`	`string`	✅	La traduction de référence standard de référence
`difficulty`	`integer`	✅	Niveau de difficulté 1–5 (voir ci-dessous)
`provenance`	`string`	✅	Origine de cette entrée (par exemple, `gold_standard`, `textbook`, `elicited`)
`register`	`string`	✅	Niveau de registre/formalité (par exemple, `conversational`, `formal`, `ceremonial`)
`context`	`string`	✅	Fonction communicative (par exemple, `greeting`, `declaration`, `instruction`)
`notes`	`string`	❌	Contexte optionnel pour les examinateurs humains
`morphological_analysis`	`string`	❌	Décomposition morphologique standard de référence
`variant_class`	`string`	❌	Étiquette de classe regroupant les variantes de traduction acceptables

Ensembles de données disponibles

Ensemble de développement EDTeKLA v1

Le premier ensemble de données d'évaluation, construit pour la traduction anglais→cri des Plaines (SRO). Créé par le groupe de recherche EdTeKLA de l'Université de l'Alberta.

Propriété	Valeur
ID	`edtekla-dev-v1`
Version	`1.0`
Paire de langues	EN → CRK (cri des Plaines, orthographe SRO)
Nombre d'entrées	548 au total (486 manuels + 62 standard de référence). Le corpus de développement canonique est `textbook_dev.json` (436 entrées — la division de développement complète du manuel sur 486 au total : 436 développement + 50 test retenus)
Distribution de difficulté	Facile, Moyen, Difficile
Provenance	`gold_standard` (vérifié par des locuteurs), `textbook` (matériels pédagogiques publiés)
Licence	CC BY-NC-SA 4.0

Ce qu'il teste :

Salutations de base et expressions courantes
Animacité nominale et obviation
Conjugaison verbale selon les personnes et les temps
Constructions locatives
Paradigmes possessifs
Structures de phrases complexes

:::tip Structure du corpus La collection complète d'EDTeKLA compte 548 entrées curées : 486 du corpus de manuel (436 développement + 50 retenus) et 62 du standard de référence itwêwina. Le corpus de développement canonique est textbook_dev.json avec 436 entrées — la division de développement complète du manuel. Chaque entrée a été vérifiée par des locuteurs courants ou provient de manuels de langue crie publiés. Un ensemble de données plus petit et de haute qualité avec des standards de référence vérifiés est plus utile qu'un ensemble volumineux et bruyant — en particulier pour une langue peu dotée en ressources où les traductions « suffisamment bonnes » sont souvent morphologiquement invalides. :::

Création d'un nouvel ensemble de données

Pour créer un ensemble de données pour une nouvelle paire de langues ou un nouveau domaine :

1. Structurer le JSON

Suivez le schéma Format de l'ensemble de données. Chaque entrée doit avoir source, reference, difficulty, provenance, register et context.

2. Attribuer un ID unique

Utilisez un slug descriptif : {project}-{split}-v{version} (par exemple, edtekla-dev-v1, quechua-test-v1).

3. Vérifier les standards de référence

Chaque valeur reference doit être vérifiée par un locuteur courant ou provenir d'une ressource publiée et examinée par les pairs. Les références générées par machine contredisent l'objectif de l'évaluation.

4. Définir les niveaux de difficulté

Attribuez à chaque entrée un niveau de difficulté entier :

Niveau	Description	Exemples
1 — Vocabulaire de base	Mots simples, salutations courantes, nombres	« hello » → « tânisi »
2 — Phrases simples	Sujet-verbe ou SVO, temps présent	« I see the dog »
3 — Complexité modérée	Temps passé/futur, possessifs, animacité	« I saw his dog yesterday »
4 — Morphologie complexe	Obviation, voix passive, ordre conjoint	« the woman whose son went to the store »
5 — Avancé	Multi-clause, registre formel, cérémoniel, idiomatique	Paragraphe complet avec ton approprié au registre

5. Étiqueter la provenance

Chaque entrée doit indiquer sa provenance. Étiquettes courantes :

gold_standard — Vérifié par des locuteurs courants
textbook — Provenant de matériels pédagogiques publiés
elicited — Produit par des séances d'élicitation structurées
corpus — Extrait d'un corpus parallèle

6. Valider le fichier

Exécutez le harnais contre votre ensemble de données avec n'importe quel modèle pour vérifier que le JSON est bien formé et que tous les champs requis sont présents :

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

Le harnais génèrera une erreur en cas de champs manquants, d'indices en double ou de violations de schéma.

7. Soumettre pour inclusion

Ouvrez une demande de tirage contre le référentiel du harnais d'évaluation avec votre fichier d'ensemble de données dans le répertoire data/. Incluez la documentation de votre méthodologie de vérification et de vos sources de provenance.

FLORES+ Devtest

Un repère multilingue à large couverture maintenu par l'Initiative de données de langue ouverte (OLDI). Utilisé pour l'évaluation comparative multi-modèles de champollion.

Propriété	Valeur
ID	`flores-plus-devtest`
Paires de langues	EN → 39 langues (toutes les langues naturelles enregistrées par champollion)
Nombre d'entrées	1 012 phrases par langue
Licence	CC BY-SA 4.0
Source	Originellement Meta FLORES-200, maintenant maintenu par OLDI
Localisation	Fixtures pré-extraites à `test/benchmark/fixtures/` dans le référentiel champollion principal

:::danger Évaluation uniquement FLORES+ est destiné uniquement à l'évaluation. Les curateurs demandent explicitement qu'il ne soit pas utilisé comme données d'entraînement. Assurez-vous que son contenu est exclu de tout corpus d'entraînement. :::

Voir aussi

Évaluation de la traduction automatique — aperçu du cadre d'évaluation et du classement
Harnais d'évaluation — comment exécuter les évaluations contre ces ensembles de données
Spécification de la carte d'exécution — le schéma JSON pour enregistrer les résultats
Classement des méthodes — scores d'évaluation comparative en direct
Projet EdTeKLA — le groupe de recherche de l'Université de l'Alberta derrière l'ensemble de données cri

Format de l'ensemble de données​

Bloc dataset de niveau supérieur​

Champs d'entrée​

Ensembles de données disponibles​

Ensemble de développement EDTeKLA v1​

Création d'un nouvel ensemble de données​

1. Structurer le JSON​

2. Attribuer un ID unique​

3. Vérifier les standards de référence​

4. Définir les niveaux de difficulté​

5. Étiqueter la provenance​

6. Valider le fichier​

7. Soumettre pour inclusion​

FLORES+ Devtest​

Voir aussi​