Evaluatiedatasets
Samenvatting. Deze pagina beschrijft de evaluatiedatasets die beschikbaar zijn voor benchmarking, inclusief het schema voor corpusinvoer, moeilijkheidsgraden (1–5) en herkomstvereisten. Momenteel beschikbaar: EDTeKLA Dev v1 (Plains Cree, 548 invoer in totaal: 486 leerboek + 62 goudstandaard) en FLORES+ Devtest (39 talen, 1.012 invoer per taal).
Datasets zijn de vaste doelbestanden waarop de harness wordt uitgevoerd. Elke dataset is een JSON-bestand met bron→doelparen en goudstandaardreferenties. De harness beoordeelt modeluitvoer aan de hand van deze referenties — deze worden nooit gewijzigd.
:::danger TRAIN NIET op evaluatiedata
⚠️ Deze datasets zijn uitsluitend bedoeld voor evaluatie. Methoden die zijn getraind, verfijnd, few-shot-geprompt of op een andere manier blootgesteld aan evaluatiedata produceren kunstmatig verhoogde scores en worden gediskwalificeerd van het leaderboard.
Gebruik afzonderlijke corpora voor training. Evaluatiesets mogen tijdens de ontwikkeling niet door uw model worden gezien. :::
Datasetformaat
Elke dataset volgt hetzelfde JSON-schema:
{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}
:::info Canoniek schema De Benchmark Specification definieert het canonieke corpus- en invoerschema. Deze pagina documenteert beschikbare datasets en hoe u nieuwe kunt aanmaken. :::
Bovenste niveau dataset blok
| Veld | Type | Beschrijving |
|---|---|---|
id | string | Unieke dataset-identifier (gebruikt in run cards en leaderboard) |
version | string | Semantische versie. Het verhogen hiervan maakt eerdere run card-vergelijkingen ongeldig |
language_pair | string | Weergavelabel (bijv. EN→CRK) |
description | string | Optioneel. Leesbare samenvatting |
source_language | string | BCP 47-code voor de brontaal |
target_language | string | BCP 47-code voor de doeltaal |
created | string | ISO 8601-aanmaakdatum |
license | string | SPDX-licentie-identifier |
provenance | string[] | Lijst van herkomsttags die in invoer worden gebruikt |
Invoervelden
| Veld | Type | Vereist | Beschrijving |
|---|---|---|---|
id | integer | ✅ | Unieke invoer-identifier binnen het corpus |
source | string | ✅ | De te vertalen brontekst |
reference | string | ✅ | De goudstandaard referentievertaling |
difficulty | integer | ✅ | Moeilijkheidsgraad 1–5 (zie hieronder) |
provenance | string | ✅ | Herkomst van deze invoer (bijv. gold_standard, textbook, elicited) |
register | string | ✅ | Register/formaliteitsniveau (bijv. conversational, formal, ceremonial) |
context | string | ✅ | Communicatieve functie (bijv. greeting, declaration, instruction) |
notes | string | ❌ | Optionele context voor menselijke beoordelaars |
morphological_analysis | string | ❌ | Morfologische goudstandaardanalyse |
variant_class | string | ❌ | Klasselabel dat acceptabele vertaalvarianten groepeert |
Beschikbare datasets
EDTeKLA Development Set v1
De eerste evaluatiedataset, opgebouwd voor Engels→Plains Cree (SRO)-vertaling. Gemaakt door de EdTeKLA-onderzoeksgroep aan de University of Alberta.
| Eigenschap | Waarde |
|---|---|
| ID | edtekla-dev-v1 |
| Versie | 1.0 |
| Taalpaar | EN → CRK (Plains Cree, SRO-orthografie) |
| Aantal invoer | 548 in totaal (486 leerboek + 62 goudstandaard). Het canonieke dev-corpus is textbook_dev.json (436 invoer — de volledige leerboek-dev-splitsing van 486 in totaal: 436 dev + 50 achtergehouden test) |
| Verdeling moeilijkheidsgraad | Eenvoudig, Gemiddeld, Moeilijk |
| Herkomst | gold_standard (geverifieerd door sprekers), textbook (gepubliceerd educatief materiaal) |
| Licentie | CC BY-NC-SA 4.0 |
Wat het test:
- Basisbegroetingen en veelgebruikte uitdrukkingen
- Naamwoordsanimasie en obviatie
- Werkwoordsvervoeging over personen en tijden
- Locatieve constructies
- Possessieve paradigma's
- Complexe zinsstructuren
:::tip Corpusstructuur
De volledige EdTeKLA-collectie bevat 548 gecureerde invoer: 486 uit het leerboekencorpus (436 dev + 50 achtergehouden) en 62 uit de itwêwina-goudstandaard. Het canonieke dev-corpus is textbook_dev.json met 436 invoer — de volledige leerboek-dev-splitsing. Elke invoer is geverifieerd door vloeiende sprekers of afkomstig uit gepubliceerde Cree-taalleerboeken. Een kleinere, hoogwaardige dataset met geverifieerde goudstandaarden is nuttiger dan een grote, ruisrijke — zeker voor een taal met weinig middelen waarbij "bijna correcte" vertalingen vaak morfologisch ongeldig zijn.
:::
Een nieuwe dataset aanmaken
Om een dataset aan te maken voor een nieuw taalpaar of domein:
1. Structureer de JSON
Volg het schema uit Datasetformaat. Elke invoer moet source, reference, difficulty, provenance, register en context bevatten.
2. Wijs een unieke ID toe
Gebruik een beschrijvende slug: {project}-{split}-v{version} (bijv. edtekla-dev-v1, quechua-test-v1).
3. Verifieer goudstandaarden
Elke reference-waarde moet worden geverifieerd door een vloeiende spreker of afkomstig zijn uit een gepubliceerde, peer-reviewed bron. Door machines gegenereerde referenties ondermijnen het doel van evaluatie.
4. Stel moeilijkheidsgraden in
Wijs aan elke invoer een geheel getal als moeilijkheidsniveau toe:
| Graad | Beschrijving | Voorbeelden |
|---|---|---|
| 1 — Basiswoordenschat | Losse woorden, veelgebruikte begroetingen, getallen | "hello" → "tânisi" |
| 2 — Eenvoudige zinnen | Onderwerp-werkwoord of SVO, tegenwoordige tijd | "I see the dog" |
| 3 — Gemiddelde complexiteit | Verleden/toekomstige tijd, possessieven, animasie | "I saw his dog yesterday" |
| 4 — Complexe morfologie | Obviatie, passieve vorm, conjunctvolgorde | "the woman whose son went to the store" |
| 5 — Gevorderd | Meerdere bijzinnen, formeel register, ceremonieel, idiomatisch | Volledige alinea met registerpassende toon |
5. Tag de herkomst
Elke invoer moet aangeven waar deze vandaan komt. Veelgebruikte tags:
gold_standard— Geverifieerd door vloeiende sprekerstextbook— Afkomstig uit gepubliceerd educatief materiaalelicited— Geproduceerd via gestructureerde elicitatiesessiescorpus— Geëxtraheerd uit een parallel corpus
6. Valideer het bestand
Voer de harness uit op uw dataset met een willekeurig model om te controleren of de JSON correct is opgemaakt en alle vereiste velden aanwezig zijn:
python eval/baseline_experiment.py --dataset path/to/your-dataset.json
De harness geeft een foutmelding bij ontbrekende velden, dubbele indices of schemaschendingen.
7. Dien in voor opname
Open een pull request in de eval harness-repository met uw datasetbestand in de map data/. Voeg documentatie toe over uw verificatiemethodologie en herkomstbronnen.
FLORES+ Devtest
Een breedomvattende meertalige benchmark, onderhouden door het Open Language Data Initiative (OLDI). Gebruikt voor de multi-model frontierbenchmark van champollion.
| Eigenschap | Waarde |
|---|---|
| ID | flores-plus-devtest |
| Taalparen | EN → 39 talen (alle bij champollion geregistreerde natuurlijke talen) |
| Aantal invoer | 1.012 zinnen per taal |
| Licentie | CC BY-SA 4.0 |
| Bron | Oorspronkelijk Meta FLORES-200, nu onderhouden door OLDI |
| Locatie | Vooraf geëxtraheerde fixtures op test/benchmark/fixtures/ in de hoofdrepository van champollion |
:::danger Uitsluitend voor evaluatie FLORES+ is uitsluitend bedoeld voor evaluatie. De samenstellers verzoeken uitdrukkelijk dat het niet als trainingsdata wordt gebruikt. Zorg ervoor dat de inhoud ervan is uitgesloten van alle trainingscorpora. :::
Zie ook
- MT Evaluation — overzicht van het evaluatieraamwerk en het leaderboard
- Eval Harness — hoe u evaluaties uitvoert op deze datasets
- Run Card Specification — het JSON-schema voor het vastleggen van resultaten
- Method Leaderboard — live benchmarkscores
- EdTeKLA Project — de onderzoeksgroep van de University of Alberta achter de Cree-dataset