Naar hoofdinhoud gaan

Evaluatiedatasets

Samenvatting. Deze pagina beschrijft de evaluatiedatasets die beschikbaar zijn voor benchmarking, inclusief het schema voor corpusinvoer, moeilijkheidsgraden (1–5) en herkomstvereisten. Momenteel beschikbaar: EDTeKLA Dev v1 (Plains Cree, 548 invoer in totaal: 486 leerboek + 62 goudstandaard) en FLORES+ Devtest (39 talen, 1.012 invoer per taal).

Datasets zijn de vaste doelbestanden waarop de harness wordt uitgevoerd. Elke dataset is een JSON-bestand met bron→doelparen en goudstandaardreferenties. De harness beoordeelt modeluitvoer aan de hand van deze referenties — deze worden nooit gewijzigd.

:::danger TRAIN NIET op evaluatiedata

⚠️ Deze datasets zijn uitsluitend bedoeld voor evaluatie. Methoden die zijn getraind, verfijnd, few-shot-geprompt of op een andere manier blootgesteld aan evaluatiedata produceren kunstmatig verhoogde scores en worden gediskwalificeerd van het leaderboard.

Gebruik afzonderlijke corpora voor training. Evaluatiesets mogen tijdens de ontwikkeling niet door uw model worden gezien. :::


Datasetformaat

Elke dataset volgt hetzelfde JSON-schema:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info Canoniek schema De Benchmark Specification definieert het canonieke corpus- en invoerschema. Deze pagina documenteert beschikbare datasets en hoe u nieuwe kunt aanmaken. :::

Bovenste niveau dataset blok

VeldTypeBeschrijving
idstringUnieke dataset-identifier (gebruikt in run cards en leaderboard)
versionstringSemantische versie. Het verhogen hiervan maakt eerdere run card-vergelijkingen ongeldig
language_pairstringWeergavelabel (bijv. EN→CRK)
descriptionstringOptioneel. Leesbare samenvatting
source_languagestringBCP 47-code voor de brontaal
target_languagestringBCP 47-code voor de doeltaal
createdstringISO 8601-aanmaakdatum
licensestringSPDX-licentie-identifier
provenancestring[]Lijst van herkomsttags die in invoer worden gebruikt

Invoervelden

VeldTypeVereistBeschrijving
idintegerUnieke invoer-identifier binnen het corpus
sourcestringDe te vertalen brontekst
referencestringDe goudstandaard referentievertaling
difficultyintegerMoeilijkheidsgraad 1–5 (zie hieronder)
provenancestringHerkomst van deze invoer (bijv. gold_standard, textbook, elicited)
registerstringRegister/formaliteitsniveau (bijv. conversational, formal, ceremonial)
contextstringCommunicatieve functie (bijv. greeting, declaration, instruction)
notesstringOptionele context voor menselijke beoordelaars
morphological_analysisstringMorfologische goudstandaardanalyse
variant_classstringKlasselabel dat acceptabele vertaalvarianten groepeert

Beschikbare datasets

EDTeKLA Development Set v1

De eerste evaluatiedataset, opgebouwd voor Engels→Plains Cree (SRO)-vertaling. Gemaakt door de EdTeKLA-onderzoeksgroep aan de University of Alberta.

EigenschapWaarde
IDedtekla-dev-v1
Versie1.0
TaalpaarEN → CRK (Plains Cree, SRO-orthografie)
Aantal invoer548 in totaal (486 leerboek + 62 goudstandaard). Het canonieke dev-corpus is textbook_dev.json (436 invoer — de volledige leerboek-dev-splitsing van 486 in totaal: 436 dev + 50 achtergehouden test)
Verdeling moeilijkheidsgraadEenvoudig, Gemiddeld, Moeilijk
Herkomstgold_standard (geverifieerd door sprekers), textbook (gepubliceerd educatief materiaal)
LicentieCC BY-NC-SA 4.0

Wat het test:

  • Basisbegroetingen en veelgebruikte uitdrukkingen
  • Naamwoordsanimasie en obviatie
  • Werkwoordsvervoeging over personen en tijden
  • Locatieve constructies
  • Possessieve paradigma's
  • Complexe zinsstructuren

:::tip Corpusstructuur De volledige EdTeKLA-collectie bevat 548 gecureerde invoer: 486 uit het leerboekencorpus (436 dev + 50 achtergehouden) en 62 uit de itwêwina-goudstandaard. Het canonieke dev-corpus is textbook_dev.json met 436 invoer — de volledige leerboek-dev-splitsing. Elke invoer is geverifieerd door vloeiende sprekers of afkomstig uit gepubliceerde Cree-taalleerboeken. Een kleinere, hoogwaardige dataset met geverifieerde goudstandaarden is nuttiger dan een grote, ruisrijke — zeker voor een taal met weinig middelen waarbij "bijna correcte" vertalingen vaak morfologisch ongeldig zijn. :::


Een nieuwe dataset aanmaken

Om een dataset aan te maken voor een nieuw taalpaar of domein:

1. Structureer de JSON

Volg het schema uit Datasetformaat. Elke invoer moet source, reference, difficulty, provenance, register en context bevatten.

2. Wijs een unieke ID toe

Gebruik een beschrijvende slug: {project}-{split}-v{version} (bijv. edtekla-dev-v1, quechua-test-v1).

3. Verifieer goudstandaarden

Elke reference-waarde moet worden geverifieerd door een vloeiende spreker of afkomstig zijn uit een gepubliceerde, peer-reviewed bron. Door machines gegenereerde referenties ondermijnen het doel van evaluatie.

4. Stel moeilijkheidsgraden in

Wijs aan elke invoer een geheel getal als moeilijkheidsniveau toe:

GraadBeschrijvingVoorbeelden
1 — BasiswoordenschatLosse woorden, veelgebruikte begroetingen, getallen"hello" → "tânisi"
2 — Eenvoudige zinnenOnderwerp-werkwoord of SVO, tegenwoordige tijd"I see the dog"
3 — Gemiddelde complexiteitVerleden/toekomstige tijd, possessieven, animasie"I saw his dog yesterday"
4 — Complexe morfologieObviatie, passieve vorm, conjunctvolgorde"the woman whose son went to the store"
5 — GevorderdMeerdere bijzinnen, formeel register, ceremonieel, idiomatischVolledige alinea met registerpassende toon

5. Tag de herkomst

Elke invoer moet aangeven waar deze vandaan komt. Veelgebruikte tags:

  • gold_standard — Geverifieerd door vloeiende sprekers
  • textbook — Afkomstig uit gepubliceerd educatief materiaal
  • elicited — Geproduceerd via gestructureerde elicitatiesessies
  • corpus — Geëxtraheerd uit een parallel corpus

6. Valideer het bestand

Voer de harness uit op uw dataset met een willekeurig model om te controleren of de JSON correct is opgemaakt en alle vereiste velden aanwezig zijn:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

De harness geeft een foutmelding bij ontbrekende velden, dubbele indices of schemaschendingen.

7. Dien in voor opname

Open een pull request in de eval harness-repository met uw datasetbestand in de map data/. Voeg documentatie toe over uw verificatiemethodologie en herkomstbronnen.


FLORES+ Devtest

Een breedomvattende meertalige benchmark, onderhouden door het Open Language Data Initiative (OLDI). Gebruikt voor de multi-model frontierbenchmark van champollion.

EigenschapWaarde
IDflores-plus-devtest
TaalparenEN → 39 talen (alle bij champollion geregistreerde natuurlijke talen)
Aantal invoer1.012 zinnen per taal
LicentieCC BY-SA 4.0
BronOorspronkelijk Meta FLORES-200, nu onderhouden door OLDI
LocatieVooraf geëxtraheerde fixtures op test/benchmark/fixtures/ in de hoofdrepository van champollion

:::danger Uitsluitend voor evaluatie FLORES+ is uitsluitend bedoeld voor evaluatie. De samenstellers verzoeken uitdrukkelijk dat het niet als trainingsdata wordt gebruikt. Zorg ervoor dat de inhoud ervan is uitgesloten van alle trainingscorpora. :::


Zie ook