MT Evaluatie

Samenvatting. Deze pagina definieert de inzendinscriteria voor het leaderboard, scoringsmetrieken (chrF++, FST-acceptatie, exacte overeenkomst, equivalente overeenkomst, semantische score), anti-manipulatiebeleid, verificatieniveaus en de inzendingsworkflow. Methoden die zijn blootgesteld aan evaluatiedata worden gediskwalificeerd.

champollion bevat een raamwerk voor machinevertaalevaluatie, ontworpen voor reproduceerbare benchmarking van vertaalmethoden — met name voor talen met weinig bronmateriaal en inheemse talen waarvoor standaard MT-benchmarks ontbreken en kwaliteitsclaims moeilijk te verifiëren zijn.

Het Leaderboard

Het centrale onderdeel is het Methode-leaderboard — een live, op Supabase gebaseerd scorebord waarop onderzoekers en gemeenschapsleden vertaalmethoden indienen en vergelijken met vingerafdruk-gebaseerde, reproduceerbare evaluatie.

Elke inzending bevat:

Vingerafdruk-pipeline — gekoppeld aan een specifieke Git-commit en configuratiehash, zodat resultaten herleidbaar zijn tot de exacte code die ze heeft gegenereerd
Versioned dataset — inhoudelijk gehasht en voorzien van versienummering; scores zijn alleen vergelijkbaar binnen dezelfde datasetversie
Gestandaardiseerde metrieken — alle scoring wordt berekend door het gedeelde evaluatieraamwerk, waardoor implementatieverschillen worden geëlimineerd
Vertrouwensniveaus — zelf-gebenchmarkt, GDS Verified of Community Validated
Kostenbeheer — API-kosten per inzending, zodat de afweging tussen kosten en kwaliteit transparant is

Het leaderboard volgt momenteel vijf metrieken. Drie werken voor elke taal; twee zijn beschikbaar voor Plains Cree en worden gegeneraliseerd naarmate we uitbreiden:

Metriek	Type	Wat het meet
chrF++	Karakter-n-gram F-score	Primaire kwaliteitsmetriek — correleert goed met menselijk oordeel, met name voor morfologisch rijke talen
Exact Match	Aandeel perfecte overeenkomsten	Strikte nauwkeurigheid — hoe vaak is de vertaling exact gelijk aan de gouden standaard?
FST Acceptance	Morfologische gate-slagingspercentage	Voor methoden met verificatie via eindige-toestandstransducers — welk aandeel van de uitvoer is morfologisch geldig?
Equivalent Match	Acceptabele variantpercentage	Fractie die overeenkomt met de referentie of een acceptabele variant (woordvolgorde, orthografische conventie). Momenteel CRK; wordt gegeneraliseerd.
Semantic Score	Semantische getrouwheid	Betekenisbehoud — legt de vertaling de beoogde betekenis vast, ongeacht de oppervlaktevorm? Momenteel CRK; wordt gegeneraliseerd.

:::info Volledige metriekenset De Scoringsspecificatie definieert de volledige inventaris van 19 metrieken verdeeld over 5 categorieën, de formule voor de samengestelde score, gewichtstabellen en drempelwaarden voor kwaliteitsniveaus. :::

→ Bekijk het leaderboard

Beschikbare Datasets

EDTeKLA Development Set v1

De eerste evaluatiedataset, opgebouwd voor Engels→Plains Cree (SRO)-vertaling. Gemaakt door de EdTeKLA-onderzoeksgroep aan de University of Alberta.

Eigenschap	Waarde
ID	`edtekla-dev-v1`
Taalpaar	EN → CRK (Plains Cree, SRO-orthografie)
Aantal items	404 (`master_corpus.json`: 62 gouden standaard + 342 leerboek); 548 totaal beschikbaar
Licentie	CC BY-NC-SA 4.0
Herkomst	`gold_standard` (geverifieerd door sprekers), `textbook` (gepubliceerd educatief materiaal)

FLORES+ Devtest — Uitsluitend voor Ontwikkelingsgebruik

[!WARNING] FLORES+ is beschikbaar voor ontwikkeling en foutopsporing, maar wordt NIET gebruikt voor officiële leaderboard-evaluatie. FLORES+ (oorspronkelijk Meta FLORES-200) is een breed openbaar beschikbare benchmarkdataset waarop frontier-LLM's vrijwel zeker zijn getraind. Scores op basis van FLORES+ weerspiegelen de werkelijke vertaalkwaliteit voor op LLM gebaseerde methoden niet betrouwbaar. Niet-LLM-methoden (FST, regelgebaseerd, fijnafgesteld NMT) zijn minder gevoelig, maar FLORES+-scores worden desondanks niet gepubliceerd op het leaderboard.

FLORES+-fixtures blijven beschikbaar in test/benchmark/fixtures/ voor pipeline-rooktests, taaloverschrijdende validatie en ontwikkelingsgebruik. Officiële evaluatie maakt gebruik van aangepaste corpora opgebouwd uit door mensen geschreven tekst die niet openbaar beschikbaar is in parallelle vorm.

Zie Evaluatiedatasets voor het volledige datasetschema, moeilijkheidsgraden en instructies voor het aanmaken van uw eigen dataset.

:::danger TRAIN NIET op evaluatiedata

Deze datasets zijn uitsluitend bedoeld voor evaluatie. Methoden die zijn getraind, fijnafgesteld, via few-shot-prompting of anderszins blootgesteld aan evaluatiedata produceren kunstmatig opgeblazen scores en worden gediskwalificeerd van het leaderboard.

Dit is geen aanbeveling — het is de belangrijkste regel voor de integriteit van de evaluatie. Gebruik afzonderlijke corpora voor training. Evaluatiesets mogen tijdens de ontwikkeling niet door uw model zijn gezien.

Als u coachingdata of few-shot-voorbeelden gebruikt, moeten deze afkomstig zijn uit volledig afzonderlijke bronnen. Twijfelt u? Neem het dan niet op. :::

:::warning Niet-determinisme van LLM's

LLM-uitvoer is niet-deterministisch. Scores vertegenwoordigen momentopnamen onder specifieke modelversies en API-configuraties. Modelaanbieders kunnen op elk moment gewichten, decoderingsstrategieën of veiligheidsfilters bijwerken, wat scoredrift tussen uitvoeringen kan veroorzaken. Het leaderboard registreert de exacte model-slug en tijdstempel voor elke inzending. :::

Wat een Goede Methode Kenmerkt

Niet alle methoden zijn gelijkwaardig. Dit is wat rigoureus werk onderscheidt van opgeblazen scores.

Kenmerken van een sterke methode

Strikte scheiding van trainings- en evaluatiedata — uw methode heeft de evaluatieset nooit gezien tijdens ontwikkeling, afstemming, prompt-engineering of selectie van few-shot-voorbeelden
Reproduceerbaar — iemand anders kan uw repository klonen, het raamwerk uitvoeren en dezelfde scores verkrijgen (binnen de grenzen van LLM-niet-determinisme)
Gedocumenteerd — uw methodekaart beschrijft wat uw methode doet, welke hulpmiddelen zij gebruikt en wat haar beperkingen zijn
Eerlijk over reikwijdte — als uw methode alleen werkt voor één taalpaar, vermeld dat dan; als zij verslechtert bij bepaalde morfologische patronen, documenteer dat dan
Gemeenschapsbewust — voor inheemse talen respecteert uw methode de datasouvereiniteit. U heeft overleg gepleegd met taalgemeenschappen of uitsluitend openlijk gelicentieerde data gebruikt

Waarschuwingssignalen (wat leidt tot diskwalificatie)

Waarschuwingssignaal	Waarom het een probleem is
Trainen op evaluatiedata	Ondermijnt het doel van evaluatie volledig. Opgeblazen scores misleiden iedereen.
Selectief rapporteren van resultaten	10 keer uitvoeren en de beste run indienen zonder de overige te vermelden
Niet-gedeclareerde nabewerking	Uitvoer handmatig corrigeren vóór scoring
Gecontamineerde coachingdata	Evaluatiesetvoorbeelden gebruiken als few-shot-prompts of woordenboekitems
Commerciële gereedheid claimen zonder herkomstvermelding	Als uw methode CC BY-NC-SA-data gebruikt, is zij niet commercieel gereed

Verificatieniveaus

Verificatieniveaus beschrijven wie het resultaat heeft gevalideerd — los van de kwaliteitsniveaus (Baseline → Fluent) die zijn gedefinieerd in de Scoringsspecificatie, §5, welke beschrijven wat de geautomatiseerde samengestelde score betekent.

Niveau	Betekenis	Hoe te verkrijgen
Self-benchmarked	U heeft het raamwerk zelf uitgevoerd en de resultaten ingediend	Open een PR met uw run card
GDS Verified	De champollion-beheerders hebben uw resultaten gereproduceerd	Dien uw methode in als installeerbare plugin
Community Validated	De governance-organisatie heeft uitgevoerd tegen de gouden standaard + gemeenschapsreview	Dien de methodecode in bij de governance-organisatie

Hoe in te Dienen

Bouw uw methode — zie Een methode bouwen voor de methode-interface
Voer het raamwerk uit — zie Eval Harness voor installatie en gebruik
Genereer een run card — het raamwerk produceert een JSON-run card met uw scores, vingerafdruk en metadata
Open een PR — dien uw run card in bij de eval harness-repository
Verschijn op het leaderboard — zodra samengevoegd, verschijnen uw resultaten op het Methode-leaderboard

Toekomstige Richtingen

Uitgebreide modelvergelijkingsruns — systematische evaluatie van frontier-modellen (GPT-4o, Claude, Gemini, enz.) voor champollion-talen met behulp van aangepaste evaluatiecorpora (geen openbare benchmarks)
Meer taalparen — Quechua, Inuktitut en andere talen met weinig bronmateriaal naarmate door de gemeenschap geverifieerde datasets beschikbaar komen
Dataset-import — hulpmiddelen om externe evaluatiedatasets (WMT, Tatoeba, enz.) te converteren naar het champollion-evaluatieformaat
Geautomatiseerde heruitvoeringen — detectie van modelversiewijzigingen en heruitvoering van benchmarks om scoredrift bij te houden

Zie Ook

Methode-leaderboard — live scores en inzendingen
Eval Harness — hoe evaluaties uit te voeren
Evaluatiedatasets — datasetformaat en beschikbare datasets
Een methode bouwen — de specificatie van de methode-interface
Run Card-specificatie — het JSON-schema van de run card
Benchmarkspecificatie — evaluatieprotocol, corpusformaat, souvereiniteit
Scoringsspecificatie — SSOT voor metrieken, samengestelde gewichten en kwaliteitsniveaus

Het Leaderboard​

Beschikbare Datasets​

EDTeKLA Development Set v1​

FLORES+ Devtest — Uitsluitend voor Ontwikkelingsgebruik​

Wat een Goede Methode Kenmerkt​

Kenmerken van een sterke methode​

Waarschuwingssignalen (wat leidt tot diskwalificatie)​

Verificatieniveaus​

Hoe in te Dienen​

Toekomstige Richtingen​

Zie Ook​