Zum Hauptinhalt springen

Evaluierungsdatensätze

Zusammenfassung. Diese Seite beschreibt die für das Benchmarking verfügbaren Evaluierungsdatensätze, einschließlich des Schemas für Korpuseinträge, der Schwierigkeitsstufen (1–5) und der Anforderungen an die Provenienz. Aktuell verfügbar: EDTeKLA Dev v1 (Plains Cree, 548 Einträge insgesamt: 486 Lehrbuch + 62 Goldstandard) und FLORES+ Devtest (39 Sprachen, je 1.012 Einträge).

Datensätze sind die festen Ziele, gegen die das Harness läuft. Jeder Datensatz ist eine JSON-Datei, die Quell→Ziel-Paare mit Goldstandard-Referenzen enthält. Das Harness bewertet die Modellausgaben anhand dieser Referenzen — es verändert sie niemals.

:::danger TRAINIEREN SIE NICHT mit Evaluierungsdaten

⚠️ Diese Datensätze dienen ausschließlich der Evaluierung. Methoden, die mit Evaluierungsdaten trainiert, feinabgestimmt, mittels Few-Shot-Prompting eingesetzt oder anderweitig mit ihnen in Berührung gekommen sind, erzeugen künstlich überhöhte Werte und werden von der Bestenliste ausgeschlossen.

Verwenden Sie für das Training separate Korpora. Evaluierungssätze müssen während der Entwicklung für Ihr Modell ungesehen bleiben. :::


Datensatzformat

Jeder Datensatz folgt demselben JSON-Schema:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info Kanonisches Schema Die Benchmark-Spezifikation definiert das kanonische Korpus- und Eintragsschema. Diese Seite dokumentiert die verfügbaren Datensätze und wie neue erstellt werden. :::

Übergeordneter dataset-Block

FeldTypBeschreibung
idstringEindeutige Datensatzkennung (verwendet in Run Cards und Bestenliste)
versionstringSemantische Version. Eine Erhöhung dieses Werts macht frühere Run-Card-Vergleiche ungültig
language_pairstringAnzeigebezeichnung (z. B. EN→CRK)
descriptionstringOptional. Menschenlesbare Zusammenfassung
source_languagestringBCP-47-Quellsprachencode
target_languagestringBCP-47-Zielsprachencode
createdstringISO-8601-Erstellungsdatum
licensestringSPDX-Lizenzkennung
provenancestring[]Liste der über die Einträge hinweg verwendeten Provenienz-Tags

Eintragsfelder

FeldTypErforderlichBeschreibung
idintegerEindeutige Eintragskennung innerhalb des Korpus
sourcestringDer zu übersetzende Quelltext
referencestringDie Goldstandard-Referenzübersetzung
difficultyintegerSchwierigkeitsstufe 1–5 (siehe unten)
provenancestringHerkunft dieses Eintrags (z. B. gold_standard, textbook, elicited)
registerstringRegister-/Formalitätsstufe (z. B. conversational, formal, ceremonial)
contextstringKommunikative Funktion (z. B. greeting, declaration, instruction)
notesstringOptionaler Kontext für menschliche Prüfer
morphological_analysisstringGoldstandard-Aufschlüsselung der Morphologie
variant_classstringKlassenbezeichnung zur Gruppierung akzeptabler Übersetzungsvarianten

Verfügbare Datensätze

EDTeKLA Development Set v1

Der erste Evaluierungsdatensatz, erstellt für die Übersetzung Englisch→Plains Cree (SRO). Erstellt von der EdTeKLA-Forschungsgruppe an der University of Alberta.

EigenschaftWert
IDedtekla-dev-v1
Version1.0
SprachpaarEN → CRK (Plains Cree, SRO-Orthografie)
Anzahl der Einträge548 insgesamt (486 Lehrbuch + 62 Goldstandard). Das kanonische Dev-Korpus ist textbook_dev.json (436 Einträge — der vollständige Lehrbuch-Dev-Split von insgesamt 486: 436 Dev + 50 zurückgehaltener Test)
SchwierigkeitsverteilungEasy, Medium, Hard
Provenienzgold_standard (von Sprechern verifiziert), textbook (veröffentlichte Lehrmaterialien)
LizenzCC BY-NC-SA 4.0

Was geprüft wird:

  • Grundlegende Begrüßungen und gängige Phrasen
  • Nomen-Belebtheit und Obviation
  • Verbkonjugation über Personen und Zeitformen hinweg
  • Lokativkonstruktionen
  • Possessivparadigmen
  • Komplexe Satzstrukturen

:::tip Korpusstruktur Die vollständige EdTeKLA-Sammlung umfasst 548 kuratierte Einträge: 486 aus dem Lehrbuchkorpus (436 Dev + 50 zurückgehalten) und 62 aus dem itwêwina-Goldstandard. Das kanonische Dev-Korpus ist textbook_dev.json mit 436 Einträgen — der vollständige Lehrbuch-Dev-Split. Jeder Eintrag wurde von fließend sprechenden Personen verifiziert oder aus veröffentlichten Cree-Sprachlehrbüchern bezogen. Ein kleinerer, hochwertiger Datensatz mit verifizierten Goldstandards ist nützlicher als ein großer, verrauschter — insbesondere für eine ressourcenarme Sprache, in der „ausreichend nahe" Übersetzungen oft morphologisch ungültig sind. :::


Erstellung eines neuen Datensatzes

So erstellen Sie einen Datensatz für ein neues Sprachpaar oder eine neue Domäne:

1. Strukturieren Sie das JSON

Folgen Sie dem Schema Datensatzformat. Jeder Eintrag muss source, reference, difficulty, provenance, register und context enthalten.

2. Weisen Sie eine eindeutige ID zu

Verwenden Sie einen beschreibenden Slug: {project}-{split}-v{version} (z. B. edtekla-dev-v1, quechua-test-v1).

3. Verifizieren Sie die Goldstandards

Jeder reference-Wert muss von einer fließend sprechenden Person verifiziert oder aus einer veröffentlichten, von Fachleuten begutachteten Quelle bezogen werden. Maschinell erzeugte Referenzen verfehlen den Zweck der Evaluierung.

4. Legen Sie Schwierigkeitsstufen fest

Weisen Sie jedem Eintrag eine ganzzahlige Schwierigkeitsstufe zu:

StufeBeschreibungBeispiele
1 — GrundwortschatzEinzelne Wörter, gängige Begrüßungen, Zahlen„hello" → „tânisi"
2 — Einfache SätzeSubjekt-Verb oder SVO, Präsens„I see the dog"
3 — Mittlere KomplexitätVergangenheit/Zukunft, Possessive, Belebtheit„I saw his dog yesterday"
4 — Komplexe MorphologieObviation, Passiv, Konjunktordnung„the woman whose son went to the store"
5 — FortgeschrittenMehrgliedrig, formelles Register, zeremoniell, idiomatischVollständiger Absatz mit registergerechtem Ton

5. Kennzeichnen Sie die Provenienz

Jeder Eintrag sollte angeben, woher er stammt. Gängige Tags:

  • gold_standard — Von fließend sprechenden Personen verifiziert
  • textbook — Aus veröffentlichten Lehrmaterialien
  • elicited — Durch strukturierte Erhebungssitzungen erstellt
  • corpus — Aus einem Parallelkorpus extrahiert

6. Validieren Sie die Datei

Führen Sie das Harness mit einem beliebigen Modell gegen Ihren Datensatz aus, um zu überprüfen, ob das JSON wohlgeformt ist und alle erforderlichen Felder vorhanden sind:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

Das Harness gibt bei fehlenden Feldern, doppelten Indizes oder Schemaverstößen einen Fehler aus.

7. Reichen Sie ihn zur Aufnahme ein

Öffnen Sie einen Pull Request gegen das Eval-Harness-Repository mit Ihrer Datensatzdatei im Verzeichnis data/. Fügen Sie eine Dokumentation Ihrer Verifizierungsmethodik und Provenienzquellen bei.


FLORES+ Devtest

Ein breit angelegter mehrsprachiger Benchmark, der von der Open Language Data Initiative (OLDI) gepflegt wird. Wird für Champollions Multi-Model-Frontier-Benchmark verwendet.

EigenschaftWert
IDflores-plus-devtest
SprachpaareEN → 39 Sprachen (alle bei champollion registrierten natürlichen Sprachen)
Anzahl der Einträge1.012 Sätze pro Sprache
LizenzCC BY-SA 4.0
QuelleUrsprünglich Meta FLORES-200, jetzt von OLDI gepflegt
SpeicherortVorextrahierte Fixtures unter test/benchmark/fixtures/ im Haupt-Repo von champollion

:::danger Nur zur Evaluierung FLORES+ ist ausschließlich zur Evaluierung gedacht. Die Kuratoren bitten ausdrücklich darum, es nicht als Trainingsdaten zu verwenden. Stellen Sie sicher, dass seine Inhalte aus allen Trainingskorpora ausgeschlossen werden. :::


Siehe auch