Evaluierungsdatensätze

Zusammenfassung. Diese Seite beschreibt die für das Benchmarking verfügbaren Evaluierungsdatensätze, einschließlich des Schemas für Korpuseinträge, der Schwierigkeitsstufen (1–5) und der Anforderungen an die Provenienz. Aktuell verfügbar: EDTeKLA Dev v1 (Plains Cree, 548 Einträge insgesamt: 486 Lehrbuch + 62 Goldstandard) und FLORES+ Devtest (39 Sprachen, je 1.012 Einträge).

Datensätze sind die festen Ziele, gegen die das Harness läuft. Jeder Datensatz ist eine JSON-Datei, die Quell→Ziel-Paare mit Goldstandard-Referenzen enthält. Das Harness bewertet die Modellausgaben anhand dieser Referenzen — es verändert sie niemals.

:::danger TRAINIEREN SIE NICHT mit Evaluierungsdaten

⚠️ Diese Datensätze dienen ausschließlich der Evaluierung. Methoden, die mit Evaluierungsdaten trainiert, feinabgestimmt, mittels Few-Shot-Prompting eingesetzt oder anderweitig mit ihnen in Berührung gekommen sind, erzeugen künstlich überhöhte Werte und werden von der Bestenliste ausgeschlossen.

Verwenden Sie für das Training separate Korpora. Evaluierungssätze müssen während der Entwicklung für Ihr Modell ungesehen bleiben. :::

Datensatzformat

Jeder Datensatz folgt demselben JSON-Schema:

{
  "dataset": {
    "id": "dataset-slug",
    "version": "1.0",
    "language_pair": "EN→CRK",
    "description": "Human-readable description of the dataset",
    "source_language": "en",
    "target_language": "crk",
    "created": "2025-05-01",
    "license": "CC-BY-NC-4.0",
    "provenance": ["gold_standard", "textbook"]
  },
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "tânisi",
      "difficulty": 1,
      "provenance": "gold_standard",
      "register": "conversational",
      "context": "greeting",
      "notes": "Common greeting, SRO orthography"
    }
  ]
}

:::info Kanonisches Schema Die Benchmark-Spezifikation definiert das kanonische Korpus- und Eintragsschema. Diese Seite dokumentiert die verfügbaren Datensätze und wie neue erstellt werden. :::

Übergeordneter `dataset`-Block

Feld	Typ	Beschreibung
`id`	`string`	Eindeutige Datensatzkennung (verwendet in Run Cards und Bestenliste)
`version`	`string`	Semantische Version. Eine Erhöhung dieses Werts macht frühere Run-Card-Vergleiche ungültig
`language_pair`	`string`	Anzeigebezeichnung (z. B. `EN→CRK`)
`description`	`string`	Optional. Menschenlesbare Zusammenfassung
`source_language`	`string`	BCP-47-Quellsprachencode
`target_language`	`string`	BCP-47-Zielsprachencode
`created`	`string`	ISO-8601-Erstellungsdatum
`license`	`string`	SPDX-Lizenzkennung
`provenance`	`string[]`	Liste der über die Einträge hinweg verwendeten Provenienz-Tags

Eintragsfelder

Feld	Typ	Erforderlich	Beschreibung
`id`	`integer`	✅	Eindeutige Eintragskennung innerhalb des Korpus
`source`	`string`	✅	Der zu übersetzende Quelltext
`reference`	`string`	✅	Die Goldstandard-Referenzübersetzung
`difficulty`	`integer`	✅	Schwierigkeitsstufe 1–5 (siehe unten)
`provenance`	`string`	✅	Herkunft dieses Eintrags (z. B. `gold_standard`, `textbook`, `elicited`)
`register`	`string`	✅	Register-/Formalitätsstufe (z. B. `conversational`, `formal`, `ceremonial`)
`context`	`string`	✅	Kommunikative Funktion (z. B. `greeting`, `declaration`, `instruction`)
`notes`	`string`	❌	Optionaler Kontext für menschliche Prüfer
`morphological_analysis`	`string`	❌	Goldstandard-Aufschlüsselung der Morphologie
`variant_class`	`string`	❌	Klassenbezeichnung zur Gruppierung akzeptabler Übersetzungsvarianten

Verfügbare Datensätze

EDTeKLA Development Set v1

Der erste Evaluierungsdatensatz, erstellt für die Übersetzung Englisch→Plains Cree (SRO). Erstellt von der EdTeKLA-Forschungsgruppe an der University of Alberta.

Eigenschaft	Wert
ID	`edtekla-dev-v1`
Version	`1.0`
Sprachpaar	EN → CRK (Plains Cree, SRO-Orthografie)
Anzahl der Einträge	548 insgesamt (486 Lehrbuch + 62 Goldstandard). Das kanonische Dev-Korpus ist `textbook_dev.json` (436 Einträge — der vollständige Lehrbuch-Dev-Split von insgesamt 486: 436 Dev + 50 zurückgehaltener Test)
Schwierigkeitsverteilung	Easy, Medium, Hard
Provenienz	`gold_standard` (von Sprechern verifiziert), `textbook` (veröffentlichte Lehrmaterialien)
Lizenz	CC BY-NC-SA 4.0

Was geprüft wird:

Grundlegende Begrüßungen und gängige Phrasen
Nomen-Belebtheit und Obviation
Verbkonjugation über Personen und Zeitformen hinweg
Lokativkonstruktionen
Possessivparadigmen
Komplexe Satzstrukturen

:::tip Korpusstruktur Die vollständige EdTeKLA-Sammlung umfasst 548 kuratierte Einträge: 486 aus dem Lehrbuchkorpus (436 Dev + 50 zurückgehalten) und 62 aus dem itwêwina-Goldstandard. Das kanonische Dev-Korpus ist textbook_dev.json mit 436 Einträgen — der vollständige Lehrbuch-Dev-Split. Jeder Eintrag wurde von fließend sprechenden Personen verifiziert oder aus veröffentlichten Cree-Sprachlehrbüchern bezogen. Ein kleinerer, hochwertiger Datensatz mit verifizierten Goldstandards ist nützlicher als ein großer, verrauschter — insbesondere für eine ressourcenarme Sprache, in der „ausreichend nahe" Übersetzungen oft morphologisch ungültig sind. :::

Erstellung eines neuen Datensatzes

So erstellen Sie einen Datensatz für ein neues Sprachpaar oder eine neue Domäne:

1. Strukturieren Sie das JSON

Folgen Sie dem Schema Datensatzformat. Jeder Eintrag muss source, reference, difficulty, provenance, register und context enthalten.

2. Weisen Sie eine eindeutige ID zu

Verwenden Sie einen beschreibenden Slug: {project}-{split}-v{version} (z. B. edtekla-dev-v1, quechua-test-v1).

3. Verifizieren Sie die Goldstandards

Jeder reference-Wert muss von einer fließend sprechenden Person verifiziert oder aus einer veröffentlichten, von Fachleuten begutachteten Quelle bezogen werden. Maschinell erzeugte Referenzen verfehlen den Zweck der Evaluierung.

4. Legen Sie Schwierigkeitsstufen fest

Weisen Sie jedem Eintrag eine ganzzahlige Schwierigkeitsstufe zu:

Stufe	Beschreibung	Beispiele
1 — Grundwortschatz	Einzelne Wörter, gängige Begrüßungen, Zahlen	„hello" → „tânisi"
2 — Einfache Sätze	Subjekt-Verb oder SVO, Präsens	„I see the dog"
3 — Mittlere Komplexität	Vergangenheit/Zukunft, Possessive, Belebtheit	„I saw his dog yesterday"
4 — Komplexe Morphologie	Obviation, Passiv, Konjunktordnung	„the woman whose son went to the store"
5 — Fortgeschritten	Mehrgliedrig, formelles Register, zeremoniell, idiomatisch	Vollständiger Absatz mit registergerechtem Ton

5. Kennzeichnen Sie die Provenienz

Jeder Eintrag sollte angeben, woher er stammt. Gängige Tags:

gold_standard — Von fließend sprechenden Personen verifiziert
textbook — Aus veröffentlichten Lehrmaterialien
elicited — Durch strukturierte Erhebungssitzungen erstellt
corpus — Aus einem Parallelkorpus extrahiert

6. Validieren Sie die Datei

Führen Sie das Harness mit einem beliebigen Modell gegen Ihren Datensatz aus, um zu überprüfen, ob das JSON wohlgeformt ist und alle erforderlichen Felder vorhanden sind:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

Das Harness gibt bei fehlenden Feldern, doppelten Indizes oder Schemaverstößen einen Fehler aus.

7. Reichen Sie ihn zur Aufnahme ein

Öffnen Sie einen Pull Request gegen das Eval-Harness-Repository mit Ihrer Datensatzdatei im Verzeichnis data/. Fügen Sie eine Dokumentation Ihrer Verifizierungsmethodik und Provenienzquellen bei.

FLORES+ Devtest

Ein breit angelegter mehrsprachiger Benchmark, der von der Open Language Data Initiative (OLDI) gepflegt wird. Wird für Champollions Multi-Model-Frontier-Benchmark verwendet.

Eigenschaft	Wert
ID	`flores-plus-devtest`
Sprachpaare	EN → 39 Sprachen (alle bei champollion registrierten natürlichen Sprachen)
Anzahl der Einträge	1.012 Sätze pro Sprache
Lizenz	CC BY-SA 4.0
Quelle	Ursprünglich Meta FLORES-200, jetzt von OLDI gepflegt
Speicherort	Vorextrahierte Fixtures unter `test/benchmark/fixtures/` im Haupt-Repo von champollion

:::danger Nur zur Evaluierung FLORES+ ist ausschließlich zur Evaluierung gedacht. Die Kuratoren bitten ausdrücklich darum, es nicht als Trainingsdaten zu verwenden. Stellen Sie sicher, dass seine Inhalte aus allen Trainingskorpora ausgeschlossen werden. :::

Siehe auch

MT-Evaluierung — Überblick über das Evaluierungsframework und die Bestenliste
Eval Harness — wie Sie Evaluierungen gegen diese Datensätze ausführen
Run-Card-Spezifikation — das JSON-Schema zur Erfassung von Ergebnissen
Methoden-Bestenliste — Live-Benchmark-Werte
EdTeKLA-Projekt — die Forschungsgruppe der University of Alberta hinter dem Cree-Datensatz

Datensatzformat​

Übergeordneter dataset-Block​

Eintragsfelder​

Verfügbare Datensätze​

EDTeKLA Development Set v1​

Erstellung eines neuen Datensatzes​

1. Strukturieren Sie das JSON​

2. Weisen Sie eine eindeutige ID zu​

3. Verifizieren Sie die Goldstandards​

4. Legen Sie Schwierigkeitsstufen fest​

5. Kennzeichnen Sie die Provenienz​

6. Validieren Sie die Datei​

7. Reichen Sie ihn zur Aufnahme ein​

FLORES+ Devtest​

Siehe auch​