Zum Hauptinhalt springen

Framework für das Design von Evaluationskorpora

Version: 1.0
Status: Entwurf
Zweck: Eine systematische Methodik zur Erstellung von Evaluationskorpora, die valide, zuverlässige und linguistisch aussagekräftige Bewertungen der Übersetzungsqualität liefern. Dies ist die maßgebliche Referenz dafür, wie Champollion-Evaluationsdatensätze konzipiert, erstellt und gepflegt werden.


1. Designprinzipien

1.1 — Warum keine öffentlichen Benchmarks?

Öffentliche Parallelkorpora (FLORES+, Tatoeba, WMT-Testsets, OPUS) stehen für Entwicklung und Debugging zur Verfügung, sind jedoch von der offiziellen Leaderboard-Evaluation ausgeschlossen. Der Grund ist einfach:

Kontamination. Frontier-LLMs werden auf enormen Web-Scrapes trainiert. Jeder Paralleltext, der öffentlich existiert hat — insbesondere in kuratierten, vielzitierten Benchmark-Datensätzen — befindet sich wahrscheinlich in deren Trainingsdaten. Wenn Sie GPT-4o auf FLORES+ evaluieren und es 85 chrF++ erzielt, können Sie nicht zwischen „das Modell ist gut im Übersetzen" und „das Modell hat sich diese spezifischen Satzpaare eingeprägt" unterscheiden. Dies ist keine theoretische Sorge — die Forschung hat messbare Kontaminationseffekte auf MT-Benchmarks nachgewiesen.

Für Champollion ist dies besonders relevant, weil:

  • Unser Leaderboard primär LLM-basierte Methoden vergleicht
  • Unser Nutzenversprechen eine ehrliche, rigorose Evaluation ist
  • Unsere Zielnutzer (Sprachgemeinschaften) anhand dieser Werte Einsatzentscheidungen treffen

1.2 — Kernanforderungen

Jedes Champollion-Evaluationskorpus muss Folgendes erfüllen:

AnforderungBegründung
Von Menschen verfasstKeine synthetischen Daten. Sämtlicher Quelltext und alle Referenzübersetzungen müssen von Menschen verfasst werden. LLMs dürfen bei der Ausrichtung und Formatierung unterstützen, jedoch niemals Inhalte generieren.
Nicht öffentlich in paralleler Form verfügbarDer Quelltext kann öffentlich sein; die Referenzübersetzungen können öffentlich sein; aber die spezifische Paarung darf nicht als herunterladbares Parallelkorpus existieren.
Mit HerkunftsnachweisJeder Eintrag muss eine dokumentierte Herkunft besitzen: Quelldokument, Übersetzer, Lizenz, Datum.
Linguistisch fundiertDie Abdeckung muss von typologischen Merkmalen geleitet werden, nicht von zufälliger Stichprobenentnahme.
DomänenstratifiziertDie Einträge müssen definierte Textdomänen mit kontrollierter Repräsentation abdecken.
SchwierigkeitsgestuftDie Einträge müssen anhand der strukturellen Komplexität Schwierigkeitsstufen (1–5) zugeordnet werden.
VersionskontrolliertKorpusversionen werden inhaltsgehasht. Werte sind nur innerhalb derselben Version vergleichbar.
Von der Gemeinschaft überprüfbarReferenzübersetzungen müssen von Mitgliedern der Sprachgemeinschaft überprüfbar sein.

2. Auswahl des Quelltexts

2.1 — Domänentaxonomie

Champollion evaluiert Übersetzungen für praktische Einsatzkontexte, nicht für akademische Übungen. Die Domänentaxonomie spiegelt reale Texttypen wider, denen Übersetzungsnutzer begegnen:

DomäneCodeBeschreibungBeispielquellen
Software-UIuiSchaltflächenbeschriftungen, Menüpunkte, Fehlermeldungen, Tooltips, Onboarding-AbläufeOpen-Source-App-Strings, Dokumentationsportale
Amtlich/AdministrativadminBehördendokumente, rechtliche Hinweise, Formulare, GrundsatzerklärungenÖffentliche Behördenpublikationen, kommunale Dokumente
BildungeduLehrbuchinhalte, Unterrichtsmaterialien, instruktive TexteVeröffentlichte Bildungsmaterialien, Lehrleitfäden
Erzählend/LiterarischlitGeschichten, kulturelle Texte, Transkriptionen mündlicher ÜberlieferungenVeröffentlichte Bücher, Kulturarchive (mit Genehmigung)
KonversationellconvDialoge, chatähnliche Austausche, informelle schriftliche KommunikationVeröffentlichte Dialogkorpora, Drehbücher, Interviewtranskripte
TechnischtechAPI-Dokumentation, README-Dateien, technische SpezifikationenOpen-Source-Projektdokumentation
Gesundheit/MedizinhealthPatientenorientierte medizinische Informationen, Public-Health-KommunikationBehördliche Gesundheitspublikationen
Nachrichten/JournalistischnewsNachrichtenartikel, Pressemitteilungen, TagesgeschehenGemeinschaftszeitungen, indigene Medienorgane

2.2 — Domänenverteilung

Ein Standard-Evaluationskorpus sollte folgende Verteilung anstreben. Die genauen Prozentsätze können je nach Sprachpaar variieren, abhängig davon, welche Texttypen für die Zielgemeinschaft am relevantesten sind:

DomäneZielwert %Begründung
Software-UI25%Primärer Einsatzkontext für Nutzer der champollion-CLI
Amtlich/Administrativ15%Übersetzungen mit hohem Risiko und rechtlichen Implikationen
Bildung15%Kernanwendungsfall für die Sprachrevitalisierung
Erzählend/Literarisch10%Prüft kulturelle Nuancen und literarisches Register
Konversationell10%Prüft informelles Register und natürliche Sprachmuster
Technisch10%Prüft Präzision und Terminologiekonsistenz
Gesundheit/Medizin10%Hohes Risiko, prüft domänenspezifisches Vokabular
Nachrichten/Journalistisch5%Prüft zeitgenössisches Vokabular und neutrales Register

2.3 — Auswahlkriterien für Quelltexte

Bei der Auswahl von Quelltexten für ein neues Korpus:

  1. Lizenzkompatibilität. Der Quelltext muss unter einer Lizenz stehen, die die Verwendung in einem Evaluationskorpus erlaubt. Bevorzugen Sie CC BY, CC BY-SA oder Public Domain. Dokumentieren Sie die Lizenz.

  2. Aktualität. Bevorzugen Sie Texte, die innerhalb der letzten 10 Jahre veröffentlicht wurden. Sprache entwickelt sich — insbesondere das Vokabular rund um Technologie, Verwaltung und Medizin.

  3. Registervielfalt. Suchen Sie innerhalb jeder Domäne Texte unterschiedlicher Formalitätsgrade. Eine behördliche Pressemitteilung (formal) und ein behördlicher Social-Media-Beitrag (informell) gehören beide zur Domäne admin, weisen jedoch unterschiedliche Register auf.

  4. Kulturelle Relevanz. Priorisieren Sie für indigene und Minderheitensprachen Texte, die für die Gemeinschaft von Bedeutung sind — Dokumente zur Landbewirtschaftung, Bildungsmaterialien in der Sprache, Texte zur Kulturbewahrung — gegenüber Texten, die zufällig in paralleler Form existieren.

  5. Keine maschinell übersetzten Quellen. Wenn ein „paralleles" Dokument erstellt wurde, indem das Original durch Google Translate geleitet und anschließend nachbearbeitet wurde, ist es als Referenzübersetzung NICHT akzeptabel. Die Referenz muss eine unabhängige menschliche Übersetzung sein.


3. System der Schwierigkeitsstufen

3.1 — Definitionen der Stufen

Jeder Eintrag wird einer Schwierigkeitsstufe (1–5) zugeordnet, basierend auf der strukturellen Komplexität des Quelltexts, nicht auf der Übersetzungsschwierigkeit (die je nach Methode variiert).

StufeBezeichnungStrukturelle Merkmale
1ElementarEinfache Sätze. Einzelner Satzteil. Präsens. Gebräuchliches Vokabular. Keine Idiome. Keine eingebetteten Strukturen.
2MittelZusammengesetzte Sätze. Zwei durch Konjunktion verbundene Satzteile. Vergangenheits-/Zukunftsform. Etwas Domänenvokabular.
3FortgeschrittenKomplexe Sätze. Nebensätze, Relativsätze. Gemischte Zeitformen. Domänenspezifische Terminologie. Passiv.
4ExperteMehrere eingebettete Satzteile. Rechtliches/technisches Register. Konditionalstrukturen. Abstrakte Konzepte. Kulturelle Bezüge.
5ExtremDichte Prosa mit mehreren gleichzeitigen Herausforderungen: verschachtelte Unterordnung, mehrdeutige Pronominalbezüge, kulturelle Idiome, gemischtes Register, seltenes Vokabular.

3.2 — Linguistisch fundierte Schwierigkeitsfaktoren

Über die strukturelle Komplexität hinaus wird die Schwierigkeit durch die typologische Distanz zwischen Quell- und Zielsprache moduliert. Diese Faktoren werden aus den typologischen Merkmalen von WALS und den Klassifikationsdaten der Sprachkarte abgeleitet:

FaktorGeringe SchwierigkeitHohe Schwierigkeit
WortstellungGleiche Grundordnung (z. B. SVO→SVO)Unterschiedliche Grundordnung (z. B. SVO→SOV)
Morphologischer TypÄhnlicher Typ (z. B. analytisch→analytisch)Unterschiedlicher Typ (z. B. analytisch→polysynthetisch)
Grammatisches GenusGleiches System oder kein GenusQuelle hat kein Genus, Ziel hat komplexes Genus
Honorativ/RegisterKeine RegistermarkierungZiel hat komplexes Registersystem (z. B. Japanisch, Koreanisch)
SchriftGleiche SchriftUnterschiedliche Schrift (Transliteration erforderlich)
BelebtheitKeine BelebtheitsunterscheidungZiel hat belebtheitsbasierte Kongruenz (z. B. Cree)
EvidentialitätKeine EvidentialitätZiel markiert die Informationsquelle grammatikalisch

3.3 — Verteilung der Stufen

Ein Standardkorpus sollte ungefähr Folgendes aufweisen:

StufeZielwert %Begründung
115%Etabliert eine Grundlinie — selbst schlechte Methoden sollten diese bewältigen
225%Alltägliche praktische Übersetzung
330%Hier werden Qualitätsunterschiede zwischen Methoden sichtbar
420%Trennt gute Methoden von hervorragenden
510%Obergrenzentest — nur sehr wenige Methoden werden diese gut bewältigen

4. Qualität der Referenzübersetzungen

4.1 — Anforderungen an Übersetzer

Referenzübersetzungen müssen von Menschen erstellt werden, die:

  1. Fließende Sprecher der Zielsprache (L1 oder gleichwertig) sind
  2. Literat in sowohl Quell- als auch Zielsprache sind
  3. Domänenkundig für die Domäne des Textes sind (ein medizinischer Übersetzer für Gesundheitstexte usw.)
  4. Unabhängig sind — der Übersetzer darf während der Übersetzung keinen Zugriff auf irgendeine MT-Ausgabe für denselben Text haben

4.2 — Übersetzungsbriefing

Jeder Übersetzer erhält ein Briefing, das Folgendes umfasst:

  • Das zu verwendende Register (formal, konversationell usw.)
  • Die Zielgruppe (Allgemeinheit, Fachleute, Kinder usw.)
  • Etwaige Terminologiekonventionen, die spezifisch für die Sprachgemeinschaft sind
  • Eine ausdrückliche Anweisung: „Übersetzen Sie die Bedeutung, nicht die Worte. Eine natürlich klingende Übersetzung ist wertvoller als eine wörtliche."

4.3 — Qualitätssicherung

  1. Doppelte Übersetzung. Idealerweise besitzt jeder Eintrag zwei unabhängige Referenzübersetzungen von verschiedenen Übersetzern. Wo dies nicht durchführbar ist, priorisieren Sie die doppelte Übersetzung für die Stufen 4–5.

  2. Überprüfung durch die Gemeinschaft. Referenzübersetzungen sollten von mindestens einem zusätzlichen Sprecher überprüft werden, der die Übersetzung nicht erstellt hat.

  3. Akzeptable Varianten. Dokumentieren Sie für jede Referenz bekannte akzeptable Varianten (Wortstellung, orthografische Konventionen, dialektale Formen). Diese fließen in die Metrik equivalent_match_rate ein.

4.4 — Was eine schlechte Referenz ausmacht

ProblemWarum es die Evaluation ungültig macht
Maschinell übersetzt und anschließend nachbearbeitetDie Nachbearbeitung bewahrt die MT-Struktur; benachteiligt Methoden, die natürlichere Übersetzungen erzeugen
Von einem Lernenden statt einem fließenden Sprecher übersetztDie Referenz kann Fehler enthalten, die eine korrekte MT-Ausgabe benachteiligen
Übermäßig wörtlichNatürliche Übersetzungen schneiden gegenüber wörtlichen Referenzen schlecht ab
Einzige gültige Interpretation für mehrdeutige QuelleBenachteiligt gültige alternative Interpretationen

5. Kontaminationsvermeidung

5.1 — Das Bedrohungsmodell der Kontamination

BedrohungBeschreibungGegenmaßnahme
Überschneidung mit TrainingsdatenLLMs, die auf dem Parallelkorpus trainiert wurdenDas Parallelkorpus nicht öffentlich veröffentlichen
Few-Shot-LeckageDer Methodenautor verwendet Evaluationseinträge als Few-Shot-BeispieleFingerprint-Prüfung: Einträge im Prompt werden erkannt und markiert
Indirekte KontaminationQuelltext existiert in LLM-Trainingsdaten (einsprachig)Akzeptabel — einsprachiger Quelltext ist zu erwarten. Die Paarung muss neuartig sein.
Crowd-KontaminationGemeinschaftsprüfer teilen Einträge öffentlichLizenzbedingungen untersagen die Weiterverbreitung des Parallelkorpus

5.2 — Geheimhaltungsstufen des Korpus

StufeSichtbarkeitVerwendung
Öffentliches EntwicklungssetVollständig öffentlichMethodenentwicklung, Debugging, Regressionstests. Werte werden NICHT auf dem Leaderboard veröffentlicht.
Zurückgehaltenes EvaluationssetQuelltext sichtbar, Referenzen geheimOffizielle Leaderboard-Evaluation. Methoden erhalten Quelltext und geben Übersetzungen zurück; die Bewertung erfolgt serverseitig. Referenzen werden der Methode niemals offengelegt.
Goldstandard-SetVollständig geheim, von der Gemeinschaft kontrolliertVon der Gemeinschaft validierte Evaluation. Verwaltet von der Governance-Organisation. Verwendet für die Verifizierungsstufe „Community Validated".

5.3 — Rotationsrichtlinie

Evaluationskorpora sollten regelmäßig rotiert werden:

  1. Nachdem ein Korpus 12 Monate in Verwendung war, beginnen Sie mit der Erstellung eines Ersatzes
  2. Versetzen Sie das alte Korpus in den Status „Entwicklungsset" (öffentlich)
  3. Befördern Sie das neue Korpus zum „zurückgehaltenen Evaluationsset"
  4. Dies verhindert eine schleichende Kontamination durch iterative Optimierung gegen ein festes Ziel

6. Workflow zur Korpuserstellung

6.1 — Schritt-für-Schritt-Prozess

Step 1: Language Pair Selection
└─ Identify target language, read language card
└─ Review typological features (WALS), contact influences, scripts
└─ Identify which difficulty factors apply

Step 2: Source Text Curation
└─ Identify candidate source documents per domain
└─ Verify licenses
└─ Extract candidate sentences/segments
└─ Classify by domain and preliminary difficulty tier

Step 3: Segment Selection
└─ Sample segments to match domain distribution (§2.2)
└─ Sample segments to match difficulty distribution (§3.3)
└─ Ensure linguistic phenomenon coverage (§6.2)
└─ Target minimum corpus size (§6.3)

Step 4: Reference Translation
└─ Assign segments to qualified translators
└─ Provide translation brief
└─ Collect translations
└─ Dual-translate Tier 4–5 entries

Step 5: Quality Assurance
└─ Community review of references
└─ Document acceptable variants
└─ Flag and resolve disagreements

Step 6: Metadata & Packaging
└─ Assign final difficulty tiers
└─ Add provenance metadata per entry
└─ Content-hash the corpus for versioning
└─ Package as corpus JSON per harness spec

Step 7: Registration
└─ Register in Supabase datasets table
└─ Add to ATTRIBUTION.md if new sources used
└─ Document in arena website

6.2 — Abdeckung linguistischer Phänomene

Jedes Korpus sollte Einträge enthalten, die spezifische linguistische Phänomene testen, die für das Sprachpaar relevant sind. Diese werden aus den Feldern linguisticChallenges und contactInfluences der Sprachkarte abgeleitet:

Universelle Phänomene (alle Sprachpaare):

  • Pronomenauflösung (mehrdeutige Antezedenzien)
  • Negation (einfach, doppelt, Skopus)
  • Quantoren (alle, einige, keine, die meisten)
  • Temporale Ausdrücke (relative Daten, Zeitspannen)
  • Eigennamen (Personen, Orte, Organisationen)
  • Zahlen und Maßangaben
  • Listen und Aufzählungen

Paarspezifische Phänomene (aus der Sprachkarte):

  • Für polysynthetische Zielsprachen: komplexe Verbmorphologie, Inkorporation
  • Für genusmarkierende Zielsprachen: Genuskongruenz, neutrale/inklusive Referenz
  • Für SOV-Zielsprachen: satzfinale Verben, Postpositionen
  • Für Tonsprachen: tonabhängige Bedeutungsunterscheidungen
  • Für honorativmarkierende Sprachen: Registermarker, sozialer Kontext
  • Für Kontaktsprachen: Code-Switching-Grenzen, Integration von Lehnwörtern

6.3 — Mindestkorpusgröße

Statistische Zuverlässigkeit erfordert eine Mindestanzahl an Einträgen. Diese basieren auf den Anforderungen für gepaarte Bootstrap-Konfidenzintervalle (aus significance.py):

ZweckMindesteinträgeEmpfohlen
Entwicklungsset50100–200
Zurückgehaltenes Evaluationsset100200–500
Goldstandard-Set200500+
Mindestwert pro Domäne1025+
Mindestwert pro Stufe1020+

Warum mindestens 100 für die Evaluation? Mit weniger als ~100 Einträgen können gepaarte Bootstrap-Signifikanztests (1.000 Resamples) Unterschiede, die kleiner als ~5 chrF++-Punkte sind, nicht zuverlässig erkennen. Mit 200+ Einträgen können wir Unterschiede von ~2 Punkten bei p<0,05 erkennen.


7. Korpus-JSON-Format

Jeder Korpuseintrag folgt der Harness-Spezifikation:

{
"id": "edtekla-dev-v1-042",
"source": "The school board will meet on Tuesday to discuss the new curriculum.",
"reference": "ᑭᓯᑭᓄᐦᐊᒫᑐᐏᓐ ᑲ ᐃᔑ ᐱᒥᐸᔨᐦᑕᐦᒃ ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓇ ᐁ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ ᓂᔓ ᑭᔑᑲᐤ",
"acceptable_variants": [
"ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓐ ᓂᔓ ᑭᔑᑲᐤ ᑲ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ"
],
"domain": "edu",
"difficulty": 3,
"phenomena": ["temporal_expression", "named_entity", "future_tense"],
"provenance": {
"source_doc": "EdTeKLA Module 4, Unit 7",
"source_license": "CC BY-NC-SA 4.0",
"translator": "anonymous-speaker-001",
"translator_qualification": "L1 Plains Cree, certified translator",
"translation_date": "2025-11-15",
"reviewer": "anonymous-speaker-002",
"review_date": "2025-12-01"
}
}

8. Anti-Gaming-Maßnahmen

8.1 — Korpusintegrität

MaßnahmeImplementierung
InhaltshashingKorpusversion = SHA-256 der sortierten Eintrags-IDs + Referenzen. Jede Änderung erzeugt eine neue Version.
EintragsfingerprintingJeder Eintrag besitzt eine inhaltsabgeleitete ID. Wenn jemand Ergebnisse gegen ein modifiziertes Korpus einreicht, stimmt der Fingerprint nicht überein.
Durchsetzung der ZurückhaltungBei der offiziellen Evaluation erhalten Methoden NUR Quelltext. Referenzen werden niemals offengelegt. Die Bewertung erfolgt serverseitig.
RotationsplanKorpora rotieren jährlich, um eine langfristige Optimierung gegen ein festes Ziel zu verhindern.

8.2 — Integrität der Einreichung

MaßnahmeImplementierung
Deterministischer FingerprintDie Run-Konfiguration (Modell, Temperatur, Prompt, Korpusversion) wird gehasht. Identische Konfigurationen erzeugen identische Fingerprints.
Cherry-Pick-ErkennungEinreichende müssen alle Durchläufe offenlegen, nicht nur den besten. Mehrere Einreichungen mit demselben Fingerprint werden markiert.
KontaminationsprüfungWenn Evaluationseinträge wortwörtlich im Prompt oder in den Coaching-Daten der Methode erscheinen, wird die Einreichung disqualifiziert.

9. Bestehende Korpora

9.1 — EDTeKLA Development Set v1

EigenschaftWert
IDedtekla-dev-v1
PaarEN → CRK (Plains Cree, SRO)
Einträge404 (master_corpus.json: 62 Gold + 342 Lehrbuch); 548 insgesamt verfügbar
DomänenBildung (100%)
Stufen1–5 (Verteilung pro Eintragsaudit noch festzulegen)
LizenzCC BY-NC-SA 4.0
StatusEntwicklungsset (öffentlich)

Einschränkungen: Einzelne Domäne (nur Bildung). Keine Domänenstratifizierung. Stufenzuordnungen müssen möglicherweise auditiert werden. Die geringe Korpusgröße begrenzt die statistische Aussagekraft für Signifikanztests.

9.2 — Geplante Korpora

KorpusPaarStatusEigentümer
EN → TL (Filipino) benutzerdefiniertes KorpusEN → TLGeplantProjekteigentümer
EN → CRK zurückgehaltenes SetEN → CRKZukünftig (benötigt Gemeinschaftspartner)Gemeinschafts-Governance-Organisation

10. Integration der Sprachkarte

Das Korpus-Framework integriert sich mit dem Sprachkartensystem:

  1. Die Domänenauswahl wird durch die linguisticChallenges der Karte informiert — wenn eine Sprache einzigartige Herausforderungen aufweist (Polysynthese, Ton, Belebtheit), muss das Korpus Einträge enthalten, die diese testen.

  2. Die Schwierigkeitskalibrierung verwendet die classification der Karte — die typologische Distanz zwischen Quell- und Zielfamilien beeinflusst, was als „schwierig" gilt.

  3. Die Registerabdeckung verwendet die registers der Karte — wenn eine Sprache definierte Register besitzt (formal-filipino, taglish-professional, taglish-casual), sollte das Korpus Einträge auf jeder Registerebene enthalten.

  4. Das Testen des Kontakteinflusses verwendet die contactInfluences der Karte — für Sprachen mit starken Entlehnungsschichten (Filipino: Spanisch + Englisch + Arabisch) sollten Einträge enthalten sein, die testen, ob Methoden Lehnwörter korrekt handhaben oder sie über-übersetzen.

  5. Die Schrifthandhabung verwendet die scripts[] der Karte — für mehrschriftige Sprachen (Serbisch: Kyrillisch + Lateinisch) sollten Einträge enthalten sein, die die korrekte Schriftauswahl testen.


Referenzen

  • Champollion Scoring Specification — definiert alle Metriken, Composite-Gewichtungen, Qualitätsstufen
  • Champollion Benchmark Specification — Evaluationsprotokoll, Korpusformat, Datensouveränität
  • WALS (World Atlas of Language Structures) — Datenbank typologischer Merkmale
  • Glottolog — maßgebliche Referenz für die Sprachklassifikation
  • ISO 639-3 — Standard zur Sprachidentifikation
  • EdTeKLA — Quelle des ersten Evaluationskorpus

Dieses Dokument ist eine lebende Spezifikation. Aktualisieren Sie es, wenn neue Korpora erstellt und Erkenntnisse gewonnen werden.