Zum Hauptinhalt springen

Häufig gestellte Fragen

Zusammenfassung. Antworten auf häufige Fragen zur MT Eval Arena — wie die Bewertung funktioniert, was zur Disqualifikation führt, wie mit Sprachen ohne FSTs umzugehen ist, Empfehlungen zu Modellen und Parametern sowie der Einreichungsprozess.


Bewertung & Metriken

Welche Metriken berechnet das Harness?

Das Harness berechnet fünf Metriken für Plains Cree (die aktuelle Benchmark-Sprache). Drei sind sprachunabhängig und funktionieren für jede Sprache; zwei stützen sich derzeit auf CRK-spezifische Plugins und werden verallgemeinert, sobald wir auf weitere Sprachen ausweiten.

MetrikSkalaWas sie misstStatus
chrF++0–100Überlappung von Zeichen-n-Grammen zwischen vorhergesagten und Referenzübersetzungen. Beste Oberflächenmetrik für morphologisch reiche Sprachen. Verwendet die native Bewertung von sacrebleu.✅ Alle Sprachen
Exact match0.0–1.0Anteil der Einträge, bei denen die Vorhersage nach Normalisierung exakt mit der Referenz übereinstimmt.✅ Alle Sprachen
FST acceptance0.0–1.0Anteil der Ausgabewörter, die von einem endlichen Zustandstransduktor (morphologischer Analysator) akzeptiert werden. Wird nur berechnet, wenn eine FST-Binärdatei bereitgestellt wird.✅ Alle Sprachen mit FST
Equivalent match0.0–1.0Anteil der Einträge, die mit der Referenz oder einer akzeptablen Variante übereinstimmen — unter Berücksichtigung von Wortstellung, orthografischer Konvention und dialektalen Unterschieden.⚡ CRK (wird verallgemeinert)
Semantic score0.0–1.0Bewertung der Bedeutungserhaltung — wie gut erfasst die Übersetzung die beabsichtigte Bedeutung unabhängig von der Oberflächenform?⚡ CRK (wird verallgemeinert)

Weitere Metriken sind geplant: morphologische Genauigkeit, Code-Switching-Erkennung, Terminologietreue und Halluzinationserkennung. Siehe Scoring Specification §2 für das vollständige Inventar mit 19 Metriken.

Wie wird der composite score berechnet?

Der composite score ist ein gewichteter Durchschnitt der verfügbaren Metriken, normalisiert auf eine Skala von 0.0–1.0. Die Gewichtungen sind in zwei Profilen definiert:

  • Profile A (Sprachen mit FST): 9 Metriken, strukturelle Metriken (FST + morphologische Genauigkeit) tragen 40 % der Gesamtgewichtung
  • Profile B (Sprachen ohne FST): 8 Metriken, Semantik und chrF++ tragen die gleiche höchste Gewichtung

Wenn eine Metrik nicht verfügbar ist, wird ihre Gewichtung proportional auf die verbleibenden Metriken umverteilt. Das bedeutet, dass Benchmarks in einem frühen Stadium (bei denen nur chrF++ und Exact match verfügbar sind) dennoch gültige composite scores erzeugen — die effektiven Gewichtungen spiegeln lediglich wider, was verfügbar ist.

Die vollständigen Gewichtungstabellen, Normalisierungsregeln und die Begründung für Ausschlüsse finden Sie in der Scoring Specification §4. Der Harness-Code spiegelt diese Tabellen in mt_eval_harness/scoring.py wider. chrF++ wird vor der Gewichtung durch 100 dividiert, um es zu normalisieren; Code-Switching- und Halluzinationsraten werden invertiert (niedriger = besser).

Was sind Qualitätsstufen?

Qualitätsstufen sind heuristische Bezeichnungen, die bestimmten Bereichen des composite score zugeordnet sind. Sie helfen dabei, zu vermitteln, was eine Bewertung praktisch bedeutet:

StufeBereich des composite scoreInterpretation
Baseline0.00 – 0.30Unterhalb der brauchbaren Qualität. Die Methode bedarf erheblicher Verbesserung.
Emerging0.30 – 0.50Vielversprechend. Einige Übersetzungen sind korrekt, aber inkonsistent.
Functional0.50 – 0.70Mit menschlicher Überprüfung als Referenz nutzbar. Nicht für unüberprüften Einsatz geeignet.
Deployable0.70 – 0.85Bereit für den Produktiveinsatz mit regelmäßiger Überprüfung. Löst die Berechtigung zur Eigentumsübertragung aus.
Fluent0.85 – 1.00Nahezu muttersprachliche Qualität. Geeignet für unbeaufsichtigten Einsatz.

Was ist der Unterschied zwischen Qualitätsstufen und Verifizierungsstufen?

Qualitätsstufen beschreiben, was die automatisierte Bewertung bedeutet (Baseline → Fluent). Verifizierungsstufen beschreiben, wer das Ergebnis validiert hat:

VerifizierungsstufeWas sie bedeutet
Self-benchmarkedDer Einreichende hat das Harness selbst ausgeführt. Die Bewertungen sind plausibel, aber unverifiziert.
GDS VerifiedEin Maintainer hat das Ergebnis anhand der eingereichten Methodenkonfiguration reproduziert.
Community ValidatedZweisprachige Sprecher haben die Übersetzungen überprüft und die Qualität bestätigt.

Eine Methode kann die Qualität "Deployable", aber nur die Verifizierung "Self-benchmarked" aufweisen — das heißt, die Bewertung sieht hervorragend aus, aber niemand hat sie unabhängig bestätigt.


Einreichung & Disqualifikation

Was führt zur Disqualifikation meiner Einreichung?

Ihre Einreichung wird abgelehnt oder markiert, wenn:

  1. Ihre Methode den Evaluierungsdaten ausgesetzt war. Wenn Sie Einträge aus dem Evaluierungsdatensatz zum Trainieren, Feintuning, Few-Shot-Prompting oder anderweitig verwendet haben, sind Ihre Bewertungen künstlich überhöht. Dies schließt die Verwendung der Referenzübersetzungen in Ihrem Prompt ein.
  2. Ihre Run Card die Integritätsprüfungen nicht besteht. Der Fingerabdruck muss mit der Konfiguration übereinstimmen. Manipulierte Run Cards werden abgelehnt.
  3. Ihre Methode das TranslationMethod-Protokoll nicht implementiert. Das Harness erwartet translate(entries, config) → results. Benutzerdefinierte Integrationen, die das Harness umgehen, werden nicht akzeptiert.

Kann ich mehrmals einreichen?

Ja. Das Leaderboard erfasst alle Einreichungen. Sie können iterieren — Dutzende von Experimenten durchführen und nur Ihr bestes Ergebnis einreichen. Jede Einreichung erfasst einen eindeutigen Fingerabdruck, sodass keine Unklarheit darüber besteht, welcher Lauf welche Bewertung erzeugt hat.

Wie lasse ich meine Bewertung verifizieren?

  1. Self-benchmarked (automatisch): Jede Einreichung beginnt hier.
  2. GDS Verified: Reichen Sie Ihre Methode als reproduzierbares Paket ein (Code + Konfiguration + Coaching-Daten). Ein Maintainer führt sie gegen denselben Datensatz erneut aus und bestätigt, dass die Bewertungen übereinstimmen.
  3. Community Validated: Für indigene Sprachen müssen zweisprachige Sprecher eine Stichprobe der Übersetzungen überprüfen. Dies kann nicht automatisiert werden — es erfordert die Einbindung der Gemeinschaft.

Ist die Einreichungs-API aktiv?

Noch nicht. Der Endpunkt https://mtevalarena.org/api/leaderboard/submit ist eine Zielvorstellung. Aktuelle Einreichungen sollten per Pull Request an das Eval-Harness-Repository mit Ihrer Run-Card-JSON im Verzeichnis results/ erfolgen.


Modelle & Parameter

Welches Modell sollte ich verwenden?

Es gibt kein einzelnes bestes Modell — es hängt vom Sprachpaar, Ihrem Budget und Ihrem Ansatz ab. Allgemeine Hinweise:

SprachtypEmpfohlener AusgangspunktWarum
Ressourcenreich (Französisch, Spanisch, Japanisch)google/gemini-2.5-flash oder gpt-4o-miniSchnell, günstig, starke Baseline
Ressourcenarm mit gewisser LLM-Abdeckung (Quechua, Yoruba)google/gemini-2.5-pro oder anthropic/claude-sonnet-4Größere Modelle verfügen über besseres latentes Wissen
Polysynthetisch / sehr ressourcenarm (Plains Cree, Inuktitut)google/gemini-2.5-pro mit CoachingCoaching-Daten sind wichtiger als die Modellwahl. OMT-1600 umfasst einige polysynthetische Sprachen (z. B. CRK auf R1-Stufe), jedoch mit standardmäßiger BPE-Tokenisierung — benchmarken Sie es in der Arena als Baseline.

Das Eval-Harness verwendet OpenRouter, sodass jedes auf OpenRouter verfügbare Modell gebenchmarkt werden kann. Führen Sie champollion models --method llm aus, um die verfügbaren Modelle anzuzeigen.

Welche Temperatur sollte ich verwenden?

Niedriger ist für Übersetzungen im Allgemeinen besser:

TemperaturWirkungEmpfohlen für
0.0 – 0.2Hochgradig deterministisch, konsistente AusgabeProduktionsmethoden, finale Benchmarks
0.3 – 0.5Gewisse Variation, gelegentlich kreativerErkundung, frühe Iteration
0.6+Hohe Variation, unvorhersehbarNicht für MT-Benchmarking empfohlen

Die Temperatur wird in der Run Card erfasst, sodass unterschiedliche Temperaturen unterschiedliche Fingerabdrücke erzeugen — sie werden als unterschiedliche Experimente behandelt.

Helfen Coaching-Daten?

Ja, erheblich — für ressourcenarme Sprachen. Coaching-Daten (Grammatikregeln, Wörterbucheinträge, Stilhinweise) werden in den System-Prompt des LLM eingespeist. Für Plains Cree übertreffen gecoachte Methoden bei polysynthetischen Sprachen durchgängig reine LLM-Methoden, da Allzweck-LLMs nur begrenzte polysynthetische Exposition und kein morphologisches Bewusstsein aufweisen. Selbst OMT-1600, das speziell für CRK trainiert wurde, verwendet eine standardmäßige BPE-Tokenisierung, die polysynthetische Morphologie strukturell nicht abbilden kann. Die Coaching-Daten liefern den sprachlichen Kontext, der dem Modell fehlt.

Bei ressourcenreichen Sprachen (Französisch, Spanisch) hat Coaching weniger Einfluss, da das Modell bereits über solides Grundwissen verfügt.

Siehe Coaching Data für die vollständige Spezifikation.


FST & Morphologische Validierung

Was ist, wenn es für meine Sprache keinen FST gibt?

Viele Sprachen verfügen nicht über einen endlichen Zustandstransduktor. Das ist in Ordnung — das Harness funktioniert auch ohne. Der composite score verwendet die Gewichtungen von Profile B (siehe Scoring Specification §4.3), die das Gewicht auf semantische und Oberflächenmetriken verlagern. FST acceptance wird in der Run Card als null markiert.

Die wichtigsten Registries für bestehende FSTs:

RegistryAbdeckungURL
GiellaLTSámi, Cree, Inuktitut und andere arktische/subarktische Sprachengiellalt.uit.no
ALTLabPlains Cree, Woods Cree, Ojibwealtlab.artsrn.ualberta.ca
Apertium~60 Sprachpaare, überwiegend europäischapertium.org
UniMorphMorphologische Paradigmen für mehr als 150 Sprachenunimorph.github.io

Kann ich einen FST erstellen?

Ja, aber es ist nicht trivial. Ein FST kodiert die morphologischen Regeln einer Sprache — alle gültigen Wortformen. Die Erstellung erfordert tiefgehende sprachwissenschaftliche Kenntnisse der Sprache. Wenn Sie Zugang zu einer morphologischen Grammatik haben (z. B. von einer linguistischen Fakultät), kann diese mit Werkzeugen wie HFST oder Foma zu einem FST kompiliert werden.

Wie funktioniert das FST-Gating in der Praxis?

Die FST-gegatete Pipeline funktioniert folgendermaßen:

  1. Das LLM generiert eine Übersetzung
  2. Jedes Wort in der Ausgabe wird gegen den FST geprüft
  3. Vom FST abgelehnte Wörter werden als morphologisch ungültig markiert
  4. Die Methode kann mit Rückmeldung erneut versuchen ("das Wort X ist nicht gültig, versuchen Sie es erneut")
  5. Nach den erneuten Versuchen werden verbleibende ungültige Wörter protokolliert

Die FST-Akzeptanzrate misst, wie viele Wörter die Validierung bestehen. Siehe das FST-Gated Pipeline Tutorial für ein vollständig durchgearbeitetes Beispiel.


Daten & Datensätze

Kann ich einen Datensatz für eine neue Sprache beisteuern?

Ja. Mindestanforderungen aus Benchmark Specification §11:

  • 50 Goldstandard-Einträge (Quelle + verifizierte Referenzübersetzung)
  • 30 Entwicklungseinträge (können sich bei kleinen Korpora mit dem Goldstandard überschneiden)
  • Einwilligung der Gemeinschaft (für indigene Sprachen ausdrückliche Autorisierung durch ein Governance-Gremium)
  • Provenienzdokumentation (woher die Daten stammen, welche Lizenz gilt)

Neue Datensätze eröffnen automatisch neue Leaderboard-Tracks. Siehe For Language Communities für den Leitfaden für Beitragende.

In welchem Format sollte mein Datensatz vorliegen?

JSON mit den kanonischen Feldnamen:

{
"name": "my-language-dev-v1",
"language_pair": "en-xxx",
"segment": "development",
"version": "1.0",
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "[translation in target language]",
"difficulty": 1,
"domain": "general"
}
]
}

Siehe Datasets für das vollständige Schema und die Definitionen der Schwierigkeitsstufen.


Souveränität & Eigentum

Wem gehört eine für eine indigene Sprache entwickelte Methode?

Für indigene Sprachen lösen Methoden, die die Stufe Deployable erreichen (composite score ≥ 0.70) UND die Validierung durch die Gemeinschaft bestehen, den Prozess der Eigentumsübertragung aus. Das Eigentum am Code geht vom Forschenden auf die Governance-Organisation der Sprachgemeinschaft über.

Der Forschende behält:

  • Veröffentlichungsrechte (wissenschaftliche Arbeiten über die Methode)
  • Anerkennung auf dem Leaderboard
  • Das Recht, dieselben Techniken auf andere Sprachen anzuwenden

Die Governance-Organisation erhält:

  • Vollständiges Eigentum am Methodencode und an den Coaching-Daten
  • Kontrolle über den Einsatz (wann, wo, wie)
  • Einnahmen aus der API-Nutzung (90 % Gemeinschaft, 10 % Infrastruktur)

Kann ich champollion ohne jegliche Souveränitätsbedenken für nicht-indigene Sprachen verwenden?

Ja. Für Standardsprachen (Französisch, Japanisch, Spanisch usw.) bestehen keine Souveränitätserwägungen. Verwenden Sie champollion ganz normal — übersetzen, synchronisieren und veröffentlichen Sie nach Belieben. Das Souveränitätsframework gilt speziell für indigene und gemeinschaftlich verwaltete Sprachen, bei denen Grundsätze der Datenverwaltung (OCAP®, CARE, Te Mana Raraunga) besondere Berücksichtigung erfordern.


Siehe auch