Zum Hauptinhalt springen

MT Eval Arena

Think you can solve it? Prove it.

Der unabhängige Benchmark für die maschinelle Übersetzung von Sprachen mit geringen Ressourcen — 48 Entwicklungskorpora, ein Bewertungsinventar mit 19 Metriken, Bootstrap-Konfidenzintervalle sowie morphologische FST-Validierung für Sprachen, die kommerzielle Dienste niemals unterstützen werden.

Die MT Eval Arena ist die Evaluierungsengine des Projekts Champollion.

📐

Standardisierte Benchmarks

Reproduzierbare Evaluation mit chrF++, Exact Match, FST-Akzeptanz, semantischer Bewertung und Bootstrap-Konfidenzintervallen. Jeder Durchlauf erhält einen Fingerprint.

🏴

Souveränität der Gemeinschaft

Gewinnende Methoden gehen in den Besitz der Sprachgemeinschaft über. OCAP®-Prinzipien. Die Gemeinschaften kontrollieren ihre Daten, ihre Methoden und ihre Einnahmen.

🔌

Offene Plugin-Architektur

Bringen Sie jede beliebige Methode ein: gecoachtes LLM, feinabgestimmtes Modell, FST-gesteuerte Pipeline oder ein eigenes Plugin. Sofern es Übersetzungen erzeugt, kann das Harness es bewerten.

🚀

Deployment-Brücke

Bewährte Methoden werden über champollion in Produktion überführt. Entwickler:innen nutzen sie per API. Die Einnahmen fließen an die Gemeinschaft zurück.

Aktuelle Benchmarks

EDTeKLA Dev Set v1

  • Sprache: English → Plains Cree (SRO)
  • Einträge: 486+ kuratierte Paare
  • Lizenz: CC BY-NC-SA 4.0
  • Quelle: University of Alberta

FLORES+ Devtest

  • Sprachen: Englisch → 39 Sprachen
  • Einträge: 1.012 Sätze pro Sprache
  • Lizenz: CC BY-SA 4.0
  • Quelle: OLDI / HuggingFace