Die MT Eval Arena | MT Eval Arena

📐

Standardisierte Benchmarks

Reproduzierbare Evaluation mit chrF++, Exact Match, FST-Akzeptanz, semantischer Bewertung und Bootstrap-Konfidenzintervallen. Jeder Durchlauf erhält einen Fingerprint.

🏴

Souveränität der Gemeinschaft

Gewinnende Methoden gehen in den Besitz der Sprachgemeinschaft über. OCAP®-Prinzipien. Die Gemeinschaften kontrollieren ihre Daten, ihre Methoden und ihre Einnahmen.

🔌

Offene Plugin-Architektur

Bringen Sie jede beliebige Methode ein: gecoachtes LLM, feinabgestimmtes Modell, FST-gesteuerte Pipeline oder ein eigenes Plugin. Sofern es Übersetzungen erzeugt, kann das Harness es bewerten.

🚀

Deployment-Brücke

Bewährte Methoden werden über champollion in Produktion überführt. Entwickler:innen nutzen sie per API. Die Einnahmen fließen an die Gemeinschaft zurück.

Aktuelle Benchmarks

EDTeKLA Dev Set v1

Sprache: English → Plains Cree (SRO)
Einträge: 486+ kuratierte Paare
Lizenz: CC BY-NC-SA 4.0
Quelle: University of Alberta

FLORES+ Devtest

Sprachen: Englisch → 39 Sprachen
Einträge: 1.012 Sätze pro Sprache
Lizenz: CC BY-SA 4.0
Quelle: OLDI / HuggingFace

Mehr erfahren

Methode einreichen →Datensouveränität →Wirtschaftsmodell →Für Sprachgemeinschaften →Leaderboard →champollion CLI →