Eine Methode einreichen

Zusammenfassung. Eine schrittweise Schnellstartanleitung für das Einreichen Ihres ersten Benchmark-Laufs auf das Leaderboard. Klonen Sie die Harness, führen Sie sie gegen einen Datensatz aus, überprüfen Sie Ihre Run Card und reichen Sie sie ein. Dauert 10 Minuten, wenn Sie einen API-Schlüssel haben.

Diese Anleitung führt Sie durch das Einreichen Ihres ersten Benchmark-Laufs auf das Leaderboard der MT Eval Arena.

Voraussetzungen

Python 3.10+
Einen OpenRouter-API-Schlüssel (oder ein Äquivalent für Ihren Modellanbieter)
Eine Übersetzungsmethode — alles, was Übersetzungen aus einem Quelltext erzeugt

# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

Schritt 1: Die Harness ausführen

Die Harness bewertet Ihre Methode gegen einen standardisierten Datensatz:

mt-eval run \
  --corpus data/edtekla-dev-v1.json \
  --model gemini-pro \
  --condition your-method-name \
  --temperature 0.2

Flag	Funktion
`--corpus`	Pfad zum Evaluierungskorpus (`.json`, `.jsonl`, `.tsv`)
`--model`	Modell-Slug — Kurzalias (z. B. `gemini-pro`) oder vollständige OpenRouter-ID
`--condition`	Bezeichnung für Ihre Methode (erscheint auf dem Leaderboard)
`--temperature`	Sampling-Temperatur (niedriger = deterministischer)
`--fst-retries`	Optional: Anzahl der FST-Wiederholungsversuche
`--submit`	Die Run Card automatisch auf das Leaderboard einreichen

Die Harness erzeugt eine Run Card — eine eigenständige JSON-Datei mit Ihren Bewertungen, dem Datensatz-Hash, dem Modell-Slug und einem kryptografischen Fingerabdruck, der die Ergebnisse mit der exakten Experimentkonfiguration verknüpft.

Schritt 2: Ihre Run Card überprüfen

Run Cards werden in results/ gespeichert. Prüfen Sie Ihre vor dem Einreichen:

cat results/your-run-card.json | python -m json.tool

Wichtige zu prüfende Felder:

scores.chrf_plus_plus — Ihre primäre Qualitätsmetrik
scores.exact_match_rate — Anteil der perfekten Übersetzungen
scores.fst_acceptance_rate — morphologische Gültigkeit (falls FST verwendet wurde)
totals.total_cost_usd — die Kosten des Laufs
fingerprint — der Reproduzierbarkeits-Hash des Experiments

Siehe die Run-Card-Spezifikation für das vollständige Schema.

Schritt 3: Einreichen

Automatische Einreichung

Wenn Sie beim Ausführen der Harness --submit übergeben haben, wurde Ihre Run Card bereits hochgeladen.

Manuelle Einreichung

Reichen Sie eine beliebige Run Card über die API ein:

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
  -H "Content-Type: application/json" \
  -d @results/your-run-card.json

Oder laden Sie sie über die Leaderboard-Benutzeroberfläche hoch.

Was als Nächstes geschieht

Ihre Einreichung wird validiert (Datensatz-Hash, Integrität der Run Card)
Die Ergebnisse erscheinen auf dem Leaderboard als Self-benchmarked (Vertrauensstufe 1)
Um den Status GDS Verified zu erhalten, reichen Sie Ihre Methode als installierbares Plugin ein, damit Maintainer Ihre Ergebnisse reproduzieren können
Für Methoden indigener Sprachen: Wenn Ihre Methode die Spitze erreicht, beginnt der Prozess der Eigentumsübertragung

Siehe auch

Harness-Verwendung — vollständige CLI-Referenz
Leaderboard-Regeln — Einreichungskriterien und Anti-Gaming-Richtlinien
Eine Methode erstellen — das TranslationMethod-Protokoll
Datensätze — verfügbare Evaluierungsdatensätze

Voraussetzungen​

Schritt 1: Die Harness ausführen​

Schritt 2: Ihre Run Card überprüfen​

Schritt 3: Einreichen​

Automatische Einreichung​

Manuelle Einreichung​

Was als Nächstes geschieht​

Siehe auch​