Unterstützung einer ressourcenarmen Sprache

Zusammenfassung. Ein umfassender Leitfaden zum Aufbau maschineller Übersetzung für ressourcenarme und polysynthetische Sprachen. Behandelt werden die Gründe für die Schwierigkeit dieser Sprachen (morphologische Komplexität, spärliche Daten, Halluzination), vorhandene rechnergestützte Ressourcen (ALTLab FST, GiellaLT, Apertium, UniMorph, EdTeKLA), über 10 Lösungsstrategien, das champollion-Coaching-System und der Evaluationszyklus. Beginnen Sie hier, wenn Sie eine Methode für eine unterversorgte Sprache beitragen möchten.

:::info Status: In aktiver Entwicklung Die Unterstützung für Plains Cree (nêhiyawêwin) befindet sich derzeit in Entwicklung. Die hier beschriebenen Werkzeuge, das Evaluations-Harness und das Leaderboard sind real und bereits heute nutzbar, doch die Cree-Übersetzungspipeline wurde noch nicht veröffentlicht. Sobald dies geschieht, wird sie als Vorlage für weitere polysynthetische und ressourcenarme Sprachen mit FST-Infrastruktur dienen. :::

Das ungelöste Problem

Google Translate unterstützt ~130 Sprachen. Metas OMT-1600 (März 2026) beansprucht eine Abdeckung von 1.600 Sprachen — das größte je veröffentlichte MT-System. Doch für die ~1.300 Sprachen in ihren niedrigsten Ressourcenstufen liegt die Qualität unter den nutzbaren Schwellenwerten, die Trainingsdaten werden von Bibeltexten dominiert, die Modellgewichte stehen nicht zum Herunterladen zur Verfügung, und es gibt kein unabhängiges Evaluations- oder Community-Governance-Framework. Für die verbleibenden ~5.400 Sprachen erzeugt kein vortrainiertes Modell überhaupt eine Ausgabe.

Die Landschaft hat sich erheblich verändert — die großen Technologiekonzerne investieren nun in die Abdeckung ressourcenarmer Sprachen. Doch Abdeckung bedeutet nicht Qualität, und Qualität ohne unabhängige Verifizierung bedeutet kein Vertrauen. Ressourcenarme Sprachen benötigen mehr als ein Modell, das vorgibt, sie abzudecken — sie benötigen eine unabhängige Evaluation mit morphologischer Validierung, von der Community kuratierte Korpora und eine die Souveränität respektierende Governance.

champollion wurde entwickelt, um dies zu ändern.

Das Method Leaderboard ist eine offene Herausforderung: Entwickeln Sie die beste Übersetzungsmethode für eine unterversorgte Sprache, belegen Sie sie mit einer reproduzierbaren Evaluation und beanspruchen Sie die Spitzenwertung. Jeder weltweit kann beitragen — Linguisten, ML-Forscher, Sprachmitarbeiter aus Communitys, Studierende, Hobbyisten. Das Problem ist ungelöst. Die Infrastruktur ist vorhanden. Das Leaderboard wartet.

Warum dies schwierig ist: Polysynthetische Morphologie

Die meisten kommerziellen MT-Systeme wurden für Sprachen wie Englisch, Französisch und Chinesisch konzipiert — Sprachen, in denen Wörter relativ kurz sind und Sätze aus diskreten Tokens aufgebaut werden. Doch viele indigene Sprachen, darunter Plains Cree, sind polysynthetisch: Ein einzelnes Wort kann das ausdrücken, was im Englischen einen ganzen Satz erfordert.

Das Cree-Beispiel

Betrachten Sie das Plains-Cree-Wort:

ê-kî-nitawi-kîskinwahamâkosiyân „als ich zur Schule ging“

Das ist ein Wort. Es kodiert Tempus (Vergangenheit), Richtung (hingehen), den Wortstamm (lernen), Genus Verbi (Passiv/Reflexiv) und Person (erste Person Singular). Ein überwiegend mit Englisch trainiertes LLM hat keinerlei Intuition für diese Art morphologischer Dichte.

Die Herausforderungen häufen sich:

Herausforderung	Was sie bedeutet
Morphologische Komplexität	Ein einzelner Verbstamm kann durch Präfigierung, Suffigierung und Zirkumfigierung Tausende gültiger flektierter Formen erzeugen
Belebt/unbelebt-Unterscheidung	Substantive sind grammatisch belebt oder unbelebt — dies wirkt sich auf Verbkonjugation, Demonstrativa und Pluralbildung aus. Die Klassifizierung folgt nicht immer der biologischen Belebtheit (askiy „Erde“ ist belebt; maskisin „Schuh“ ist ebenfalls belebt)
Obviation	Drittpersonen-Referenzen werden nach Nähe/Salienz geordnet. Die Unterscheidung zwischen „proximat“ und „obviativ“ hat kein englisches Äquivalent
Spärliche Trainingsdaten	LLMs haben sehr wenig Plains-Cree-Text gesehen. Was sie gesehen haben, vermischt möglicherweise Dialekte (Y-Dialekt, TH-Dialekt) oder Orthographien (SRO vs. Syllabics)
Schwache kommerzielle Baseline	OMT-1600 umfasst CRK in der R1-Stufe (Very Low Resource) mit Bibeltext-Domänentraining und standardmäßiger BPE-Tokenisierung. Google Translate unterstützt Cree nicht. Eine unabhängige Evaluation mit morphologischen Metriken macht diese Baselines erst aussagekräftig.

Die Übersetzung polysynthetischer Sprachen bleibt ein offenes Forschungsproblem — OMT-1600 umfasst polysynthetische Sprachen, verwendet jedoch standardmäßige BPE-Tokenisierung (256K-Vokabular) ohne morphologisches Bewusstsein, was bedeutet, dass kompositionelle Wörter in bedeutungslose Byte-Fragmente zerlegt werden.

Vorarbeiten: Wie man dieses Problem bisher angegangen ist

Das ALTLab FST

Die bedeutendste rechnergestützte Ressource für Plains Cree ist der Finite-State-Transducer (FST), der vom Alberta Language Technology Lab (ALTLab) an der University of Alberta in Zusammenarbeit mit Giellatekno an der UiT The Arctic University of Norway entwickelt wurde.

Das ALTLab FST ist ein morphologischer Analysator und Generator: Bei einem gegebenen flektierten Cree-Wort kann es dieses in seinen Wortstamm und seine grammatischen Tags zerlegen, und bei einem gegebenen Wortstamm samt Tags kann es die korrekte flektierte Form erzeugen. Dies ist deterministisch — kein neuronales Netz, keine Halluzination, keine Wahrscheinlichkeit. Wenn das FST ein Wort akzeptiert, ist dieses Wort morphologisch gültig.

Aus diesem Grund verfolgt das champollion-Leaderboard die FST Acceptance Rate als Metrik. Eine Übersetzungsmethode, die Wörter erzeugt, die das FST ablehnt, produziert morphologisch ungültiges Cree — unabhängig davon, was der chrF++-Wert besagt.

Wichtige ALTLab-Ressourcen:

itwêwina — ein intelligentes Plains-Cree–Englisch-Wörterbuch, betrieben durch das FST
Morphodict — quelloffene, morphologisch bewusste Wörterbuchplattform
crk-db — lexikalische Datenbank für Plains Cree
21st Century Tools for Indigenous Languages — der umfassendere Projektkontext

Globale FST- und Morphologie-Register

Plains Cree ist nicht die einzige Sprache mit hochwertiger FST-Infrastruktur. Wenn Sie Übersetzungspipelines für andere ressourcenarme oder morphologisch komplexe Sprachen entwickeln möchten, können Sie auf diese etablierten globalen Hubs zurückgreifen:

GiellaLT / Giellatekno (UiT The Arctic University of Norway): Das größte Repository quelloffener morphologischer FST-Analysatoren und -Generatoren, das über 100 Sprachen abdeckt. Schwerpunkte sind die samischen Sprachen (sme, smj, sma usw.), die uralischen Sprachen (Komi, Erzya, Udmurtisch usw.) und weitere Minderheiten-/indigene Sprachen. Sie hosten öffentliche verarbeitete Textkorpora (corpus-xxx) in ihrer GitHub Organization.
The Apertium Project: Eine quelloffene, regelbasierte Plattform für maschinelle Übersetzung. Apertium pflegt hochoptimierte morphologische FST-Analysatoren (unter Verwendung von lttoolbox und hfst) und zweisprachige Wörterbücher für Dutzende von Sprachen, darunter eine große Reihe von Turksprachen (Kasachisch, Tatarisch, Kirgisisch usw.) und europäische Minderheitensprachen. Alle Ressourcen sind öffentlich auf Apertiums GitHub verfügbar.
UniMorph (Universal Morphology): Ein kollaboratives Projekt, das standardisierte morphologische Paradigmen für über 150 Sprachen bereitstellt. Der Datensatz wird auf Hugging Face unter unimorph/universal_morphologies gehostet. Falls für eine Sprache kein kompiliertes FST-Binary verfügbar ist, können die UniMorph-Tabellen als statisches Datenbank-Lookup-Gate verwendet werden.
National Research Council Canada (NRC): Bietet Werkzeuge für kanadische indigene Sprachen, darunter den morphologischen FST-Analysator Uqailaut für Inuktitut und das umfangreiche Nunavut Hansard Parallel Corpus (1,3 Mio. ausgerichtete englisch-inuktitutische Satzpaare).

Das EdTeKLA-Korpus

Die EdTeKLA-Forschungsgruppe (ebenfalls an der UAlberta) hat ein Plains-Cree-Sprachkorpus aus Bildungsmaterialien, Audiotranskriptionen und Community-Quellen zusammengestellt. Der champollion-Evaluationsdatensatz EDTeKLA Dev v1 ist aus dieser Arbeit abgeleitet und unter CC BY-NC-SA 4.0 lizenziert.

Weitere Ansätze, die ausprobiert wurden oder ausprobiert werden könnten

Das Leaderboard ist methodenunabhängig. Hier sind Strategien, die für ressourcenarme MT erforscht oder vorgeschlagen wurden und von denen jede eingereicht werden könnte:

Ansatz	Funktionsweise	Vorteile	Nachteile
Coached LLM prompting	Einspeisung von Grammatikregeln, Wörterbüchern und Beispielpaaren in den System-Prompt	Schnelle Iteration, kein Training erforderlich	Qualitätsgrenze durch das Grundwissen des LLM beschränkt
Few-shot prompting	Verifizierte Übersetzungen als kontextbezogene Beispiele einbeziehen	Gut für konsistenten Stil	Kleines Kontextfenster; Beispiele dürfen NICHT aus den Evaluationsdaten stammen
FST-gated pipeline	LLM generiert → FST validiert → lehnt ungültige Morphologie ab und versucht es erneut	Garantiert morphologische Gültigkeit	Erfordert FST-Infrastruktur; Wiederholungsschleifen erhöhen Latenz und Kosten
Dictionary lookup + LLM	Bekannte Begriffe aus einem zweisprachigen Wörterbuch erzwingen, den Rest dem LLM überlassen	Reduziert Halluzination bei bekannten Begriffen	Wörterbuchabdeckung ist immer unvollständig
Fine-tuned model	Feinabstimmung eines offenen Modells (Llama, Mistral) auf Paralleltext — nur nicht auf den Evaluationsdaten	Potenziell höchste Qualität	Erfordert ein Parallelkorpus (knapp); teuer; Overfitting-Risiko
Chained models	Modell A erzeugt Rohübersetzung → Modell B nachbearbeitet → Modell C bewertet	Kann Spezialistenstärken kombinieren	Komplex; langsam; teuer
Rule-based + LLM hybrid	Linguistische Regeln für bekannte Muster, LLM für alles andere	Präzise dort, wo Regeln greifen	Erfordert tiefgehende linguistische Expertise
Back-translation augmentation	Synthetische Paralleldaten durch Übersetzung Cree→Englisch erzeugen und dann auf der Umkehrung trainieren	Erweitert Trainingsdaten kostengünstig	Verstärkt bestehende Modellfehler
Evolutionary approach	Kandidatenübersetzungen erzeugen, bewerten, die besten Performer mutieren, wiederholen	Kann neuartige Lösungen entdecken; parallelisierbar	Rechenintensiv; benötigt eine gute Fitnessfunktion
Partial translation	Manuell eine repräsentative Stichprobe übersetzen, nachweisen, dass Ihre Methode Ihrem Stil entspricht, dann den Rest automatisch übersetzen	Verbindet menschliche Qualität mit maschineller Skalierung	Erfordert anfänglichen menschlichen Aufwand
Manuelle JSON-/Prüfungsbewertung	Eine Datensatz-JSON-Datei von Hand erstellen, um Studierendenantworten in einer Sprachprüfung zu testen, oder eine Reihe menschlicher Übersetzungen gegen einen Goldstandard bewerten	Kein ML erforderlich; geeignet für Bildung und QA	Nicht skalierbar für laufenden Übersetzungsbedarf

Es ist nur JSON

Das Harness nimmt JSON entgegen und gibt bewertetes JSON aus. Das Datensatzformat ist einfach:

{
  "entries": [
    { "id": 1, "source": "Hello", "reference": "tânisi" },
    { "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
  ]
}

Sie können dies von Hand erstellen. Sie können es aus einer Tabellenkalkulation exportieren. Sie können es aus einem Korpus generieren. Ein Sprachlehrer könnte es zur Bewertung von Studierendenübersetzungen verwenden. Eine Übersetzungsagentur könnte es zum Benchmarking von Freiberuflern nutzen. Ein Forschungslabor könnte es zum Vergleich von Modellarchitekturen einsetzen. Dem Harness ist es gleichgültig, woher das JSON stammt — es bewertet es einfach.

Und da das Produktions-Deployment-Framework dieselbe Plugin-Schnittstelle nutzt, lässt sich eine Methode, die im Harness gut abschneidet, mit einer einzigen Konfigurationsänderung auf Ihrer Website bereitstellen. Beweisen Sie es und setzen Sie es ein.

Die Möglichkeiten sind wahrhaft grenzenlos. Wenn Sie eine Idee haben, setzen Sie sie um, führen Sie das Harness aus und reichen Sie Ihre Scores ein.

Wie champollion ins Bild passt

champollion stellt die Infrastrukturschicht bereit — die Methode bringen Sie mit.

Das Coaching-System

Die llm-coached-Methode von champollion ermöglicht es Ihnen, linguistisches Wissen direkt in den LLM-Prompt einzuspeisen:

.champollion/coaching/crk.json
{
  "grammar_rules": [
    "Plains Cree is polysynthetic — a single word can express what English needs a full sentence for",
    "Animate/inanimate noun distinction affects verb conjugation, demonstratives, and pluralization",
    "Use SRO (Standard Roman Orthography) as the working script — syllabic conversion is handled by the deterministic converter",
    "Obviation: when two third-person referents appear, the less salient one takes obviative marking (-a suffix on nouns, -iyiwa on verbs)"
  ],
  "dictionary": {
    "home": "kīwēwin",
    "settings": "isi-nākatohkēwin",
    "search": "nānātawāpahtam",
    "welcome": "tānisi",
    "dashboard": "kīskinwahamākēwin-māsinahikan"
  },
  "style_notes": "Use formal register appropriate for educational and community contexts. Preserve English technical terms in parentheses when no Cree equivalent exists or is widely accepted."
}

Die Coaching-Daten werden in jeden LLM-Prompt für das en:crk-Sprachpaar eingespeist und geben dem Modell einen strukturierten linguistischen Kontext, den es andernfalls nicht hätte. Die vollständige Spezifikation finden Sie unter Coaching Data.

Register

Das Register ist Teil des System-Prompts, der Ton, Formalität und orthographische Konventionen steuert. champollion wird mit einem Plains-Cree-Register ausgeliefert:

nêhiyawêwin (Plains Cree). Use SRO (Standard Roman Orthography) as the working
script. Output will be converted to Syllabics via deterministic converter.
Professional register appropriate for educational and community contexts.

Sie können dies in Ihrer Konfiguration überschreiben, um mit verschiedenen Prompting-Strategien zu experimentieren:

champollion.config.json
{
  "languages": {
    "crk": {
      "register": "Casual Plains Cree (Y-dialect). Use SRO. Prefer everyday vocabulary over formal or archaic terms. Address the reader directly."
    }
  }
}

Unterschiedliche Register erzeugen unterschiedliche Übersetzungsstile — und unterschiedliche Scores auf dem Leaderboard. Jede Einreichung erfasst das exakte verwendete Register und den System-Prompt (als SHA-256-Hash in der Run Card), sodass Experimente reproduzierbar sind.

Schriftkonvertierung

Plains Cree wird in zwei Schriftsystemen geschrieben: Standard Roman Orthography (SRO) und Canadian Aboriginal Syllabics. Die champollion-Pipeline:

Das LLM übersetzt in SRO (lateinbasiert, womit LLMs besser umgehen können)
Das Qualitäts-Gate validiert die SRO-Ausgabe
Ein deterministischer Konverter transformiert SRO → Syllabics
Der konvertierte Text wird auf die Festplatte geschrieben

Der Konverter verarbeitet alle SRO-Diakritika (ê, î, ô, â für lange Vokale) und ordnet sie den korrekten Silbenzeichen zu. Technische Details finden Sie unter Script Converters.

Der Evaluationszyklus

Das Eval-Harness führt Ihre Methode gegen den Evaluationsdatensatz aus und erzeugt eine bewertete Run Card:

# Clone the harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install -e .

# Run a baseline experiment
python eval/baseline_experiment.py \
  --dataset data/edtekla-dev-v1.json \
  --model google/gemini-2.5-pro \
  --condition coached-v7

# Run with FST validation (if you have an FST binary)
python eval/baseline_experiment.py \
  --dataset data/edtekla-dev-v1.json \
  --fst-analyzer ./bin/crk-analyzer \
  --condition fst-gated-v1

Das --condition-Flag ist eine von Ihnen gewählte Kennzeichnung. Sie erscheint auf dem Leaderboard, sodass andere sehen können, welche Prompt-Strategie Sie verwendet haben. Das Harness erfasst den vollständigen System-Prompt in der Run Card, sodass Ihr genauer Ansatz reproduzierbar ist.

:::tip Experimentieren Sie frei, reichen Sie Ihr Bestes ein Das Harness ist auf schnelle Iteration ausgelegt. Führen Sie Dutzende von Experimenten mit verschiedenen Modellen, Coaching-Daten, Registern und Bedingungen durch. Reichen Sie erst dann beim Leaderboard ein, wenn Sie etwas haben, auf das Sie stolz sind. :::

OCAP-Prinzipien

champollion ist darauf ausgelegt, die Datensouveränität indigener Völker zu unterstützen. Die OCAP-Prinzipien (Ownership, Control, Access, Possession) leiten unseren Umgang mit Sprachtechnologie für indigene Gemeinschaften:

Prinzip	Wie champollion es unterstützt
Ownership	Sprachgemeinschaften besitzen ihre linguistischen Daten. champollion meldet sich niemals nach Hause und übermittelt keine Daten an unsere Server
Control	Die API-Methode ermöglicht es Gemeinschaften, ihre eigene Übersetzungspipeline zu hosten — wir stellen die Schnittstelle bereit, sie kontrollieren die Implementierung
Access	Gemeinschaften entscheiden, wer ihre Methode nutzen darf. Die API kann hinter einer Authentifizierung abgesichert werden
Possession	Alle Übersetzungsdaten verbleiben im Dateisystem Ihres Projekts. Das Provenienzsystem verfolgt, woher jede Übersetzung stammt

Die Plugin-Architektur bedeutet, dass eine Gemeinschaft eine Methode entwickeln kann, die heiliges oder eingeschränktes Wissen intern einbindet, nur die Übersetzungs-API offenlegt und die volle Kontrolle über ihre linguistischen Ressourcen behält.

Die Vision: Was als Nächstes kommt

Plains Cree ist das erste Ziel. Sobald die Pipeline validiert ist und die Gemeinschaft mit der Qualität zufrieden ist, lässt sich dieselbe Architektur auf andere polysynthetische Sprachen mit FST-Infrastruktur ausweiten:

Andere Algonkin-Sprachen: Woods Cree, Swampy Cree, Ojibwe, Blackfoot
Inuit-Sprachen: Inuktitut, Inuinnaqtun (die ebenfalls Silbenschriften verwenden)
Andere Sprachfamilien: Jede Sprache mit einem FST-Analysator kann die FST-gated Pipeline nutzen

Das Leaderboard ist auf Sprachpaare ausgerichtet. Sobald neue Evaluationsdatensätze von Sprachgemeinschaften beigetragen werden, öffnen sich automatisch neue Leaderboard-Tracks.

Dies ist eine offene Einladung. Wenn Sie mit einer ressourcenarmen Sprache arbeiten — als Forscher, als Mitglied einer Gemeinschaft, als Studierender oder einfach als jemand, dem es am Herzen liegt — gibt Ihnen champollion die Werkzeuge an die Hand, um etwas Reales zu schaffen, es ehrlich zu messen und es mit der Welt zu teilen. Das Method Leaderboard wartet auf Ihre Einreichung.

Siehe auch

Method Leaderboard — reichen Sie Ihre Scores ein und sehen Sie, wie Methoden im Vergleich abschneiden
MT Evaluation — was eine gute Methode ausmacht, was zur Disqualifikation führt
Eval Harness — wie man Experimente durchführt
Evaluation Datasets — EDTeKLA Dev v1 und FLORES+
Coaching Data — wie man linguistisches Wissen für das LLM strukturiert
Script Converters — die SRO→Syllabics-Pipeline
Serving a Method via API — Hosting einer community-kontrollierten Übersetzung
ALTLab — das Alberta Language Technology Lab
EdTeKLA — die Forschungsgruppe Educational Technology, Knowledge & Language
itwêwina dictionary — FST-gestütztes Plains-Cree–Englisch-Wörterbuch

Das ungelöste Problem​

Warum dies schwierig ist: Polysynthetische Morphologie​

Das Cree-Beispiel​

Vorarbeiten: Wie man dieses Problem bisher angegangen ist​

Das ALTLab FST​

Globale FST- und Morphologie-Register​

Das EdTeKLA-Korpus​

Weitere Ansätze, die ausprobiert wurden oder ausprobiert werden könnten​

Es ist nur JSON​

Wie champollion ins Bild passt​

Das Coaching-System​

Register​

Schriftkonvertierung​

Der Evaluationszyklus​

OCAP-Prinzipien​

Die Vision: Was als Nächstes kommt​

Siehe auch​