Coached LLM Prompting
Die Idee: Grammatikregeln, zweisprachige Wörterbücher und Stilhinweise werden direkt in den System-Prompt des LLM eingefügt. Kein Training, kein Fine-Tuning — lediglich strukturiertes linguistisches Wissen, das die Ausgabe in Richtung valider Übersetzungen lenkt.
:::info Dies ist ein Kochbuch, keine fertige Implementierung Dieser Leitfaden skizziert den Ansatz und seine wesentlichen Entwurfsentscheidungen. Passen Sie ihn an Ihr Sprachpaar, die verfügbaren Ressourcen und Ihre Evaluierungsziele an. :::
Wann Sie diesen Ansatz verwenden sollten
- Sie verfügen über linguistisches Wissen über die Zielsprache (Grammatikregeln, Wörterbucheinträge, Stilpräferenzen), aber nicht über genügend Paralleldaten für ein Fine-Tuning
- Sie möchten schnell iterieren — Prompt-Änderungen werden in Sekunden ausgerollt, ohne erneutes Training
- Die Zielsprache weist bekannte Muster auf, die ein LLM falsch wiedergibt (Genuskongruenz, Schriftkonventionen, Formalitätsstufen)
- Sie möchten Coached Prompting gegen eine Baseline benchmarken und das Wirksame iterativ verbessern
Funktionsweise
- Coaching-Daten zusammenstellen — Grammatikregeln, ein zweisprachiges Wörterbuch und Stilhinweise in einer strukturierten JSON-Datei
- Register konfigurieren — ein System-Prompt-Präfix, das Sprache, Schrift und Tonalität festlegt
- Harness ausführen — die Coaching-Daten werden in jeden LLM-Prompt eingefügt
- Fehler überprüfen — betrachten Sie, was das Quality Gate ablehnt, und fügen Sie Regeln hinzu, um diese Muster zu adressieren
- Iterieren — jede Revision der Coaching-Datei ist ein neues Experiment; der Harness verfolgt sie alle
Struktur der Coaching-Daten
{
"grammar_rules": [
"Adjectives agree in gender and number with the noun they modify",
"Use formal register (vous) for all UI text",
"Preserve interpolation variables exactly: {{name}}, {count}"
],
"dictionary": {
"dashboard": "tableau de bord",
"settings": "paramètres",
"deploy": "déployer"
},
"style_notes": "Prefer active voice. Avoid anglicisms where a native term exists. Keep sentences concise for UI readability."
}
Wesentliche Entwurfsentscheidungen
Regelspezifität vs. Kontextfenster: Mehr Regeln geben dem LLM mehr Anleitung, beanspruchen jedoch das Kontextfenster, das für die eigentliche Übersetzung zur Verfügung steht. Beginnen Sie mit 5–10 wirkungsvollen Regeln und fügen Sie weitere nur dann hinzu, wenn Sie spezifische Fehlermuster erkennen.
Wörterbuchabdeckung: Sie benötigen kein vollständiges Wörterbuch — konzentrieren Sie sich auf Begriffe, die das LLM durchgängig falsch wiedergibt. Schon 20–30 erzwungene Begriffe können die Konsistenz erheblich verbessern.
Reihenfolge der Regeln ist entscheidend: Setzen Sie die wichtigsten Regeln an den Anfang. LLMs gewichten frühe Anweisungen stärker.
Ein Experiment durchführen
python eval/baseline_experiment.py \
--dataset data/edtekla-dev-v1.json \
--model google/gemini-2.5-pro \
--condition coached-v1 \
--coaching-file coaching/crk.json
Vor- und Nachteile
| ✅ Keine Trainingskosten | ❌ Qualitätsobergrenze durch das Basiswissen des LLM begrenzt |
| ✅ Sofortige Iteration (Prompt ändern → erneut ausführen) | ❌ Das Kontextfenster begrenzt, wie viel Coaching hineinpasst |
| ✅ Funktioniert mit jedem LLM-Anbieter | ❌ Regeln können in Konflikt geraten — das Debuggen von Prompt-Wechselwirkungen ist eine Kunst |
| ✅ Transparent — Sie können genau lesen, was das LLM sieht | ❌ Erzeugt kein neues Wissen, sondern lenkt nur vorhandenes Wissen |
Lässt sich gut kombinieren mit
- FST-Gated Pipeline — Coaching + morphologische Validierung erfasst, was Coaching allein übersieht
- Dictionary-Augmented LLM — erzwungene Terminologie ist eine Form des Coachings
- Few-Shot Prompting — Beispiele + Regeln gemeinsam sind wirkungsvoller als jedes für sich allein
Siehe auch
- Method Interface — Format der Coaching-Daten und das TranslationMethod-Protokoll
- Support a Low-Resource Language — der vollständige Kontext
- Eval Harness — wie Sie Experimente durchführen