Wörterbuch-erweitertes LLM
Die Idee: Erzwingen Sie bekannte, verifizierte Übersetzungen für bestimmte Begriffe aus einem zweisprachigen Wörterbuch und überlassen Sie dem LLM die Satzstruktur sowie unbekanntes Vokabular. Das Wörterbuch liefert die Anker der Korrektheit; das LLM sorgt für die Flüssigkeit.
:::info Dies ist ein Kochbuch, keine fertige Implementierung Diese Anleitung skizziert den Ansatz. Die konkrete Strategie zum Abgleich und zur Einfügung des Wörterbuchs hängt von Ihrem Sprachpaar und den verfügbaren lexikalischen Ressourcen ab. :::
Wann Sie dies verwenden sollten
- Ein zweisprachiges Wörterbuch existiert für Ihr Sprachpaar (auch ein kleines)
- Das LLM halluziniert durchgängig Schlüsselbegriffe — es erfindet Wörter, die nicht existieren
- Sie benötigen terminologische Konsistenz über Übersetzungen hinweg (dasselbe Wort wird überall gleich übersetzt)
- Sie übersetzen domänenspezifische Inhalte, bei denen Standard-LLM-Übersetzungen falsch sind (Recht, Medizin, Bildung)
Funktionsweise
- Laden Sie ein zweisprachiges Wörterbuch — Schlüssel-Wert-Paare, die Quellbegriffe auf verifizierte Zielübersetzungen abbilden
- Gleichen Sie den Quelltext mit dem Wörterbuch ab — identifizieren Sie Begriffe in der Eingabe, für die bekannte Übersetzungen vorliegen
- Fügen Sie die Treffer in den Prompt ein — teilen Sie dem LLM mit, dass „diese Begriffe wie folgt übersetzt werden MÜSSEN“
- Das LLM generiert die Übersetzung — mit den Wörterbuch-Vorgaben als harte Anforderungen
- Nachbearbeitung — überprüfen Sie, ob die Wörterbuchbegriffe in der Ausgabe erscheinen; wiederholen Sie den Vorgang, falls nicht
Wörterbuchformat
{
"school": "kiskinwahamâtowikamik",
"teacher": "okiskinwahamâkêw",
"student": "kiskinwahamâkan",
"book": "masinahikan",
"home": "kīwēwin",
"water": "nipiy"
}
Prompt-Struktur
Translate the following English to Plains Cree (SRO).
REQUIRED TERMINOLOGY — use these exact translations:
- "school" → "kiskinwahamâtowikamik"
- "teacher" → "okiskinwahamâkêw"
Source: "The teacher went to the school"
Wesentliche Designentscheidungen
Abgleichstrategie: Der exakte Abgleich ist am einfachsten. Ein lemmatisierter Abgleich („teachers“ passt zu „teacher“) erfasst mehr, erfordert jedoch einen Lemmatisierer für die Quellsprache. Ein unscharfer Abgleich birgt das Risiko falsch-positiver Ergebnisse.
Behandlung von Flexion: In polysynthetischen Sprachen muss die Wörterbuchform möglicherweise flektiert werden, um in den Satz zu passen. Sie können den Wortstamm bereitstellen und das LLM flektieren lassen oder mehrere flektierte Formen angeben. Ein FST kann das Ergebnis validieren.
Konfliktlösung: Was geschieht, wenn das LLM einen Wörterbuchbegriff ignoriert? Möglichkeiten: (a) Wiederholung mit einer stärkeren Anweisung, (b) Nachbearbeitung durch Ersetzung von Zeichenketten, (c) Akzeptieren und zur Überprüfung markieren.
Vor- und Nachteile
| ✅ Beseitigt Halluzinationen für bekannte Begriffe | ❌ Die Abdeckung des Wörterbuchs ist immer unvollständig |
| ✅ Garantiert Konsistenz für Schlüsselvokabular | ❌ Flexion/Konjugation passt möglicherweise nicht zum Satzkontext |
| ✅ Einfach zu prüfen und zu aktualisieren | ❌ Übermäßige Einschränkung kann zu unnatürlichen Ausgaben führen |
| ✅ Das Wörterbuch ist ein wiederverwendbares Gut | ❌ Setzt voraus, dass überhaupt ein Wörterbuch existiert |
Wo Sie Wörterbücher finden
- itwêwina — Plains Cree–Englisch (FST-gestützt, Open Source)
- Wolvengrey Dictionary — umfassendes Referenzwerk für Plains Cree
- Apertium — zweisprachige Wörterbücher für Dutzende von Sprachpaaren
- Giellatekno — Wörterbücher für Samisch, uralische und andere Minderheitensprachen
- Von der Community erstellte Glossare, Lehrmaterialien, Begriffslisten
Gute Kombinationsmöglichkeiten
- Coached LLM Prompting — Wörterbucheinträge sind eine Form von Coaching-Daten
- FST-Gated Pipeline — der FST validiert, dass Wörterbuchbegriffe korrekt flektiert sind
- Rule-Based + LLM Hybrid — deterministische Wörterbuchsuche als eine Regelschicht
Siehe auch
- Eine ressourcenarme Sprache unterstützen — der vollständige Kontext
- Method Interface — wie Methoden strukturiert sind