Woordenboek-Aangevulde LLM
Het idee: Dwing bekende, geverifieerde vertalingen af voor specifieke termen uit een tweetalig woordenboek, en laat de LLM de zinsstructuur en onbekende woordenschat afhandelen. Het woordenboek biedt ankerpunten van correctheid; de LLM zorgt voor vloeiendheid.
:::info Dit is een kookboek, geen afgeronde implementatie Deze handleiding schetst de aanpak. De specifieke strategie voor woordenboekmatching en -injectie is afhankelijk van uw taalpaar en beschikbare lexicale bronnen. :::
Wanneer Dit Te Gebruiken
- Er bestaat een tweetalig woordenboek voor uw taalpaar (zelfs een klein exemplaar)
- De LLM hallucineert consequent sleuteltermen — hij verzint woorden die niet bestaan
- U hebt terminologische consistentie nodig over vertalingen heen (hetzelfde woord overal op dezelfde manier vertaald)
- U vertaalt domeinspecifieke inhoud waarbij standaard LLM-vertalingen onjuist zijn (juridisch, medisch, educatief)
Hoe Het Werkt
- Laad een tweetalig woordenboek — sleutel-waardeparen die brontermen koppelen aan geverifieerde doelvertalingen
- Vergelijk brontekst met het woordenboek — identificeer termen in de invoer waarvoor bekende vertalingen bestaan
- Injecteer overeenkomsten in de prompt — vertel de LLM "deze termen MOETEN als volgt worden vertaald"
- LLM genereert de vertaling — met woordenboekbeperkingen als harde vereisten
- Naverwerking — verifieer dat woordenboektermen in de uitvoer voorkomen; probeer opnieuw als dat niet het geval is
Woordenboekformaat
{
"school": "kiskinwahamâtowikamik",
"teacher": "okiskinwahamâkêw",
"student": "kiskinwahamâkan",
"book": "masinahikan",
"home": "kīwēwin",
"water": "nipiy"
}
Promptstructuur
Translate the following English to Plains Cree (SRO).
REQUIRED TERMINOLOGY — use these exact translations:
- "school" → "kiskinwahamâtowikamik"
- "teacher" → "okiskinwahamâkêw"
Source: "The teacher went to the school"
Belangrijke Ontwerpbeslissingen
Matchingstrategie: Exacte overeenkomst is het eenvoudigst. Gelemmatiseerde matching ("teachers" komt overeen met "teacher") vangt meer op, maar vereist een lemmatiseerder voor de brontaal. Fuzzy matching brengt het risico van valse positieven met zich mee.
Verbuigingsafhandeling: In polysynthetische talen moet de woordenboekvorm mogelijk worden verbogen om in de zin te passen. U kunt de stam opgeven en de LLM laten verbuigen, of meerdere verbogen vormen opgeven. Een FST kan het resultaat valideren.
Conflictoplossing: Wat als de LLM een woordenboekterm negeert? Opties: (a) opnieuw proberen met een sterkere instructie, (b) naverwerken via stringvervanging, (c) accepteren en markeren voor beoordeling.
Voor- en Nadelen
| ✅ Elimineert hallucinatie voor bekende termen | ❌ Woordenboekdekking is altijd onvolledig |
| ✅ Garandeert consistentie voor sleutelwoordenschat | ❌ Verbuiging/vervoeging sluit mogelijk niet aan bij de zinscontext |
| ✅ Eenvoudig te controleren en bij te werken | ❌ Overmatige beperking kan onnatuurlijke uitvoer opleveren |
| ✅ Het woordenboek is een herbruikbaar hulpmiddel | ❌ Vereist dat er een woordenboek bestaat |
Waar Woordenboeken Te Vinden
- itwêwina — Plains Cree–Engels (FST-aangedreven, open source)
- Wolvengrey Dictionary — uitgebreide Plains Cree-referentie
- Apertium — tweetalige woordenboeken voor tientallen taalparen
- Giellatekno — woordenboeken voor Sámi, Oeraalse en andere minderheidstalen
- Door de gemeenschap aangemaakte glossaria, educatief materiaal, termlijsten
Combineert Goed Met
- Coached LLM Prompting — woordenboekitems zijn een vorm van coachingdata
- FST-Gated Pipeline — FST valideert dat woordenboektermen correct zijn verbogen
- Rule-Based + LLM Hybrid — deterministische woordenboekopzoeking als één regellaag
Zie Ook
- Ondersteuning van een Taal met Weinig Bronnen — de volledige context
- Methode-Interface — hoe methoden zijn gestructureerd