LLM Aumentado con Diccionario
La idea: Forzar traducciones conocidas y verificadas para términos específicos desde un diccionario bilingüe, y dejar que el LLM maneje la estructura de oraciones y vocabulario desconocido. El diccionario proporciona puntos de anclaje de corrección; el LLM proporciona fluidez.
:::info Esta es una guía de recetas, no una implementación terminada Esta guía esboza el enfoque. La estrategia específica de coincidencia de diccionario e inyección dependerá de su par de idiomas y los recursos léxicos disponibles. :::
Cuándo Usar Esto
- Existe un diccionario bilingüe para su par de idiomas (incluso uno pequeño)
- El LLM alucina consistentemente términos clave — inventando palabras que no existen
- Necesita consistencia terminológica en las traducciones (la misma palabra traducida de la misma manera en todas partes)
- Está traduciendo contenido específico del dominio donde las traducciones estándar del LLM son incorrectas (legal, médico, educativo)
Cómo Funciona
- Cargue un diccionario bilingüe — pares clave→valor que asignan términos fuente a traducciones objetivo verificadas
- Coincida el texto fuente con el diccionario — identifique términos en la entrada que tengan traducciones conocidas
- Inyecte coincidencias en el prompt — dígale al LLM "estos términos DEBEN traducirse de la siguiente manera"
- El LLM genera la traducción — con restricciones de diccionario como requisitos obligatorios
- Post-procesamiento — verifique que los términos del diccionario aparezcan en la salida; reintente si no lo hacen
Formato del Diccionario
{
"school": "kiskinwahamâtowikamik",
"teacher": "okiskinwahamâkêw",
"student": "kiskinwahamâkan",
"book": "masinahikan",
"home": "kīwēwin",
"water": "nipiy"
}
Estructura del Prompt
Translate the following English to Plains Cree (SRO).
REQUIRED TERMINOLOGY — use these exact translations:
- "school" → "kiskinwahamâtowikamik"
- "teacher" → "okiskinwahamâkêw"
Source: "The teacher went to the school"
Decisiones de Diseño Clave
Estrategia de coincidencia: La coincidencia exacta es la más simple. La coincidencia lematizada ("teachers" coincide con "teacher") captura más pero requiere un lematizador del idioma fuente. La coincidencia difusa arriesga falsos positivos.
Manejo de inflexión: En idiomas polisintéticos, la forma del diccionario puede necesitar inflexión para ajustarse a la oración. Puede proporcionar la raíz y dejar que el LLM inflexione, o proporcionar múltiples formas inflexionadas. Un FST puede validar el resultado.
Resolución de conflictos: ¿Qué pasa si el LLM ignora un término del diccionario? Opciones: (a) reintentar con instrucción más fuerte, (b) post-procesamiento por reemplazo de cadena, (c) aceptar y marcar para revisión.
Ventajas y Desventajas
| ✅ Elimina alucinaciones para términos conocidos | ❌ La cobertura del diccionario siempre es incompleta |
| ✅ Garantiza consistencia para vocabulario clave | ❌ La inflexión/conjugación puede no coincidir con el contexto de la oración |
| ✅ Fácil de auditar y actualizar | ❌ El exceso de restricciones puede producir salida poco natural |
| ✅ El diccionario es un activo reutilizable | ❌ Requiere que exista un diccionario en primer lugar |
Dónde Encontrar Diccionarios
- itwêwina — Plains Cree–English (impulsado por FST, código abierto)
- Wolvengrey Dictionary — referencia completa de Plains Cree
- Apertium — diccionarios bilingües para docenas de pares de idiomas
- Giellatekno — diccionarios para Sámi, Urálico y otros idiomas minoritarios
- Glosarios creados por la comunidad, materiales educativos, listas de términos
Se Combina Bien Con
- Coached LLM Prompting — las entradas del diccionario son una forma de datos de coaching
- FST-Gated Pipeline — FST valida que los términos del diccionario estén correctamente inflexionados
- Rule-Based + LLM Hybrid — búsqueda de diccionario determinista como una capa de regla
Véase También
- Support a Low-Resource Language — el contexto completo
- Method Interface — cómo se estructuran los métodos