Indicaciones Estructuradas para LLM

La idea: Inyectar reglas gramaticales, diccionarios bilingües y notas de estilo directamente en el prompt del sistema del LLM. Sin entrenamiento, sin ajuste fino — solo conocimiento lingüístico estructurado que orienta la salida hacia traducciones válidas.

:::info Esta es una guía de referencia, no una implementación terminada Esta guía esboza el enfoque y sus decisiones de diseño clave. Adáptela a su par de idiomas, recursos disponibles y objetivos de evaluación. :::

Cuándo Usar Esto

Usted tiene conocimiento lingüístico sobre el idioma de destino (reglas gramaticales, entradas de diccionario, preferencias de estilo) pero no suficientes datos paralelos para ajuste fino
Desea iterar rápidamente — los cambios de prompt se despliegan en segundos, sin reentrenamiento
El idioma de destino tiene patrones conocidos que el LLM interpreta incorrectamente (concordancia de género, convenciones de escritura, niveles de formalidad)
Desea comparar indicaciones estructuradas contra una línea base e iterar sobre lo que funciona

Cómo Funciona

Reúna datos de coaching — reglas gramaticales, un diccionario bilingüe y notas de estilo en un archivo JSON estructurado
Configure el registro — un prefijo de prompt del sistema que establece el idioma, escritura y tono
Ejecute el harness — los datos de coaching se inyectan en cada prompt del LLM
Revise los fallos — observe qué rechaza la puerta de calidad, agregue reglas para abordar patrones
Itere — cada revisión del archivo de coaching es un nuevo experimento; el harness los rastrea todos

Estructura de Datos de Coaching

coaching/<locale>.json
{
  "grammar_rules": [
    "Adjectives agree in gender and number with the noun they modify",
    "Use formal register (vous) for all UI text",
    "Preserve interpolation variables exactly: {{name}}, {count}"
  ],
  "dictionary": {
    "dashboard": "tableau de bord",
    "settings": "paramètres",
    "deploy": "déployer"
  },
  "style_notes": "Prefer active voice. Avoid anglicisms where a native term exists. Keep sentences concise for UI readability."
}

Decisiones de Diseño Clave

Especificidad de reglas vs. ventana de contexto: Más reglas dan más orientación al LLM, pero consumen la ventana de contexto disponible para la traducción real. Comience con 5–10 reglas de alto impacto y agregue más solo cuando observe patrones de fallo específicos.

Cobertura de diccionario: No necesita un diccionario completo — enfóquese en términos que el LLM interpreta consistentemente de forma incorrecta. Incluso 20–30 términos forzados pueden mejorar dramáticamente la consistencia.

El orden de las reglas importa: Coloque las reglas más importantes primero. Los LLM atienden más fuertemente a las instrucciones tempranas.

Ejecutar un Experimento

python eval/baseline_experiment.py \
  --dataset data/edtekla-dev-v1.json \
  --model google/gemini-2.5-pro \
  --condition coached-v1 \
  --coaching-file coaching/crk.json

Ventajas y Desventajas


✅ Costo de entrenamiento cero	❌ Techo de calidad limitado por el conocimiento base del LLM
✅ Iteración instantánea (cambiar prompt → re-ejecutar)	❌ Los límites de ventana de contexto restringen cuánto coaching cabe
✅ Funciona con cualquier proveedor de LLM	❌ Las reglas pueden entrar en conflicto — depurar interacciones de prompt es un arte
✅ Transparente — puede leer exactamente qué ve el LLM	❌ No crea nuevo conocimiento, solo orienta el conocimiento existente

Se Combina Bien Con

FST-Gated Pipeline — coaching + validación morfológica captura lo que el coaching solo no puede
Dictionary-Augmented LLM — la terminología forzada es una forma de coaching
Few-Shot Prompting — ejemplos + reglas juntos son más poderosos que cualquiera de los dos solos

Véase También

Method Interface — formato de datos de coaching y el protocolo TranslationMethod
Support a Low-Resource Language — el contexto completo
Eval Harness — cómo ejecutar experimentos

Cuándo Usar Esto​

Cómo Funciona​

Estructura de Datos de Coaching​

Decisiones de Diseño Clave​

Ejecutar un Experimento​

Ventajas y Desventajas​

Se Combina Bien Con​

Véase También​