Modelo Ajustado Fino
La idea: Ajustar fino un modelo de peso abierto (Llama, Mistral, Gemma) en texto paralelo para su par de idiomas objetivo. Potencialmente el techo de calidad más alto, pero requiere datos paralelos que pueden ser escasos — y las reglas de contaminación de datos de evaluación son estrictas.
:::info Este es un libro de recetas, no una implementación terminada Esta guía describe el enfoque, los requisitos de datos y las trampas. La infraestructura de entrenamiento real está fuera del alcance del arnés. :::
Cuándo Usar Esto
- Tiene acceso a un corpus paralelo (cientos a miles de pares de oraciones) que es completamente independiente del conjunto de datos de evaluación
- Tiene acceso a GPU para entrenamiento (hardware local, nube o clúster de cómputo universitario)
- Desea el techo de calidad más alto para un par de idiomas específico y está dispuesto a invertir en entrenamiento
- Otros enfoques (indicaciones entrenadas, pocos ejemplos) han alcanzado una meseta de calidad
Cómo Funciona
- Ensamblar datos paralelos — pares de oraciones origen-objetivo de fuentes independientes (libros de texto, archivos comunitarios, registros de Hansard, textos religiosos, materiales educativos)
- Preparar formato de entrenamiento — formato de ajuste de instrucciones (indicación del sistema + entrada + salida esperada)
- Ajustar fino — LoRA/QLoRA en un modelo base (cuantización de 4 bits hace esto viable en GPU de consumidor)
- Evaluar con el arnés — ejecutar el modelo ajustado fino a través del arnés de evaluación
- Iterar — ajustar datos de entrenamiento, hiperparámetros, selección de modelo base
Requisitos de Datos
| Tamaño del Corpus | Qué Esperar |
|---|---|
| 50–200 pares | Mejora marginal sobre cero ejemplos; puede sobreajustarse |
| 200–1,000 pares | Mejora notable en estilo y terminología |
| 1,000–5,000 pares | Ganancias de calidad significativas para el par de idiomas específico |
| 5,000+ pares | Aproximándose al techo de calidad del modelo base |
:::danger Contaminación de datos de evaluación = descalificación Sus datos de entrenamiento NO DEBEN superponerse con el conjunto de datos de evaluación. No las oraciones, no la lista de vocabulario, no paráfrasis del mismo contenido. El arnés genera una huella digital de sus salidas; la superposición estadística es detectable. Si no está seguro de si una fuente de datos es independiente, opte por la exclusión. Vea Reglas del Tablero de Clasificación. :::
Esqueleto: Ajuste Fino LoRA
# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)
# 1. Format your parallel data as instruction pairs
training_data = [
{"instruction": "Translate to Plains Cree (SRO)",
"input": "The children are playing",
"output": "awâsisak mêtawêwak"},
# ... hundreds more
]
# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5
# 3. Export and serve via the harness TranslationMethod protocol
Dónde Encontrar Datos Paralelos
- Archivos comunitarios — materiales educativos, documentos gubernamentales, publicaciones bilingües
- Nunavut Hansard — 1.3M pares alineados inglés-inuktitut (NRC Canadá)
- Traducciones de la Biblia — disponibles para muchos idiomas de recursos bajos, pero específicas del dominio
- Libros de texto educativos — a menudo bilingües en contextos de aprendizaje de idiomas
- Crear el suyo propio — vea Guía de Creación de Corpus
Ventajas y Desventajas
| ✅ Techo de calidad más alto | ❌ Requiere datos paralelos (escasos para idiomas de recursos bajos) |
| ✅ El modelo aprende patrones específicos del idioma | ❌ Costos de GPU (aunque LoRA ayuda) |
| ✅ Puede superar enfoques indicados | ❌ Riesgo de sobreajuste con conjuntos de datos pequeños |
| ✅ Costo de entrenamiento único, luego inferencia económica | ❌ Reglas estrictas de contaminación de evaluación |
Se Combina Bien Con
- Creación de Corpus — construya los datos de entrenamiento que necesita
- Retrotraducción — expanda su corpus paralelo sintéticamente
- Tubería Controlada por FST — modelo ajustado fino + validación morfológica
- Indicaciones LLM Entrenadas — entrenamiento sobre una base ajustada fina
Vea También
- Conjuntos de Datos de Evaluación — sepa qué NO PUEDE entrenar
- Reglas del Tablero de Clasificación — política de contaminación
- Apoye un Idioma de Recursos Bajos