Apoyar un idioma de recursos limitados
Resumen ejecutivo. Una guía completa para construir traducción automática para idiomas de recursos limitados y polisintéticos. Cubre por qué estos idiomas son difíciles (complejidad morfológica, datos escasos, alucinación), recursos computacionales existentes (ALTLab FST, GiellaLT, Apertium, UniMorph, EdTeKLA), más de 10 estrategias de enfoque, el sistema de coaching de champollion y el ciclo de evaluación. Comience aquí si desea contribuir un método para un idioma desatendido.
:::info Estado: En desarrollo activo El soporte para Plains Cree (nêhiyawêwin) está actualmente en desarrollo. Las herramientas, el arnés de evaluación y el leaderboard descritos aquí son reales y utilizables hoy, pero el pipeline de traducción de Cree aún no ha sido lanzado. Cuando lo sea, esto servirá como el modelo para otros idiomas polisintéticos y de recursos limitados con infraestructura FST. :::
El problema sin resolver
Google Translate admite ~130 idiomas. OMT-1600 de Meta (marzo de 2026) afirma cobertura para 1.600 — el sistema de MT más grande jamás publicado. Pero para los ~1.300 idiomas en sus niveles de recursos más bajos, la calidad está por debajo de umbrales utilizables, los datos de entrenamiento están dominados por texto bíblico, los pesos del modelo no están disponibles para descargar, y no hay evaluación independiente ni marco de gobernanza comunitaria. Para los ~5.400 idiomas restantes, ningún modelo preentrenado produce ningún resultado.
El panorama ha cambiado significativamente — Big Tech ahora está invirtiendo en cobertura de idiomas de recursos limitados. Pero la cobertura no es calidad, y la calidad sin verificación independiente no es confianza. Los idiomas de recursos limitados necesitan más que un modelo que afirme cubrirlos — necesitan evaluación independiente con validación morfológica, corpus curados por la comunidad y gobernanza que respete la soberanía.
champollion fue construido para cambiar eso.
El Leaderboard de métodos es un desafío abierto: construya el mejor método de traducción para un idioma desatendido, pruébelo con evaluación reproducible y reclame la puntuación superior. Cualquiera en el mundo puede contribuir — lingüistas, investigadores de ML, trabajadores de idiomas comunitarios, estudiantes, aficionados. El problema no está resuelto. La infraestructura está aquí. El leaderboard está esperando.
Por qué esto es difícil: Morfología polisintética
La mayoría de los sistemas de MT comerciales fueron diseñados para idiomas como inglés, francés y chino — idiomas donde las palabras son relativamente cortas y las oraciones se construyen a partir de tokens discretos. Pero muchos idiomas indígenas, incluido Plains Cree, son polisintéticos: una sola palabra puede codificar lo que el inglés expresa como una oración completa.
El ejemplo de Cree
Considere la palabra de Plains Cree:
ê-kî-nitawi-kîskinwahamâkosiyân "cuando fui a la escuela"
Esa es una palabra. Codifica tiempo (pasado), dirección (ir a), la raíz (aprender), voz (pasiva/reflexiva) y persona (primera singular). Un LLM entrenado predominantemente en inglés no tiene intuición para este tipo de densidad morfológica.
Los desafíos se multiplican:
| Desafío | Qué significa |
|---|---|
| Complejidad morfológica | Una sola raíz verbal puede generar miles de formas inflexionadas válidas a través de prefijación, sufijación y circunfijación |
| Distinción animado/inanimado | Los sustantivos son gramaticalmente animados o inanimados — esto afecta la conjugación verbal, demostrativos y pluralización. La clasificación no siempre sigue la animacidad biológica (askiy "tierra" es animado; maskisin "zapato" también es animado) |
| Obviación | Las referencias de tercera persona se clasifican por proximidad/relevancia. La distinción "proximal" y "obviativo" no tiene equivalente en inglés |
| Datos de entrenamiento escasos | Los LLM han visto muy poco texto de Plains Cree. Lo que han visto puede mezclar dialectos (dialecto Y, dialecto TH) u ortografías (SRO vs. silábicos) |
| Línea base comercial débil | OMT-1600 incluye CRK en el nivel R1 (Recursos muy limitados) con entrenamiento en dominio bíblico y tokenización BPE estándar. Google Translate no admite Cree. La evaluación independiente con métricas morfológicas es lo que hace que estas líneas base sean significativas. |
La traducción de idiomas polisintéticos sigue siendo un problema de investigación abierto — OMT-1600 incluye idiomas polisintéticos pero utiliza tokenización BPE estándar (vocabulario de 256K) sin conciencia morfológica, lo que significa que destruye palabras composicionales en fragmentos de bytes sin sentido.
Trabajo previo: Cómo las personas han abordado esto
El FST de ALTLab
El recurso computacional más significativo para Plains Cree es el transductor de estado finito (FST) desarrollado por el Alberta Language Technology Lab (ALTLab) en la Universidad de Alberta, en colaboración con Giellatekno en UiT The Arctic University of Norway.
El FST de ALTLab es un analizador y generador morfológico: dada una palabra Cree inflexionada, puede descomponerla en su raíz y etiquetas gramaticales, y dada una raíz más etiquetas, puede generar la forma inflexionada correcta. Esto es determinista — sin red neuronal, sin alucinación, sin probabilidad. Si el FST acepta una palabra, esa palabra es morfológicamente válida en Cree.
Por eso el leaderboard de champollion rastrea la Tasa de aceptación de FST como métrica. Un método de traducción que produce palabras que el FST rechaza está produciendo Cree morfológicamente inválido — independientemente de lo que diga la puntuación de chrF++.
Recursos clave de ALTLab:
- itwêwina — un diccionario inteligente de Plains Cree–inglés impulsado por el FST
- Morphodict — plataforma de diccionario de código abierto consciente de la morfología
- crk-db — base de datos léxica de Plains Cree
- 21st Century Tools for Indigenous Languages — el contexto del proyecto más amplio
Registros globales de FST y morfología
Plains Cree no es el único idioma con infraestructura FST de alta calidad. Si desea desarrollar pipelines de traducción para otros idiomas de recursos limitados o morfológicamente complejos, puede aprovechar estos centros globales establecidos:
- GiellaLT / Giellatekno (UiT The Arctic University of Norway): El repositorio más grande de analizadores y generadores morfológicos FST de código abierto, cubriendo más de 100 idiomas. Las áreas de enfoque incluyen idiomas Sámi (
sme,smj,sma, etc.), idiomas urálicos (Komi, Erzya, Udmurt, etc.) y otros idiomas minoritarios/indígenas. Albergan corpus de texto procesado público (corpus-xxx) en su Organización de GitHub. - El Proyecto Apertium: Una plataforma de traducción automática basada en reglas de código abierto. Apertium mantiene analizadores morfológicos FST altamente optimizados (usando
lttoolboxyhfst) y diccionarios bilingües para docenas de idiomas, incluido un conjunto grande de idiomas túrquicos (kazajo, tártaro, kirguís, etc.) e idiomas europeos minoritarios. Todos los recursos son públicos en GitHub de Apertium. - UniMorph (Morfología Universal): Un proyecto colaborativo que proporciona paradigmas morfológicos estandarizados para más de 150 idiomas. El conjunto de datos se aloja en Hugging Face en unimorph/universal_morphologies. Si un binario FST compilado no está disponible para un idioma, las tablas de UniMorph se pueden usar como una puerta de búsqueda de base de datos estática.
- Consejo Nacional de Investigación de Canadá (NRC): Ofrece herramientas para idiomas indígenas canadienses, incluido el analizador morfológico FST Uqailaut Inuktitut y el masivo Corpus paralelo de Hansard de Nunavut (1,3M pares de oraciones alineadas inglés-inuktitut).
El corpus EdTeKLA
El grupo de investigación EdTeKLA (también en UAlberta) ha reunido un corpus de idioma Plains Cree a partir de materiales educativos, transcripciones de audio y fuentes comunitarias. El conjunto de datos de evaluación de champollion EDTeKLA Dev v1 se deriva de este trabajo, licenciado bajo CC BY-NC-SA 4.0.
Otros enfoques que las personas han probado o podrían probar
El leaderboard es agnóstico respecto al método. Aquí hay estrategias que se han explorado o propuesto para MT de recursos limitados, cualquiera de las cuales podría ser enviada:
| Enfoque | Cómo funciona | Ventajas | Desventajas |
|---|---|---|---|
| Prompting de LLM entrenado | Inyecte reglas gramaticales, diccionarios y pares de ejemplo en el prompt del sistema | Rápido de iterar, no se necesita entrenamiento | El techo de calidad está limitado por el conocimiento base del LLM |
| Prompting de pocos ejemplos | Incluya traducciones verificadas como ejemplos en contexto | Bueno para estilo consistente | Ventana de contexto pequeña; los ejemplos NO deben provenir de datos de evaluación |
| Pipeline con puerta FST | LLM genera → FST valida → rechaza y reintenta morfología inválida | Garantiza validez morfológica | Requiere infraestructura FST; los bucles de reintento agregan latencia y costo |
| Búsqueda en diccionario + LLM | Force términos conocidos de un diccionario bilingüe, deje que el LLM maneje el resto | Reduce alucinación para términos conocidos | La cobertura del diccionario siempre es incompleta |
| Modelo ajustado | Ajuste un modelo abierto (Llama, Mistral) en texto paralelo — solo no en los datos de evaluación | Potencialmente la más alta calidad | Requiere corpus paralelo (escaso); costoso; riesgo de sobreajuste |
| Modelos encadenados | El modelo A genera traducción aproximada → El modelo B post-edita → El modelo C califica | Puede combinar fortalezas especializadas | Complejo; lento; costoso |
| Híbrido basado en reglas + LLM | Use reglas lingüísticas para patrones conocidos, LLM para todo lo demás | Preciso donde se aplican las reglas | Requiere experiencia lingüística profunda |
| Aumento de back-translation | Genere datos paralelos sintéticos traduciendo Cree→inglés, luego entrene en la inversa | Expande datos de entrenamiento económicamente | Amplifica errores del modelo existente |
| Enfoque evolutivo | Genere traducciones candidatas, califíquelas, mute los mejores desempeños, repita | Puede descubrir soluciones novedosas; paralelizable | Computacionalmente costoso; necesita una buena función de aptitud |
| Traducción parcial | Traduzca manualmente una muestra representativa, pruebe que su método coincida con su estilo en ella, luego traduzca automáticamente el volumen restante | Combina calidad humana con escala de máquina | Requiere esfuerzo humano inicial |
| JSON manual / calificación de examen | Construya manualmente un archivo JSON de conjunto de datos para probar respuestas de estudiantes en un examen de idioma, o califique un lote de traducciones humanas contra un estándar de oro | Cero ML requerido; funciona para educación y QA | No se escala a necesidades de traducción continua |
Es solo JSON
El arnés toma JSON como entrada y produce JSON como salida. El formato del conjunto de datos es simple:
{
"entries": [
{ "id": 1, "source": "Hello", "reference": "tânisi" },
{ "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
]
}
Puede construir esto a mano. Puede exportarlo desde una hoja de cálculo. Puede generarlo a partir de un corpus. Un maestro de idiomas podría usarlo para calificar traducciones de estudiantes. Una agencia de traducción podría usarlo para comparar freelancers. Un laboratorio de investigación podría usarlo para comparar arquitecturas de modelos. El arnés no le importa de dónde vino el JSON — simplemente lo califica.
Y debido a que el marco de implementación de producción toma la misma interfaz de complemento, un método que se desempeña bien en el arnés se implementa en su sitio web con un cambio de configuración. Pruébelo y úselo.
Las posibilidades son genuinamente infinitas. Si tiene una idea, constrúyala, ejecute el arnés y envíe sus puntuaciones.
Cómo champollion encaja
champollion proporciona la capa de infraestructura — usted aporta el método.
El sistema de coaching
El método llm-coached de champollion le permite inyectar conocimiento lingüístico directamente en el prompt del LLM:
{
"grammar_rules": [
"Plains Cree is polysynthetic — a single word can express what English needs a full sentence for",
"Animate/inanimate noun distinction affects verb conjugation, demonstratives, and pluralization",
"Use SRO (Standard Roman Orthography) as the working script — syllabic conversion is handled by the deterministic converter",
"Obviation: when two third-person referents appear, the less salient one takes obviative marking (-a suffix on nouns, -iyiwa on verbs)"
],
"dictionary": {
"home": "kīwēwin",
"settings": "isi-nākatohkēwin",
"search": "nānātawāpahtam",
"welcome": "tānisi",
"dashboard": "kīskinwahamākēwin-māsinahikan"
},
"style_notes": "Use formal register appropriate for educational and community contexts. Preserve English technical terms in parentheses when no Cree equivalent exists or is widely accepted."
}
Los datos de coaching se inyectan en cada prompt del LLM para el par en:crk, dando al modelo contexto lingüístico estructurado que de otro modo no tendría. Vea Datos de coaching para la especificación completa.
Registros
El registro es parte del prompt del sistema que dirige el tono, la formalidad y las convenciones ortográficas. champollion viene con un registro de Plains Cree:
nêhiyawêwin (Plains Cree). Use SRO (Standard Roman Orthography) as the working
script. Output will be converted to Syllabics via deterministic converter.
Professional register appropriate for educational and community contexts.
Puede anular esto en su configuración para experimentar con diferentes estrategias de prompting:
{
"languages": {
"crk": {
"register": "Casual Plains Cree (Y-dialect). Use SRO. Prefer everyday vocabulary over formal or archaic terms. Address the reader directly."
}
}
}
Los registros diferentes producen estilos de traducción diferentes — y puntuaciones diferentes en el leaderboard. Cada envío registra el registro exacto y el prompt del sistema utilizado (como un hash SHA-256 en la tarjeta de ejecución), por lo que los experimentos son reproducibles.
Conversión de escritura
Plains Cree se escribe en dos escrituras: Ortografía romana estándar (SRO) y Silábicos aborígenes canadienses. El pipeline de champollion:
- LLM traduce a SRO (basado en latín, que los LLM manejan mejor)
- La puerta de calidad valida la salida de SRO
- El convertidor determinista transforma SRO → Silábicos
- El texto convertido se escribe en disco
El convertidor maneja todos los diacríticos de SRO (ê, î, ô, â para vocales largas) y los asigna a los caracteres silábicos correctos. Vea Convertidores de escritura para detalles técnicos.
El ciclo de evaluación
El arnés de evaluación ejecuta su método contra el conjunto de datos de evaluación y produce una tarjeta de ejecución calificada:
# Clone the harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install -e .
# Run a baseline experiment
python eval/baseline_experiment.py \
--dataset data/edtekla-dev-v1.json \
--model google/gemini-2.5-pro \
--condition coached-v7
# Run with FST validation (if you have an FST binary)
python eval/baseline_experiment.py \
--dataset data/edtekla-dev-v1.json \
--fst-analyzer ./bin/crk-analyzer \
--condition fst-gated-v1
La bandera --condition es una etiqueta que usted elige. Aparece en el leaderboard para que las personas puedan ver qué estrategia de prompt utilizó. El arnés registra el prompt del sistema completo en la tarjeta de ejecución, por lo que su enfoque exacto es reproducible.
:::tip Experimente libremente, envíe lo mejor El arnés está diseñado para iteración rápida. Ejecute docenas de experimentos con diferentes modelos, datos de coaching, registros y condiciones. Solo envíe al leaderboard cuando tenga algo de lo que esté orgulloso. :::
Principios OCAP
champollion está diseñado para apoyar la soberanía de datos indígenas. Los principios OCAP (Propiedad, Control, Acceso, Posesión) guían cómo abordamos la tecnología de idiomas para comunidades indígenas:
| Principio | Cómo champollion lo apoya |
|---|---|
| Propiedad | Las comunidades de idiomas poseen sus datos lingüísticos. champollion nunca se comunica con el hogar ni transmite datos a nuestros servidores |
| Control | El método de API permite que las comunidades alberguen su propio pipeline de traducción — proporcionamos la interfaz, ellos controlan la implementación |
| Acceso | Las comunidades deciden quién puede usar su método. La API puede estar protegida detrás de autenticación |
| Posesión | Todos los datos de traducción permanecen en el sistema de archivos de su proyecto. El sistema de procedencia rastrea de dónde vino cada traducción |
La arquitectura de complementos significa que una comunidad puede construir un método que incorpore conocimiento sagrado o restringido internamente, exponer solo la API de traducción y mantener control total sobre sus recursos lingüísticos.
La visión: Qué viene después
Plains Cree es el primer objetivo. Una vez que el pipeline sea validado y la comunidad esté satisfecha con la calidad, la misma arquitectura se extiende a otros idiomas polisintéticos con infraestructura FST:
- Otros idiomas algonquianos: Woods Cree, Swampy Cree, Ojibwe, Blackfoot
- Idiomas inuit: Inuktitut, Inuinnaqtun (que también usan escrituras silábicas)
- Otras familias de idiomas: cualquier idioma con un analizador FST puede usar el pipeline con puerta FST
El leaderboard tiene alcance de par de idiomas. A medida que nuevos conjuntos de datos de evaluación son contribuidos por comunidades de idiomas, nuevas pistas de leaderboard se abren automáticamente.
Esta es una invitación abierta. Si trabaja con un idioma de recursos limitados — como investigador, miembro de la comunidad, estudiante o simplemente alguien que se preocupa — champollion le proporciona las herramientas para construir algo real, medirlo honestamente y compartirlo con el mundo. El Leaderboard de métodos está esperando su envío.
Véase también
- Leaderboard de métodos — envíe sus puntuaciones y vea cómo se comparan los métodos
- Evaluación de MT — qué hace un buen método, qué se descalifica
- Arnés de evaluación — cómo ejecutar experimentos
- Conjuntos de datos de evaluación — EDTeKLA Dev v1 y FLORES+
- Datos de coaching — cómo estructurar conocimiento lingüístico para el LLM
- Convertidores de escritura — el pipeline SRO→Silábicos
- Servir un método vía API — alojamiento de traducción controlada por la comunidad
- ALTLab — el Alberta Language Technology Lab
- EdTeKLA — el grupo de investigación Educational Technology, Knowledge & Language
- Diccionario itwêwina — diccionario de Plains Cree–inglés impulsado por FST