Soutenir une langue peu dotée en ressources
Résumé exécutif. Un guide complet pour construire la traduction automatique pour les langues peu dotées en ressources et polysynthétiques. Couvre les raisons pour lesquelles ces langues sont difficiles (complexité morphologique, données éparses, hallucinations), les ressources informatiques existantes (ALTLab FST, GiellaLT, Apertium, UniMorph, EdTeKLA), plus de 10 stratégies d'approche, le système d'accompagnement champollion et la boucle d'évaluation. Commencez ici si vous souhaitez contribuer une méthode pour une langue mal desservie.
:::info Statut : En développement actif Le support du cri des Plaines (nêhiyawêwin) est actuellement en développement. Les outils, le harnais d'évaluation et le classement décrits ici sont réels et utilisables dès aujourd'hui, mais le pipeline de traduction du cri n'a pas encore été publié. Lorsqu'il le sera, ceci servira de modèle pour d'autres langues polysynthétiques et peu dotées en ressources disposant d'une infrastructure FST. :::
Le problème non résolu
Google Translate supporte environ 130 langues. OMT-1600 de Meta (mars 2026) revendique une couverture de 1 600 — le plus grand système de traduction automatique jamais publié. Mais pour les environ 1 300 langues aux niveaux de ressources les plus bas, la qualité est en dessous des seuils utilisables, les données d'entraînement sont dominées par des textes bibliques, les poids du modèle ne sont pas disponibles en téléchargement, et il n'existe aucune évaluation indépendante ni cadre de gouvernance communautaire. Pour les 5 400 langues restantes, aucun modèle préentraîné ne produit aucune sortie.
Le paysage a considérablement changé — les grandes entreprises technologiques investissent maintenant dans la couverture des langues peu dotées en ressources. Mais la couverture n'est pas la qualité, et la qualité sans vérification indépendante n'est pas la confiance. Les langues peu dotées en ressources ont besoin de plus qu'un modèle qui prétend les couvrir — elles ont besoin d'une évaluation indépendante avec validation morphologique, de corpus curés par la communauté et d'une gouvernance respectueuse de la souveraineté.
champollion a été construit pour changer cela.
Le Classement des méthodes est un défi ouvert : construisez la meilleure méthode de traduction pour une langue mal desservie, prouvez-le avec une évaluation reproductible et réclamez le meilleur score. N'importe qui dans le monde peut contribuer — linguistes, chercheurs en apprentissage automatique, travailleurs linguistiques communautaires, étudiants, passionnés. Le problème n'est pas résolu. L'infrastructure est là. Le classement attend.
Pourquoi c'est difficile : morphologie polysynthétique
La plupart des systèmes de traduction automatique commerciaux ont été conçus pour des langues comme l'anglais, le français et le chinois — des langues où les mots sont relativement courts et les phrases sont construites à partir de jetons discrets. Mais de nombreuses langues autochtones, y compris le cri des Plaines, sont polysynthétiques : un seul mot peut encoder ce que l'anglais exprime comme une phrase entière.
L'exemple du cri
Considérez le mot du cri des Plaines :
ê-kî-nitawi-kîskinwahamâkosiyân « when I went to school »
C'est un seul mot. Il encode le temps (passé), la direction (aller à), la racine (apprendre), la voix (passif/réfléchi) et la personne (première du singulier). Un modèle de langage entraîné principalement sur l'anglais n'a aucune intuition pour ce type de densité morphologique.
Les défis se multiplient :
| Défi | Ce que cela signifie |
|---|---|
| Complexité morphologique | Une seule racine verbale peut générer des milliers de formes fléchies valides par préfixation, suffixation et circumfixation |
| Distinction animé/inanimé | Les noms sont grammaticalement animés ou inanimés — cela affecte la conjugaison verbale, les démonstratifs et la pluralisation. La classification ne suit pas toujours l'animacité biologique (askiy « terre » est animé ; maskisin « chaussure » est aussi animé) |
| Obviation | Les références à la troisième personne sont classées par proximité/saillance. La distinction « proximal » et « oblatif » n'a pas d'équivalent en anglais |
| Données d'entraînement éparses | Les modèles de langage ont vu très peu de texte en cri des Plaines. Ce qu'ils ont vu peut mélanger les dialectes (dialecte Y, dialecte TH) ou les orthographies (SRO vs. syllabiques) |
| Baseline commerciale faible | OMT-1600 inclut CRK au niveau R1 (Très peu de ressources) avec entraînement sur domaine biblique et tokenisation BPE standard. Google Translate ne supporte pas le cri. L'évaluation indépendante avec des métriques morphologiques est ce qui rend ces baselines significatives. |
La traduction des langues polysynthétiques reste un problème de recherche ouvert — OMT-1600 inclut les langues polysynthétiques mais utilise la tokenisation BPE standard (vocabulaire de 256K) sans conscience morphologique, ce qui signifie qu'il déchire les mots compositionnels en fragments d'octets dénués de sens.
Travaux antérieurs : comment les gens ont abordé cela
Le FST d'ALTLab
La ressource informatique la plus importante pour le cri des Plaines est le transducteur à états finis (FST) développé par le Laboratoire de technologie linguistique de l'Alberta (ALTLab) à l'Université de l'Alberta, en collaboration avec Giellatekno à l'Université arctique UiT de Norvège.
Le FST d'ALTLab est un analyseur et générateur morphologique : étant donné un mot cri fléchi, il peut le décomposer en sa racine et ses étiquettes grammaticales, et étant donné une racine plus des étiquettes, il peut générer la forme fléchie correcte. C'est déterministe — pas de réseau de neurones, pas d'hallucination, pas de probabilité. Si le FST accepte un mot, ce mot est morphologiquement valide en cri.
C'est pourquoi le classement champollion suit le taux d'acceptation FST comme métrique. Une méthode de traduction qui produit des mots que le FST rejette produit du cri morphologiquement invalide — indépendamment de ce que dit le score chrF++.
Ressources clés d'ALTLab :
- itwêwina — un dictionnaire cri des Plaines–anglais intelligent alimenté par le FST
- Morphodict — plateforme de dictionnaire consciente de la morphologie en open source
- crk-db — base de données lexicale du cri des Plaines
- 21st Century Tools for Indigenous Languages — le contexte du projet plus large
Registres FST et morphologiques mondiaux
Le cri des Plaines n'est pas la seule langue disposant d'une infrastructure FST de haute qualité. Si vous souhaitez développer des pipelines de traduction pour d'autres langues peu dotées en ressources ou morphologiquement complexes, vous pouvez exploiter ces centres mondiaux établis :
- GiellaLT / Giellatekno (Université arctique UiT de Norvège) : Le plus grand référentiel d'analyseurs et générateurs morphologiques FST en open source, couvrant plus de 100 langues. Les domaines de focus incluent les langues sámi (
sme,smj,sma, etc.), les langues ouraliennes (Komi, Erzya, Oudmourte, etc.) et d'autres langues minoritaires/autochtones. Ils hébergent des corpus de texte traité publiquement (corpus-xxx) dans leur Organisation GitHub. - Le projet Apertium : Une plateforme de traduction automatique basée sur des règles en open source. Apertium maintient des analyseurs morphologiques FST hautement optimisés (utilisant
lttoolboxethfst) et des dictionnaires bilingues pour des dizaines de langues, y compris une large suite de langues turques (kazakh, tatar, kirghize, etc.) et de langues européennes minoritaires. Toutes les ressources sont publiques sur GitHub d'Apertium. - UniMorph (Morphologie universelle) : Un projet collaboratif fournissant des paradigmes morphologiques standardisés pour plus de 150 langues. L'ensemble de données est hébergé sur Hugging Face à unimorph/universal_morphologies. Si un binaire FST compilé n'est pas disponible pour une langue, les tableaux UniMorph peuvent être utilisés comme porte de recherche de base de données statique.
- Conseil national de recherches Canada (CNRC) : Offre des outils pour les langues autochtones canadiennes, y compris l'analyseur morphologique FST Uqailaut inuktitut et le massif Corpus parallèle Hansard du Nunavut (1,3 M paires de phrases alignées anglais-inuktitut).
Le corpus EdTeKLA
Le groupe de recherche EdTeKLA (également à UAlberta) a assemblé un corpus de langue cri des Plaines à partir de matériels éducatifs, de transcriptions audio et de sources communautaires. L'ensemble de données d'évaluation champollion EDTeKLA Dev v1 est dérivé de ce travail, sous licence CC BY-NC-SA 4.0.
Autres approches que les gens ont essayées ou pourraient essayer
Le classement est agnostique quant à la méthode. Voici les stratégies qui ont été explorées ou proposées pour la traduction automatique peu dotée en ressources, dont n'importe laquelle pourrait être soumise :
| Approche | Comment cela fonctionne | Avantages | Inconvénients |
|---|---|---|---|
| Incitation LLM accompagnée | Injecter des règles de grammaire, des dictionnaires et des paires d'exemples dans l'invite système | Rapide à itérer, aucun entraînement nécessaire | Le plafond de qualité est limité par les connaissances de base du LLM |
| Incitation few-shot | Inclure des traductions vérifiées comme exemples en contexte | Bon pour un style cohérent | Petite fenêtre de contexte ; les exemples ne doivent PAS provenir des données d'évaluation |
| Pipeline avec porte FST | Le LLM génère → le FST valide → rejette et réessaie la morphologie invalide | Garantit la validité morphologique | Nécessite une infrastructure FST ; les boucles de retry ajoutent de la latence et du coût |
| Recherche dans le dictionnaire + LLM | Forcer les termes connus d'un dictionnaire bilingue, laisser le LLM gérer le reste | Réduit les hallucinations pour les termes connus | La couverture du dictionnaire est toujours incomplète |
| Modèle affiné | Affiner un modèle ouvert (Llama, Mistral) sur du texte parallèle — juste pas sur les données d'évaluation | Potentiellement la plus haute qualité | Nécessite un corpus parallèle (rare) ; coûteux ; risque de surapprentissage |
| Modèles chaînés | Le modèle A génère une traduction brute → Le modèle B post-édite → Le modèle C note | Peut combiner les forces des spécialistes | Complexe ; lent ; coûteux |
| Hybride basé sur des règles + LLM | Utiliser des règles linguistiques pour les motifs connus, LLM pour tout le reste | Précis où les règles s'appliquent | Nécessite une expertise linguistique approfondie |
| Augmentation par rétrotraduction | Générer des données parallèles synthétiques en traduisant cri→anglais, puis en entraînant sur l'inverse | Élargit les données d'entraînement à bon marché | Amplifie les erreurs du modèle existant |
| Approche évolutionnaire | Générer des traductions candidates, les noter, muter les meilleurs performeurs, répéter | Peut découvrir des solutions nouvelles ; parallélisable | Coûteux en calcul ; nécessite une bonne fonction de fitness |
| Traduction partielle | Traduire manuellement un échantillon représentatif, prouver que votre méthode correspond à votre style sur celui-ci, puis traduire automatiquement le reste en masse | Combine la qualité humaine avec l'échelle machine | Nécessite un effort humain initial |
| JSON manuel / notation d'examen | Construire à la main un fichier JSON d'ensemble de données pour tester les réponses des étudiants sur un examen de langue, ou noter un lot de traductions humaines par rapport à un standard or | Zéro ML requis ; fonctionne pour l'éducation et l'assurance qualité | Ne s'adapte pas aux besoins de traduction continus |
C'est juste du JSON
Le harnais prend du JSON en entrée et produit du JSON en sortie. Le format d'ensemble de données est simple :
{
"entries": [
{ "id": 1, "source": "Hello", "reference": "tânisi" },
{ "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
]
}
Vous pouvez construire cela à la main. Vous pouvez l'exporter d'une feuille de calcul. Vous pouvez le générer à partir d'un corpus. Un professeur de langue pourrait l'utiliser pour noter les traductions des étudiants. Une agence de traduction pourrait l'utiliser pour évaluer les pigistes. Un laboratoire de recherche pourrait l'utiliser pour comparer les architectures de modèles. Le harnais ne se soucie pas d'où provient le JSON — il le note simplement.
Et parce que le cadre de déploiement en production prend la même interface de plugin, une méthode qui obtient un bon score dans le harnais se déploie sur votre site Web avec un changement de configuration. Prouvez-le et utilisez-le.
Les possibilités sont véritablement infinies. Si vous avez une idée, construisez-la, exécutez le harnais et soumettez vos scores.
Comment champollion s'intègre
champollion fournit la couche d'infrastructure — vous apportez la méthode.
Le système d'accompagnement
La méthode llm-coached de champollion vous permet d'injecter directement les connaissances linguistiques dans l'invite du LLM :
{
"grammar_rules": [
"Plains Cree is polysynthetic — a single word can express what English needs a full sentence for",
"Animate/inanimate noun distinction affects verb conjugation, demonstratives, and pluralization",
"Use SRO (Standard Roman Orthography) as the working script — syllabic conversion is handled by the deterministic converter",
"Obviation: when two third-person referents appear, the less salient one takes obviative marking (-a suffix on nouns, -iyiwa on verbs)"
],
"dictionary": {
"home": "kīwēwin",
"settings": "isi-nākatohkēwin",
"search": "nānātawāpahtam",
"welcome": "tānisi",
"dashboard": "kīskinwahamākēwin-māsinahikan"
},
"style_notes": "Use formal register appropriate for educational and community contexts. Preserve English technical terms in parentheses when no Cree equivalent exists or is widely accepted."
}
Les données d'accompagnement sont injectées dans chaque invite LLM pour la paire en:crk, donnant au modèle un contexte linguistique structuré qu'il n'aurait pas autrement. Voir Données d'accompagnement pour la spécification complète.
Registres
Le registre est la partie de l'invite système qui oriente le ton, la formalité et les conventions orthographiques. champollion est livré avec un registre du cri des Plaines :
nêhiyawêwin (Plains Cree). Use SRO (Standard Roman Orthography) as the working
script. Output will be converted to Syllabics via deterministic converter.
Professional register appropriate for educational and community contexts.
Vous pouvez remplacer ceci dans votre configuration pour expérimenter différentes stratégies d'incitation :
{
"languages": {
"crk": {
"register": "Casual Plains Cree (Y-dialect). Use SRO. Prefer everyday vocabulary over formal or archaic terms. Address the reader directly."
}
}
}
Différents registres produisent différents styles de traduction — et différents scores sur le classement. Chaque soumission enregistre le registre exact et l'invite système utilisée (sous forme de hachage SHA-256 dans la carte d'exécution), de sorte que les expériences sont reproductibles.
Conversion de script
Le cri des Plaines s'écrit dans deux scripts : Orthographe romane standard (SRO) et Syllabiques autochtones canadiennes. Le pipeline de champollion :
- Le LLM traduit en SRO (basé sur le latin, que les LLM gèrent mieux)
- La porte de qualité valide la sortie SRO
- Un convertisseur déterministe transforme SRO → Syllabiques
- Le texte converti est écrit sur le disque
Le convertisseur gère tous les diacritiques SRO (ê, î, ô, â pour les voyelles longues) et les mappe aux caractères syllabiques corrects. Voir Convertisseurs de script pour les détails techniques.
La boucle d'évaluation
Le harnais d'évaluation exécute votre méthode par rapport à l'ensemble de données d'évaluation et produit une carte d'exécution notée :
# Clone the harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install -e .
# Run a baseline experiment
python eval/baseline_experiment.py \
--dataset data/edtekla-dev-v1.json \
--model google/gemini-2.5-pro \
--condition coached-v7
# Run with FST validation (if you have an FST binary)
python eval/baseline_experiment.py \
--dataset data/edtekla-dev-v1.json \
--fst-analyzer ./bin/crk-analyzer \
--condition fst-gated-v1
Le drapeau --condition est une étiquette que vous choisissez. Il apparaît sur le classement pour que les gens puissent voir quelle stratégie d'incitation vous avez utilisée. Le harnais enregistre l'invite système complète dans la carte d'exécution, de sorte que votre approche exacte est reproductible.
:::tip Expérimentez librement, soumettez votre meilleur Le harnais est conçu pour une itération rapide. Exécutez des dizaines d'expériences avec différents modèles, données d'accompagnement, registres et conditions. Soumettez au classement uniquement lorsque vous avez quelque chose dont vous êtes fier. :::
Principes OCAP
champollion est conçu pour soutenir la souveraineté des données autochtones. Les principes OCAP (Propriété, Contrôle, Accès, Possession) guident notre approche de la technologie linguistique pour les communautés autochtones :
| Principe | Comment champollion le soutient |
|---|---|
| Propriété | Les communautés linguistiques possèdent leurs données linguistiques. champollion n'appelle jamais à la maison ni ne transmet les données à nos serveurs |
| Contrôle | La méthode API permet aux communautés d'héberger leur propre pipeline de traduction — nous fournissons l'interface, elles contrôlent l'implémentation |
| Accès | Les communautés décident qui peut utiliser leur méthode. L'API peut être protégée par authentification |
| Possession | Toutes les données de traduction restent dans le système de fichiers de votre projet. Le système de provenance suit d'où provient chaque traduction |
L'architecture de plugin signifie qu'une communauté peut construire une méthode qui incorpore en interne des connaissances sacrées ou restreintes, exposer uniquement l'API de traduction et maintenir le contrôle total sur ses ressources linguistiques.
La vision : ce qui vient ensuite
Le cri des Plaines est la première cible. Une fois que le pipeline est validé et que la communauté est satisfaite de la qualité, la même architecture s'étend à d'autres langues polysynthétiques disposant d'une infrastructure FST :
- Autres langues algonquiennes : cri des bois, cri des marais, ojibwé, pieds-noirs
- Langues inuit : inuktitut, inuinnaqtun (qui utilisent également des scripts syllabiques)
- Autres familles linguistiques : toute langue disposant d'un analyseur FST peut utiliser le pipeline avec porte FST
Le classement est limité à la paire linguistique. À mesure que de nouveaux ensembles de données d'évaluation sont contribués par les communautés linguistiques, de nouvelles pistes de classement s'ouvrent automatiquement.
C'est une invitation ouverte. Si vous travaillez avec une langue peu dotée en ressources — en tant que chercheur, membre de la communauté, étudiant ou simplement quelqu'un qui s'en soucie — champollion vous donne les outils pour construire quelque chose de réel, le mesurer honnêtement et le partager avec le monde. Le Classement des méthodes attend votre soumission.
Voir aussi
- Classement des méthodes — soumettez vos scores et voyez comment les méthodes se comparent
- Évaluation de la traduction automatique — ce qui fait une bonne méthode, ce qui est disqualifié
- Harnais d'évaluation — comment exécuter des expériences
- Ensembles de données d'évaluation — EDTeKLA Dev v1 et FLORES+
- Données d'accompagnement — comment structurer les connaissances linguistiques pour le LLM
- Convertisseurs de script — le pipeline SRO→Syllabiques
- Servir une méthode via API — héberger une traduction contrôlée par la communauté
- ALTLab — le Laboratoire de technologie linguistique de l'Alberta
- EdTeKLA — le groupe de recherche Technologie éducative, Connaissance et Langue
- Dictionnaire itwêwina — dictionnaire cri des Plaines–anglais alimenté par FST