Modèle Affiné
L'idée : Affiner un modèle à poids ouvert (Llama, Mistral, Gemma) sur du texte parallèle pour votre paire de langues cible. Potentiellement le plafond de qualité le plus élevé, mais nécessite des données parallèles qui peuvent être rares — et les règles de contamination des données d'évaluation sont strictes.
:::info Ceci est un guide pratique, pas une implémentation finalisée Ce guide décrit l'approche, les exigences en matière de données et les pièges potentiels. L'infrastructure d'entraînement réelle sort du cadre du harnais. :::
Quand l'utiliser
- Vous avez accès à un corpus parallèle (des centaines à des milliers de paires de phrases) qui est complètement indépendant de l'ensemble de données d'évaluation
- Vous avez un accès GPU pour l'entraînement (matériel local, cloud ou cluster de calcul universitaire)
- Vous souhaitez le plafond de qualité le plus élevé pour une paire de langues spécifique et êtes disposé à investir dans l'entraînement
- D'autres approches (incitation guidée, few-shot) ont atteint un plateau de qualité
Comment cela fonctionne
- Assembler les données parallèles — paires de phrases source-cible provenant de sources indépendantes (manuels scolaires, archives communautaires, dossiers du Hansard, textes religieux, matériels éducatifs)
- Préparer le format d'entraînement — format d'instruction-tuning (invite système + entrée + sortie attendue)
- Affiner — LoRA/QLoRA sur un modèle de base (la quantification 4-bit rend cela réalisable sur des GPU grand public)
- Évaluer avec le harnais — exécuter le modèle affiné via le harnais d'évaluation
- Itérer — ajuster les données d'entraînement, les hyperparamètres, la sélection du modèle de base
Exigences en matière de données
| Taille du corpus | À quoi s'attendre |
|---|---|
| 50–200 paires | Amélioration marginale par rapport au zero-shot ; risque de surapprentissage |
| 200–1 000 paires | Amélioration notable du style et de la terminologie |
| 1 000–5 000 paires | Gains de qualité significatifs pour la paire de langues spécifique |
| 5 000+ paires | Approche du plafond de qualité du modèle de base |
:::danger Contamination des données d'évaluation = disqualification Vos données d'entraînement NE DOIVENT PAS chevaucher l'ensemble de données d'évaluation. Ni les phrases, ni la liste de vocabulaire, ni les paraphrases du même contenu. Le harnais crée une empreinte de vos résultats ; le chevauchement statistique est détectable. Si vous n'êtes pas certain qu'une source de données est indépendante, préférez l'exclusion. Voir Règles du Classement. :::
Squelette : Affinage LoRA
# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)
# 1. Format your parallel data as instruction pairs
training_data = [
{"instruction": "Translate to Plains Cree (SRO)",
"input": "The children are playing",
"output": "awâsisak mêtawêwak"},
# ... hundreds more
]
# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5
# 3. Export and serve via the harness TranslationMethod protocol
Où trouver des données parallèles
- Archives communautaires — matériels éducatifs, documents gouvernementaux, publications bilingues
- Hansard du Nunavut — 1,3 M paires alignées anglais-inuktitut (RNC Canada)
- Traductions bibliques — disponibles pour de nombreuses langues peu dotées en ressources, mais spécifiques au domaine
- Manuels scolaires — souvent bilingues dans les contextes d'apprentissage des langues
- Créer le vôtre — voir Guide de Création de Corpus
Avantages et inconvénients
| ✅ Plafond de qualité le plus élevé | ❌ Nécessite des données parallèles (rares pour les LRL) |
| ✅ Le modèle apprend les motifs spécifiques à la langue | ❌ Coûts GPU (bien que LoRA aide) |
| ✅ Peut surpasser les approches incitées | ❌ Risque de surapprentissage avec de petits ensembles de données |
| ✅ Coût d'entraînement unique, puis inférence bon marché | ❌ Règles strictes de contamination d'évaluation |
S'associe bien avec
- Création de Corpus — construire les données d'entraînement dont vous avez besoin
- Rétrotraduction — élargir votre corpus parallèle synthétiquement
- Pipeline Contrôlé par FST — modèle affiné + validation morphologique
- Incitation Guidée d'LLM — incitation guidée sur un modèle de base affiné
Voir aussi
- Ensembles de Données d'Évaluation — sachez ce que vous NE POUVEZ PAS utiliser pour l'entraînement
- Règles du Classement — politique de contamination
- Soutenir une Langue Peu Dotée en Ressources