Accéder au contenu principal

Modèle Affiné

L'idée : Affiner un modèle à poids ouvert (Llama, Mistral, Gemma) sur du texte parallèle pour votre paire de langues cible. Potentiellement le plafond de qualité le plus élevé, mais nécessite des données parallèles qui peuvent être rares — et les règles de contamination des données d'évaluation sont strictes.

:::info Ceci est un guide pratique, pas une implémentation finalisée Ce guide décrit l'approche, les exigences en matière de données et les pièges potentiels. L'infrastructure d'entraînement réelle sort du cadre du harnais. :::

Quand l'utiliser

  • Vous avez accès à un corpus parallèle (des centaines à des milliers de paires de phrases) qui est complètement indépendant de l'ensemble de données d'évaluation
  • Vous avez un accès GPU pour l'entraînement (matériel local, cloud ou cluster de calcul universitaire)
  • Vous souhaitez le plafond de qualité le plus élevé pour une paire de langues spécifique et êtes disposé à investir dans l'entraînement
  • D'autres approches (incitation guidée, few-shot) ont atteint un plateau de qualité

Comment cela fonctionne

  1. Assembler les données parallèles — paires de phrases source-cible provenant de sources indépendantes (manuels scolaires, archives communautaires, dossiers du Hansard, textes religieux, matériels éducatifs)
  2. Préparer le format d'entraînement — format d'instruction-tuning (invite système + entrée + sortie attendue)
  3. Affiner — LoRA/QLoRA sur un modèle de base (la quantification 4-bit rend cela réalisable sur des GPU grand public)
  4. Évaluer avec le harnais — exécuter le modèle affiné via le harnais d'évaluation
  5. Itérer — ajuster les données d'entraînement, les hyperparamètres, la sélection du modèle de base

Exigences en matière de données

Taille du corpusÀ quoi s'attendre
50–200 pairesAmélioration marginale par rapport au zero-shot ; risque de surapprentissage
200–1 000 pairesAmélioration notable du style et de la terminologie
1 000–5 000 pairesGains de qualité significatifs pour la paire de langues spécifique
5 000+ pairesApproche du plafond de qualité du modèle de base

:::danger Contamination des données d'évaluation = disqualification Vos données d'entraînement NE DOIVENT PAS chevaucher l'ensemble de données d'évaluation. Ni les phrases, ni la liste de vocabulaire, ni les paraphrases du même contenu. Le harnais crée une empreinte de vos résultats ; le chevauchement statistique est détectable. Si vous n'êtes pas certain qu'une source de données est indépendante, préférez l'exclusion. Voir Règles du Classement. :::

Squelette : Affinage LoRA

# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)

# 1. Format your parallel data as instruction pairs
training_data = [
{"instruction": "Translate to Plains Cree (SRO)",
"input": "The children are playing",
"output": "awâsisak mêtawêwak"},
# ... hundreds more
]

# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5

# 3. Export and serve via the harness TranslationMethod protocol

Où trouver des données parallèles

  • Archives communautaires — matériels éducatifs, documents gouvernementaux, publications bilingues
  • Hansard du Nunavut — 1,3 M paires alignées anglais-inuktitut (RNC Canada)
  • Traductions bibliques — disponibles pour de nombreuses langues peu dotées en ressources, mais spécifiques au domaine
  • Manuels scolaires — souvent bilingues dans les contextes d'apprentissage des langues
  • Créer le vôtre — voir Guide de Création de Corpus

Avantages et inconvénients

✅ Plafond de qualité le plus élevé❌ Nécessite des données parallèles (rares pour les LRL)
✅ Le modèle apprend les motifs spécifiques à la langue❌ Coûts GPU (bien que LoRA aide)
✅ Peut surpasser les approches incitées❌ Risque de surapprentissage avec de petits ensembles de données
✅ Coût d'entraînement unique, puis inférence bon marché❌ Règles strictes de contamination d'évaluation

S'associe bien avec

Voir aussi