Verfijnd Model

Het idee: Verfijn een open-gewicht model (Llama, Mistral, Gemma) op parallelle tekst voor uw doeltaalpaar. Potentieel het hoogste kwaliteitsplafond, maar vereist parallelle data die schaars kan zijn — en de regels omtrent besmetting van evaluatiedata zijn strikt.

:::info Dit is een kookboek, geen voltooide implementatie Deze gids beschrijft de aanpak, datavereisten en valkuilen. De daadwerkelijke trainingsinfrastructuur valt buiten het bereik van de harness. :::

Wanneer Dit Te Gebruiken

U heeft toegang tot een parallel corpus (honderden tot duizenden zinsparen) dat volledig onafhankelijk is van de evaluatiedataset
U heeft GPU-toegang voor training (lokale hardware, cloud of universitair rekencluster)
U wilt het hoogste kwaliteitsplafond voor een specifiek taalpaar en bent bereid te investeren in training
Andere benaderingen (coached prompting, few-shot) hebben een kwaliteitsplateau bereikt

Hoe Het Werkt

Stel parallelle data samen — bron-doelzinsparen uit onafhankelijke bronnen (leerboeken, gemeenschapsarchieven, Hansard-verslagen, religieuze teksten, educatief materiaal)
Bereid het trainingsformaat voor — instructie-afstemmingsformaat (systeemprompt + invoer + verwachte uitvoer)
Verfijn — LoRA/QLoRA op een basismodel (4-bit kwantisering maakt dit haalbaar op consumenten-GPU's)
Evalueer met de harness — voer het verfijnde model uit via de eval harness
Itereer — pas trainingsdata, hyperparameters en basismodelselectie aan

Datavereisten

Corpusomvang	Wat te Verwachten
50–200 paren	Marginale verbetering ten opzichte van zero-shot; kan overfitten
200–1.000 paren	Merkbare verbetering in stijl en terminologie
1.000–5.000 paren	Significante kwaliteitswinst voor het specifieke taalpaar
5.000+ paren	Nadering van het kwaliteitsplafond voor het basismodel

:::danger Besmetting van evaluatiedata = diskwalificatie Uw trainingsdata MAG NIET overlappen met de evaluatiedataset. Niet de zinnen, niet de woordenlijst, niet parafrasen van dezelfde inhoud. De harness maakt vingerafdrukken van uw uitvoer; statistische overlap is detecteerbaar. Als u twijfelt of een databron onafhankelijk is, kies dan voor uitsluiting. Zie Leaderboard-regels. :::

Skelet: LoRA-verfijning

# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)

# 1. Format your parallel data as instruction pairs
training_data = [
    {"instruction": "Translate to Plains Cree (SRO)", 
     "input": "The children are playing",
     "output": "awâsisak mêtawêwak"},
    # ... hundreds more
]

# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5

# 3. Export and serve via the harness TranslationMethod protocol

Waar Parallelle Data Te Vinden

Gemeenschapsarchieven — educatief materiaal, overheidsdocumenten, tweetalige publicaties
Nunavut Hansard — 1,3 miljoen uitgelijnde Engels-Inuktitut-paren (NRC Canada)
Bijbelvertalingen — beschikbaar voor veel laagresourcetalen, maar domeinspecifiek
Educatieve leerboeken — vaak tweetalig voor taalleersituaties
Maak uw eigen — zie Corpuscreatiegids

Voor- en Nadelen


✅ Hoogste kwaliteitsplafond	❌ Vereist parallelle data (schaars voor LRL's)
✅ Model leert taalspecifieke patronen	❌ GPU-kosten (hoewel LoRA helpt)
✅ Kan gestuurde benaderingen overtreffen	❌ Overfittingrisico bij kleine datasets
✅ Eenmalige trainingskosten, daarna goedkope inferentie	❌ Strikte regels omtrent evaluatiebesmetting

Combineert Goed Met

Corpuscreatie — bouw de trainingsdata die u nodig heeft
Terugvertaling — breid uw parallel corpus synthetisch uit
FST-Gated Pipeline — verfijnd model + morfologische validatie
Coached LLM Prompting — coaching bovenop een verfijnd basismodel

Zie Ook

Evaluatiedatasets — weet wat u NIET op mag trainen
Leaderboard-regels — beleid omtrent besmetting
Ondersteuning van een Laagresourcetaal

Wanneer Dit Te Gebruiken​

Hoe Het Werkt​

Datavereisten​

Skelet: LoRA-verfijning​

Waar Parallelle Data Te Vinden​

Voor- en Nadelen​

Combineert Goed Met​

Zie Ook​