Verfijnd Model
Het idee: Verfijn een open-gewicht model (Llama, Mistral, Gemma) op parallelle tekst voor uw doeltaalpaar. Potentieel het hoogste kwaliteitsplafond, maar vereist parallelle data die schaars kan zijn — en de regels omtrent besmetting van evaluatiedata zijn strikt.
:::info Dit is een kookboek, geen voltooide implementatie Deze gids beschrijft de aanpak, datavereisten en valkuilen. De daadwerkelijke trainingsinfrastructuur valt buiten het bereik van de harness. :::
Wanneer Dit Te Gebruiken
- U heeft toegang tot een parallel corpus (honderden tot duizenden zinsparen) dat volledig onafhankelijk is van de evaluatiedataset
- U heeft GPU-toegang voor training (lokale hardware, cloud of universitair rekencluster)
- U wilt het hoogste kwaliteitsplafond voor een specifiek taalpaar en bent bereid te investeren in training
- Andere benaderingen (coached prompting, few-shot) hebben een kwaliteitsplateau bereikt
Hoe Het Werkt
- Stel parallelle data samen — bron-doelzinsparen uit onafhankelijke bronnen (leerboeken, gemeenschapsarchieven, Hansard-verslagen, religieuze teksten, educatief materiaal)
- Bereid het trainingsformaat voor — instructie-afstemmingsformaat (systeemprompt + invoer + verwachte uitvoer)
- Verfijn — LoRA/QLoRA op een basismodel (4-bit kwantisering maakt dit haalbaar op consumenten-GPU's)
- Evalueer met de harness — voer het verfijnde model uit via de eval harness
- Itereer — pas trainingsdata, hyperparameters en basismodelselectie aan
Datavereisten
| Corpusomvang | Wat te Verwachten |
|---|---|
| 50–200 paren | Marginale verbetering ten opzichte van zero-shot; kan overfitten |
| 200–1.000 paren | Merkbare verbetering in stijl en terminologie |
| 1.000–5.000 paren | Significante kwaliteitswinst voor het specifieke taalpaar |
| 5.000+ paren | Nadering van het kwaliteitsplafond voor het basismodel |
:::danger Besmetting van evaluatiedata = diskwalificatie Uw trainingsdata MAG NIET overlappen met de evaluatiedataset. Niet de zinnen, niet de woordenlijst, niet parafrasen van dezelfde inhoud. De harness maakt vingerafdrukken van uw uitvoer; statistische overlap is detecteerbaar. Als u twijfelt of een databron onafhankelijk is, kies dan voor uitsluiting. Zie Leaderboard-regels. :::
Skelet: LoRA-verfijning
# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)
# 1. Format your parallel data as instruction pairs
training_data = [
{"instruction": "Translate to Plains Cree (SRO)",
"input": "The children are playing",
"output": "awâsisak mêtawêwak"},
# ... hundreds more
]
# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5
# 3. Export and serve via the harness TranslationMethod protocol
Waar Parallelle Data Te Vinden
- Gemeenschapsarchieven — educatief materiaal, overheidsdocumenten, tweetalige publicaties
- Nunavut Hansard — 1,3 miljoen uitgelijnde Engels-Inuktitut-paren (NRC Canada)
- Bijbelvertalingen — beschikbaar voor veel laagresourcetalen, maar domeinspecifiek
- Educatieve leerboeken — vaak tweetalig voor taalleersituaties
- Maak uw eigen — zie Corpuscreatiegids
Voor- en Nadelen
| ✅ Hoogste kwaliteitsplafond | ❌ Vereist parallelle data (schaars voor LRL's) |
| ✅ Model leert taalspecifieke patronen | ❌ GPU-kosten (hoewel LoRA helpt) |
| ✅ Kan gestuurde benaderingen overtreffen | ❌ Overfittingrisico bij kleine datasets |
| ✅ Eenmalige trainingskosten, daarna goedkope inferentie | ❌ Strikte regels omtrent evaluatiebesmetting |
Combineert Goed Met
- Corpuscreatie — bouw de trainingsdata die u nodig heeft
- Terugvertaling — breid uw parallel corpus synthetisch uit
- FST-Gated Pipeline — verfijnd model + morfologische validatie
- Coached LLM Prompting — coaching bovenop een verfijnd basismodel
Zie Ook
- Evaluatiedatasets — weet wat u NIET op mag trainen
- Leaderboard-regels — beleid omtrent besmetting
- Ondersteuning van een Laagresourcetaal