Terugvertaling-augmentatie
Het idee: Genereer synthetische parallelle data door bestaande doeltaaltekst terug te vertalen naar de brontaal, en gebruik deze synthetische paren vervolgens om een voorwaarts model te trainen of te prompten. Dit breidt uw parallelle corpus goedkoop uit — maar met kanttekeningen over kwaliteit.
:::info Dit is een kookboek, geen afgeronde implementatie Deze gids schetst de strategie en de kritieke valkuilen. Terugvertaling is krachtig, maar kan fouten versterken als het niet zorgvuldig wordt toegepast. :::
Wanneer dit te gebruiken
- U beschikt over eentalige doeltaaltekst maar beperkte parallelle data
- U wilt een trainingskorpus uitbreiden voor fine-tuning zonder handmatige vertaling
- U heeft meer few-shot-voorbeelden nodig maar kunt niet snel genoeg menselijke vertalingen verkrijgen
- U bereid bent de synthetische data agressief te kwaliteitsfilteren
Hoe het werkt
[Target-language text] "awâsisak mêtawêwak"
│
▼
[Back-translate to source] "The children are playing" (via LLM or MT API)
│
▼
[Create synthetic pair] ("The children are playing", "awâsisak mêtawêwak")
│
▼
[Quality filter] Keep only high-confidence pairs
│
▼
[Use for training/prompting] Expand your parallel corpus
- Verzamel eentalige tekst — doeltaalboeken, artikelen, transcripten, sociale media
- Terugvertalen — gebruik een LLM of MT API om elke zin naar de brontaal te vertalen
- Kwaliteitsfiltering — vertaal heen en terug (vertaal opnieuw terug) en vergelijk; bewaar paren waarbij de retourvertaling ≈ het origineel is
- Gebruik het synthetische corpus — voor fine-tuning, few-shot-voorbeelden of coachingdata
Kwaliteitsfiltering: de retourvertalingstest
# Pseudo-code for round-trip quality filtering
for target_text in monolingual_corpus:
# Back-translate: target → source
synthetic_source = translate(target_text, "crk", "en")
# Forward-translate: source → target
round_trip = translate(synthetic_source, "en", "crk")
# Compare round-trip to original
chrf_score = compute_chrf(target_text, round_trip)
if chrf_score > 0.70: # High similarity = high-quality pair
parallel_corpus.append((synthetic_source, target_text))
Kritieke valkuil: foutversterking
:::warning Terugvertaling versterkt bestaande modelvooroordelen Als uw terugvertaalmodel consequent dezelfde fouten maakt, zal uw synthetische corpus die fouten als "correct" coderen. Dit creëert een feedbacklus: trainen op slechte data → slechtere vertalingen produceren → slechtere synthetische data genereren. Filter altijd agressief op kwaliteit en meng synthetische data met geverifieerde menselijke vertalingen. :::
Waar u eentalige tekst kunt vinden
- Gemeenschapsnieuwsbrieven, kranten en publicaties
- Overheidsdocumenten in de doeltaal (bijv. Nunavut Hansard voor Inuktitut)
- Educatief materiaal en leerboeken
- Religieuze teksten (voor veel talen ruim beschikbaar)
- Sociale media (met passende toestemmingen en kwaliteitsfiltering)
- Getranscribeerde audio/video van taalprogramma's
Voor- en nadelen
| ✅ Breidt trainingsdata goedkoop uit | ❌ Versterkt modelfouten indien niet gefilterd |
| ✅ Maakt gebruik van overvloedige eentalige tekst | ❌ Kwaliteitsplafond beperkt door het terugvertaalmodel |
| ✅ Eenvoudig op grote schaal te genereren | ❌ Retourvertalingsfiltering is rekenintensief |
| ✅ Complementeert andere benaderingen | ❌ Synthetische data is nooit zo goed als menselijke vertaling |
Combineert goed met
- Fine-Tuned Model — terugvertaling creëert trainingsdata voor fine-tuning
- Corpuscreatie — synthetische data vult door mensen gecreëerde corpora aan
- Coached LLM Prompting — synthetische voorbeelden kunnen coachingwoordenboeken informeren
Zie ook
- Evaluatiedatasets — synthetische data mag niet overlappen met evaluatiedata
- Leaderboard-regels — beleid inzake contaminatie
- Ondersteuning van een taal met weinig middelen