Partielle Übersetzung (Mensch + Maschine)
Die Idee: Übersetzen Sie eine repräsentative Stichprobe manuell, weisen Sie nach, dass Ihre maschinelle Methode dem menschlichen Stil auf dieser Stichprobe entspricht, und übersetzen Sie anschließend die verbleibende Masse automatisch. So verbinden Sie menschliche Qualität mit maschineller Skalierbarkeit — der Mensch setzt den Maßstab, die Maschine folgt ihm.
:::info Dies ist ein Kochbuch, keine fertige Implementierung Dieser Leitfaden skizziert den hybriden Mensch-Maschine-Arbeitsablauf. Er ist besonders relevant für Übersetzungsagenturen, Sprachmittler aus der Gemeinschaft sowie für Bildungskontexte. :::
Wann sollten Sie dies verwenden
- Sie haben Zugang zu fließend sprechenden Personen, aber deren Zeit ist begrenzt
- Sie müssen ein großes Volumen übersetzen, aber nur ein kleiner Teil muss perfekt sein
- Sie möchten eine Qualitätsbasis mit menschlicher Übersetzung etablieren und anschließend mit MT skalieren
- Sie arbeiten in einem Bildungs- oder Gemeinschaftskontext, in dem eine menschliche Überprüfung einer Teilmenge machbar ist
Funktionsweise
[Full corpus: 1,000 entries]
│
├── [100 entries] ──→ Human translator ──→ Gold translations
│ │
│ ▼
│ Train / prompt machine
│ method to match style
│ │
└── [900 entries] ──→ Machine method ──→ Auto translations
│
▼
[Optional: human review
of flagged entries]
- Wählen Sie eine repräsentative Stichprobe aus — decken Sie verschiedene Satztypen, Längen und Themen ab
- Übersetzen Sie die Stichprobe von Hand — legen Sie den Goldstandard für Stil, Register und Terminologie fest
- Konfigurieren Sie Ihre maschinelle Methode — verwenden Sie die menschlichen Übersetzungen als Coaching-Daten, Few-Shot-Beispiele oder Fine-Tuning-Daten
- Bewerten Sie die Maschine anhand der menschlichen Stichprobe — entspricht die Maschine dem Stil des Menschen?
- Übersetzen Sie den Rest automatisch — sofern die maschinelle Qualität auf der Stichprobe akzeptabel ist
- Optionale menschliche Überprüfung — markieren Sie Ausgaben mit geringer Konfidenz für die Überprüfung durch sprachkundige Personen
Qualitätssicherung: Der Stilabgleichstest
# Translate the human-translated sample with your machine method
python eval/baseline_experiment.py \
--dataset data/human-sample.json \
--condition coached-v3
# Compare: does the machine match the human translator's choices?
# Look at: chrF++ (similarity), FST acceptance (validity),
# and qualitative patterns (register, formality, terminology)
Auswahl der Stichprobe
Decken Sie die Verteilung ab. Ihre 100 Einträge sollten Folgendes umfassen:
- Kurze Wendungen (1–3 Wörter) und vollständige Sätze
- Häufiges Vokabular und domänenspezifische Begriffe
- Einfache und komplexe Strukturen
- Mehrere grammatikalische Merkmale (Fragen, Imperative, Konditionalsätze)
Picken Sie nicht die einfachen Einträge heraus. Die Stichprobe muss Einträge enthalten, mit denen Ihre Methode voraussichtlich Schwierigkeiten hat — genau dort ist menschliche Qualität am wichtigsten.
Der Arbeitsablauf zur gemeinschaftlichen Überprüfung
Für indigene Sprachgemeinschaften berücksichtigt dieser Ansatz die Zeit der sprachkundigen Personen:
- Eine sprachkundige Person übersetzt 50–100 Einträge (2–4 Stunden konzentrierter Arbeit)
- Die Maschine übersetzt die verbleibenden 900 und verwendet dabei die Arbeit der sprachkundigen Person als Coaching-Daten
- Die sprachkundige Person überprüft die markierten Einträge — nur diejenigen, bei denen die Maschine am wenigsten zuversichtlich war (weitere 1–2 Stunden)
- Ergebnis: 1.000 Übersetzungen in nahezu menschlicher Qualität mit etwa 5 statt etwa 50 Stunden Aufwand der sprachkundigen Person
Vor- und Nachteile
| ✅ Verbindet menschliche Qualität mit maschineller Skalierbarkeit | ❌ Erfordert anfänglichen menschlichen Aufwand |
| ✅ Berücksichtigt die begrenzte Verfügbarkeit sprachkundiger Personen | ❌ Die Maschine erfasst möglicherweise nicht alle stilistischen Nuancen |
| ✅ Natürlicher Arbeitsablauf zur Qualitätssicherung | ❌ Die Auswahl der Stichprobe wirkt sich auf die Gesamtqualität aus |
| ✅ Hervorragend geeignet für Gemeinschafts-/Bildungskontexte | ❌ Engpass bei der menschlichen Überprüfung markierter Einträge |
Lässt sich gut kombinieren mit
- Coached LLM Prompting — menschliche Übersetzungen fließen in die Coaching-Daten ein
- Few-Shot Prompting — menschliche Übersetzungen als kontextbezogene Beispiele
- Corpus Creation — die menschliche Stichprobe IST Korpuserstellung
Siehe auch
- Für Sprachgemeinschaften — Modell zur Einbindung der Gemeinschaft
- Data Sovereignty — Eigentum an Übersetzungsdaten
- Eine ressourcenarme Sprache unterstützen