Protokoll zur Validierung durch Sprecher

Zweck. Dieses Dokument definiert genau, was wir von zweisprachigen Cree-Englisch-Sprechern benötigen, um die LYSS-Evaluationsmetriken zu validieren. Ohne diese Validierung sind unsere automatisierten Bewertungen technische Schätzungen und keine nachgewiesenen Qualitätsmessungen. Dies ist die mit Abstand wichtigste Lücke im Projekt.

Zielgruppe. Partner aus der Gemeinschaft, potenzielle Mitwirkende, Förderbegutachter und das Projektteam.

Zuletzt aktualisiert: 2026-06-07

1. Warum wir Sprecher benötigen

Das LYSS-Evaluationsframework (Linguistically-informed Yield & Structural Scoring) berechnet automatisierte Qualitätsbewertungen für Übersetzungen vom Englischen ins Plains Cree. Es verwendet drei zentrale Signale:

LYSS-fst: Enthält die Ausgabe gültige Cree-Wörter? (geprüft durch den GiellaLT Finite-State-Transducer)
LYSS-eq: Ist die Ausgabe eine akzeptable Variante der Referenzübersetzung? (geprüft durch die Äquivalenzklassen des Linters)
LYSS-sem: Bewahrt die Ausgabe die Bedeutung des Quelltextes? (geprüft durch den semantischen Validator)

Diese Metriken erzeugen Zahlen. Wir wissen nicht, ob diese Zahlen etwas bedeuten. Der FST kann gültige Wörter ablehnen, die er nicht erkennt (Lehnwörter, Neologismen, Eigennamen). Der Linter kann gültige Äquivalenzen übersehen oder ungültige akzeptieren. Der semantische Validator kann die Bedeutung falsch einschätzen. Solange zweisprachige Sprecher uns nicht mitteilen, ob unsere automatisierten Bewertungen ihrer menschlichen Beurteilung der Übersetzungsqualität entsprechen, raten wir nur.

Jede bedeutende MT-Evaluationsmetrik (BLEU, COMET, chrF++) wurde validiert, indem automatisierte Bewertungen mit Tausenden menschlicher Qualitätsbeurteilungen verglichen wurden. Wir benötigen dasselbe – in geringerem Umfang, da unsere Ressourcen begrenzt sind, aber mit derselben Stringenz.

2. Was wir benötigen: Drei Aufgaben

Aufgabe A: Bewertung der Übersetzungsqualität (Primär – ~8 Stunden insgesamt)

Was: Bewertung von 200 maschinell erzeugten Übersetzungen vom Englischen ins Cree anhand von zwei Skalen.

Wer: mindestens 3 zweisprachige Plains-Cree-Englisch-Sprecher mit Lesefertigkeit in SRO (Standard Roman Orthography).

Wie es funktioniert:

Wir stellen eine Tabelle oder ein Webformular mit 200 Zeilen bereit. Jede Zeile enthält:
- Den englischen Quellsatz
- Eine maschinell erzeugte Cree-Übersetzung
- (Optional) eine Cree-Referenzübersetzung zum Vergleich

Für jede Übersetzung bewertet der Sprecher zwei Aspekte:

Adäquatheit (sagt sie das Richtige aus?):

Score	Bezeichnung	Bedeutung
1	Keine	Die Übersetzung hat nichts mit dem Quelltext zu tun
2	Wenig	Einige Wörter stimmen überein, aber die Gesamtbedeutung ist falsch
3	Viel	Die Kernbedeutung ist vorhanden, aber wichtige Teile fehlen oder sind falsch
4	Größtenteils	Fast alles ist korrekt, geringfügige Bedeutungslücken
5	Vollständig	Die Übersetzung vermittelt die Bedeutung des Quelltextes vollständig

Flüssigkeit (klingt sie wie echtes Cree?):

Score	Bezeichnung	Bedeutung
1	Unverständlich	Dies ist kein Cree
2	Unflüssig	Einzelne Wörter mögen Cree sein, aber der Satz ist fehlerhaft
3	Nicht muttersprachlich	Verständlich, aber eindeutig nicht so, wie ein Cree-Sprecher es ausdrücken würde
4	Gut	Natürlich klingend mit geringfügigen Unbeholfenheiten
5	Einwandfrei	Ein Cree-Sprecher hätte dies schreiben können

Optional kann der Sprecher eine Freitextanmerkung hinzufügen, die seine Bewertung erläutert (z. B. „falsche Kongruenz von belebt/unbelebt beim Verb“, „dies ist th-Dialekt, aber ich bewerte auf Grundlage des y-Dialekts“).

Zeitschätzung: ~2,5 Minuten pro Übersetzung × 200 Übersetzungen = ~8 Stunden. Kann auf mehrere Sitzungen aufgeteilt werden (z. B. 4 × 2-stündige Sitzungen über 2 Wochen).

Vergütung: 50–65 CAD/Stunde (entsprechend den Vergütungssätzen für Sprecher in BENCHMARK_SPEC §10.3). Gesamtsumme pro Sprecher: 400–520 CAD. Für 3 Sprecher: 1.200–1.560 CAD.

Was wir damit tun: Wir berechnen die Korrelation zwischen unseren automatisierten LYSS-Bewertungen und den Sprecherbewertungen. Wenn LYSS-fst mit den Flüssigkeitsbewertungen und LYSS-sem mit den Adäquatheitsbewertungen korreliert, sind die Metriken validiert. Falls nicht, wissen wir, wo wir sie korrigieren müssen.

Aufgabe B: Validierung der Linter-Äquivalenzen (~2 Stunden)

Was: Überprüfung von 50 Paaren von Cree-Übersetzungen, die unser Linter als „äquivalent“ klassifiziert, und Beurteilung, ob sie tatsächlich dasselbe bedeuten.

Wer: 1–2 zweisprachige Sprecher (können dieselben Sprecher wie in Aufgabe A sein).

Wie es funktioniert:

Wir stellen 50 Paare bereit. Jedes Paar enthält:
- Den englischen Quelltext
- Übersetzung A (die Referenz)
- Übersetzung B (eine Variante, die unser Linter als äquivalent bezeichnet)
- Den Äquivalenzgrund (z. B. „Permutation der Wortstellung“, „orthografische Variante“, „optionaler Partikel entfernt“)
Für jedes Paar beantwortet der Sprecher:
- Gleiche Bedeutung? Ja / Nein / Hängt vom Kontext ab
- Beide natürlich? Ja / A ist besser / B ist besser / Keine ist natürlich
- Anmerkungen (optionaler Freitext)

Zeitschätzung: ~2 Minuten pro Paar × 50 Paare = ~2 Stunden.

Vergütung: 50–65 CAD/Stunde × 2 Stunden = 100–130 CAD pro Sprecher.

Was wir damit tun: Wir berechnen die Präzision jeder Äquivalenzklasse. Wenn Sprecher angeben, dass 90 % der Äquivalenzen vom Typ „Wortstellung“ tatsächlich äquivalent sind, ist diese Klasse validiert. Wenn sie angeben, dass 40 % der Äquivalenzen vom Typ „Lemma-Synonym“ falsch sind, wissen wir, dass wir diese Klasse korrigieren oder entfernen müssen.

Aufgabe C: Überprüfung von FST-Falschablehnungen (~1,5 Stunden)

Was: Überprüfung von 100 Cree-Wörtern, die der FST-Analysator ablehnt (als ungültige Cree-Wörter einstuft), und Beurteilung, ob sie tatsächlich gültig sind.

Wer: 1 zweisprachiger Sprecher mit fundierten Kenntnissen des Cree-Wortschatzes.

Wie es funktioniert:

Wir lassen den FST-Analysator auf unserem 436 Einträge umfassenden EDTeKLA-Goldstandard-Korpus laufen und erfassen jedes Wort, das er ablehnt.
Wir legen dem Sprecher bis zu 100 abgelehnte Wörter mit ihrem Satzkontext vor.
Für jedes Wort beantwortet der Sprecher:
- Ist dies ein gültiges Cree-Wort? Ja / Nein / Unsicher
- Falls ja, welcher Art? Etabliertes Wort / Lehnwort / Name / Dialektale Form / Neologismus / Sonstiges
- Anmerkungen (optional)

Zeitschätzung: ~1 Minute pro Wort × 100 Wörter = ~1,5 Stunden.

Vergütung: 50–65 CAD/Stunde × 1,5 Stunden = 75–100 CAD.

Was wir damit tun: Wir berechnen die Falschablehnungsrate des FST. Wenn der FST 50 Wörter ablehnt und Sprecher angeben, dass 30 davon gültig sind, beträgt die Falschablehnungsrate 60 % – inakzeptabel hoch und erfordert eine Allowlist für Lehnwörter/Ausnahmen. Wenn Sprecher angeben, dass nur 5 gültig sind, beträgt die Falschablehnungsrate 10 % – die Metrik ist zuverlässig.

3. Gesamter Zeitaufwand der Sprecher

Aufgabe	Benötigte Sprecher	Stunden pro Sprecher	Kosten pro Sprecher	Gesamtkosten
A: Qualitätsbewertung	3	~8 Stunden	400–520 $	1.200–1.560 $
B: Linter-Validierung	2	~2 Stunden	100–130 $	200–260 $
C: FST-Überprüfung	1	~1,5 Stunden	75–100 $	75–100 $
Gesamt	3 Sprecher	~11,5 Stunden (max. pro Sprecher)	575–750 $ (max.)	1.475–1.920 $

Wenn dieselben 3 Sprecher alle Aufgaben übernehmen: jeweils ~11,5 Stunden über 2–4 Wochen, jeweils 575–750 $.

Ein einzelner Sprecher, der nur Aufgabe A bearbeitet, würde ~8 Stunden über 2 Wochen für 400–520 $ aufwenden.

4. Qualifikationen der Sprecher

Erforderlich:

Zweisprachigkeit in Plains Cree und Englisch
Lesefertigkeit in SRO (Standard Roman Orthography)
Bereitschaft, Übersetzungen anhand einer strukturierten Skala zu bewerten

Bevorzugt:

Erfahrung mit dem y-Dialekt (der in unserem Referenzkorpus von EDTeKLA verwendete Dialekt)
Lehr- oder Übersetzungserfahrung (liefert eine kalibrierte Qualitätsbeurteilung)
Vertrautheit mit verschiedenen Registern (formell, bildungsbezogen, umgangssprachlich)

Nicht erforderlich:

Technische oder NLP-Kenntnisse (wir stellen alle Werkzeuge und den Kontext bereit)
Computerkenntnisse (die Bewertungsoberfläche wird eine einfache Tabelle oder ein Webformular sein)
Vorherige Beteiligung am Champollion-Projekt

5. Datenverwaltung

Alle Beiträge der Sprecher unterliegen den OCAP®-orientierten Datenrichtlinien des Projekts:

Eigentum: Die Qualitätsbewertungen der Sprecher bleiben ihr geistiger Beitrag. Sie werden in jeder Veröffentlichung namentlich (oder auf eigenen Wunsch anonym) genannt.
Kontrolle: Sprecher können ihre Bewertungen jederzeit zurückziehen. Der Rückzug entfernt ihre Daten aus allen Analysen.
Zugang: Bewertungsdaten werden auf einer Infrastruktur gespeichert, die von der Governance-Organisation der Gemeinschaft (sobald eingerichtet) kontrolliert wird, oder auf der vom Sprecher bevorzugten Plattform.
Besitz: Rohbewertungsdaten werden niemals veröffentlicht. In Veröffentlichungen erscheinen ausschließlich aggregierte Statistiken (Korrelationen, Interannotator-Übereinstimmung).
Vergütung: Sprecher werden für ihre Zeit bezahlt, unabhängig davon, ob wir ihre Bewertungen verwenden. Die Bezahlung ist nicht an Ergebnisse gebunden.

6. Was Sprecher erhalten

Über die Vergütung hinaus:

Mitautorschaft an jeder Veröffentlichung, die ihre Bewertungen verwendet (auf Wunsch)
Danksagung in der gesamten Projektdokumentation
Früher Zugang zu den Evaluationswerkzeugen und -ergebnissen
Mitsprache bei der Verwendung der Metriken – wenn ein Sprecher sagt: „Ihr Linter liegt bei X falsch“, korrigieren wir den Linter
Vetorecht gegen die Veröffentlichung von Ergebnissen, die sie als problematisch empfinden

7. Wie man beginnt

Wenn Sie ein zweisprachiger Cree-Englisch-Sprecher sind und an einer Teilnahme interessiert sind, oder wenn Sie jemanden kennen, der infrage kommen könnte:

Kontaktieren Sie uns unter [project email/contact] – keine Verpflichtung erforderlich, nur ein Gespräch
Wir erklären die Aufgaben in einfacher Sprache (ohne Fachjargon)
Sie wählen, welche Aufgaben Sie interessieren (A, B, C oder eine beliebige Kombination)
Wir vereinbaren einen Zeitplan, der zu Ihnen passt (2-Stunden-Blöcke, flexible Termine)
Sie bewerten Übersetzungen über eine Tabelle oder ein Webformular – von überall, in Ihrer eigenen Zeit
Wir zahlen umgehend – innerhalb von 2 Wochen nach Abschluss jedes Aufgabenblocks

8. Was danach geschieht

Mit Validierungsdaten von Sprechern können wir:

Die Metrik-Korrelationen veröffentlichen – um zu belegen (oder zu widerlegen), dass LYSS-Bewertungen die menschliche Beurteilung widerspiegeln
Die Metriken neu kalibrieren – durch Anpassung von Gewichtungen, Schwellenwerten und Äquivalenzklassen auf Grundlage des Feedbacks der Sprecher
Den Linter korrigieren – durch Entfernen falscher Äquivalenzen und Hinzufügen fehlender
Die FST-Allowlist korrigieren – durch Hinzufügen gültiger Wörter, die der FST fälschlicherweise ablehnt
Bei einem akademischen Veranstaltungsort einreichen – mit Sprechern als Mitautoren, wodurch LYSS als validierte Metrik für die MT-Evaluation polysynthetischer Sprachen etabliert wird

Ohne Validierung durch Sprecher bleibt LYSS ein technisches Werkzeug. Mit ihr wird LYSS zu einer wissenschaftlich fundierten Evaluationsmetrik. Das ist der Unterschied zwischen „Wir haben etwas gebaut“ und „Wir haben bewiesen, dass es funktioniert“.

1. Warum wir Sprecher benötigen​

2. Was wir benötigen: Drei Aufgaben​

Aufgabe A: Bewertung der Übersetzungsqualität (Primär – ~8 Stunden insgesamt)​

Aufgabe B: Validierung der Linter-Äquivalenzen (~2 Stunden)​

Aufgabe C: Überprüfung von FST-Falschablehnungen (~1,5 Stunden)​

3. Gesamter Zeitaufwand der Sprecher​

4. Qualifikationen der Sprecher​

5. Datenverwaltung​

6. Was Sprecher erhalten​

7. Wie man beginnt​

8. Was danach geschieht​

1. Warum wir Sprecher benötigen

2. Was wir benötigen: Drei Aufgaben

Aufgabe A: Bewertung der Übersetzungsqualität (Primär – ~8 Stunden insgesamt)

Aufgabe B: Validierung der Linter-Äquivalenzen (~2 Stunden)

Aufgabe C: Überprüfung von FST-Falschablehnungen (~1,5 Stunden)

3. Gesamter Zeitaufwand der Sprecher

4. Qualifikationen der Sprecher

5. Datenverwaltung

6. Was Sprecher erhalten

7. Wie man beginnt

8. Was danach geschieht