Datensouveränität

Zusammenfassung. Diese Seite erläutert die Datensouveränitätsprinzipien OCAP®, CARE und Te Mana Raraunga sowie deren Bedeutung für Entwickler, die Übersetzungsmethoden für indigene Sprachen entwickeln. Sie behandelt, wann die Zustimmung der Gemeinschaft erforderlich ist, wie die api-Methodenarchitektur von champollion die Datensouveränität unterstützt und welche ethischen Verpflichtungen für alle gelten, die mit indigenen linguistischen Daten arbeiten.

Maschinelle Übersetzung für indigene Sprachen wirft Fragen auf, die für Französisch oder Japanisch nicht bestehen. Wem gehören die Trainingsdaten? Wer kontrolliert, wie ein Sprachmodell spricht? Wer entscheidet, ob eine Übersetzung gut genug für die Veröffentlichung ist?

Die Antwort ist immer: die Gemeinschaft.

champollion ist darauf ausgelegt, dies zu unterstützen. Die api-Methode hält alle linguistischen Ressourcen serverseitig unter der Kontrolle der Gemeinschaft. Das Plugin-System trennt die Methode vom Werkzeug. Doch das Werkzeug kann Ethik nicht erzwingen — diese Seite erläutert die Grundsätze, denen Sie folgen sollten.

OCAP®-Prinzipien

OCAP (Ownership, Control, Access, Possession) ist eine Reihe von Grundsätzen, die vom First Nations Information Governance Centre (FNIGC) entwickelt wurden und festlegen, wie Daten der First Nations erhoben, geschützt, genutzt und geteilt werden sollten.

Prinzip	Was es für die Übersetzung bedeutet
Ownership	Die Gemeinschaft besitzt ihre linguistischen Daten — Wörterbücher, Grammatiken, Paralleltexte, Coaching-Dateien und alle daraus erstellten Übersetzungen.
Control	Die Gemeinschaft kontrolliert, wie ihre Sprachdaten genutzt werden, wer Zugriff hat und welche Übersetzungsmethoden akzeptabel sind.
Access	Mitglieder der Gemeinschaft haben das Recht, auf ihre eigenen Sprachressourcen zuzugreifen und diese zu verwalten, unabhängig davon, wo sie gespeichert sind.
Possession	Die physischen Daten (Coaching-Dateien, Wörterbücher, Modellgewichte) müssen auf einer von der Gemeinschaft kontrollierten Infrastruktur liegen — nicht in einer Cloud von Drittanbietern.

Was OCAP in der Praxis bedeutet

Veröffentlichen Sie keine Übersetzungen einer indigenen Sprache ohne ausdrückliche Genehmigung der Gemeinschaft.
Trainieren Sie keine Modelle mit von der Gemeinschaft bereitgestellten linguistischen Daten ohne eine Vereinbarung zur Datennutzung.
Extrahieren Sie keine Sprachressourcen der Gemeinschaft aus Websites, sozialen Medien oder Bildungsmaterialien.
Verwenden Sie die api-Methode, damit Prompts, Coaching-Daten und Wörterbücher auf von der Gemeinschaft kontrollierten Servern verbleiben. Die api-Methode von champollion ist eine „dumme Leitung“ — sie sendet Schlüssel hinaus und erhält Übersetzungen zurück. Sämtliches linguistisches geistiges Eigentum bleibt serverseitig.
Dokumentieren Sie die Herkunft — das Feld provenance im Plugin-Manifest sollte jede verwendete Ressource, ihre Lizenz und ihren Ursprung auflisten.

:::warning OCAP® ist eine eingetragene Marke OCAP® ist eine eingetragene Marke des First Nations Information Governance Centre. Sie gilt speziell für die First Nations in Kanada. Die Grundsätze haben eine breitere Relevanz, doch die Markenrechte und die Governance-Autorität liegen beim FNIGC. :::

CARE-Prinzipien

Die CARE-Prinzipien für indigene Datengovernance wurden von der Global Indigenous Data Alliance (GIDA) als Ergänzung zu den FAIR-Datenprinzipien entwickelt. FAIR besagt, dass Daten Findable, Accessible, Interoperable und Reusable sein sollten. CARE besagt, dass dies nicht ausreicht — die Datengovernance muss zudem indigene Rechte in den Mittelpunkt stellen.

Prinzip	Anwendung
Collective Benefit	Übersetzungswerkzeuge sollten zuallererst der Sprachgemeinschaft zugutekommen. Leaderboard-Ergebnisse sind ein Mittel zur Verbesserung von Methoden, nicht zur Gewinnung kommerziellen Werts aus den Sprachen der Gemeinschaften.
Authority to Control	Gemeinschaften haben die Autorität, darüber zu bestimmen, wie ihre Sprachdaten erhoben, genutzt und geteilt werden. Ein hohes Leaderboard-Ergebnis erteilt keine Erlaubnis zur Veröffentlichung von Übersetzungen.
Responsibility	Forscher und Entwickler, die mit indigenen Sprachdaten arbeiten, tragen die Verantwortung, Beziehungen aufzubauen, Zustimmung einzuholen und Nutzen zu teilen.
Ethics	Die Rechte und das Wohlergehen indigener Völker müssen das vorrangige Anliegen sein. Übersetzungsmethoden sollten mit Gemeinschaften entwickelt werden, nicht über sie.

Te Mana Raraunga — Māori-Datensouveränität

Te Mana Raraunga ist das Māori Data Sovereignty Network. Es vertritt die Auffassung, dass Māori-Daten — einschließlich Sprachdaten — ein taonga (Schatz) sind, der den Grundsätzen des Vertrags von Waitangi und der tikanga Māori (Māori-Gewohnheitsrecht) unterliegt.

Zentrale Prinzipien:

Prinzip	Bedeutung
Rangatiratanga (Autorität)	Māori haben ein angestammtes Recht, Autorität über ihre Daten auszuüben, einschließlich Sprachdaten.
Whakapapa (Beziehungen)	Daten haben Ursprünge und Verbindungen. Sprachdaten tragen die Beziehungen und das Wissen der Menschen in sich, die sie geschaffen haben.
Whanaungatanga (Verpflichtungen)	Diejenigen, die Māori-Daten halten oder verarbeiten, haben wechselseitige Verpflichtungen gegenüber den Gemeinschaften, aus denen die Daten stammen.
Kotahitanga (Kollektiver Nutzen)	Māori-Daten sollten zum kollektiven Nutzen der Māori verwendet werden.
Manaakitanga (Reziprozität)	Die Nutzung von Māori-Daten sollte mit Fürsorge, Respekt und Reziprozität verbunden sein.
Kaitiakitanga (Hüterschaft)	Datenhüter haben die Pflicht, die Daten zu schützen und ihre angemessene Nutzung sicherzustellen.

Diese Grundsätze gelten für te reo Māori (die Māori-Sprache) und für jede rechnergestützte Arbeit, die Māori-Sprachdaten betrifft.

Was dies für champollion-Nutzer bedeutet

Für gängige Sprachen (Französisch, Japanisch, Spanisch ...)

Verwenden Sie champollion ganz normal. Diese Sprachen verfügen über große, öffentlich verfügbare Korpora, etablierte Übersetzungs-APIs und keine Souveränitätsbedenken. Übersetzen, synchronisieren und veröffentlichen Sie nach Belieben.

Für indigene und ressourcenarme Sprachen

Die Situation ist grundlegend anders:

Holen Sie zuerst die Zustimmung ein. Bevor Sie eine Übersetzungsmethode für eine indigene Sprache entwickeln, bauen Sie eine Beziehung zur Gemeinschaft auf. Eine ohne Beteiligung der Gemeinschaft entwickelte Methode — so technisch beeindruckend sie auch sein mag — sollte nicht veröffentlicht oder verbreitet werden.
Verwenden Sie die api-Methode. Hosten Sie die Übersetzungs-Pipeline auf einer von der Gemeinschaft kontrollierten Infrastruktur. Die api-Methode in champollion ist dafür konzipiert: Sie sendet Schlüssel und erhält Übersetzungen zurück, ohne die Prompts, Wörterbücher oder Coaching-Daten offenzulegen, die die Methode funktionieren lassen.
Community-controlled setup
```
{
  "pairs": {
    "en:crk": {
      "method": "api",
      "endpoint": "https://api.community-server.example/translate"
    }
  }
}
```
Dokumentieren Sie alles. Verwenden Sie das Feld provenance in Ihrem Plugin-Manifest, um jede Ressource, ihre Lizenz und die Frage aufzulisten, ob sie mit Zustimmung der Gemeinschaft bereitgestellt wurde.
Ergebnisse sind keine Lizenzen. Ein hohes Ergebnis auf dem Leaderboard belegt, dass eine Methode technisch gut funktioniert. Es erteilt keine Erlaubnis, Übersetzungen zu veröffentlichen, das Plugin zu verbreiten oder die Methode zu kommerzialisieren. Die Gemeinschaft entscheidet.
Teilen Sie die Methode, nicht die Daten. Wenn Sie eine Technik entwickeln, die gut funktioniert (z. B. „FST-gated LLM mit gecoachten Prompts“), teilen Sie die Architektur und den Ansatz auf dem Leaderboard. Die Gemeinschaft behält die Kontrolle über die linguistischen Daten, die die Methode für ihre spezifische Sprache funktionieren lassen.

Die `api`-Methode und Souveränität

Die api-Übersetzungsmethode existiert speziell, um die Datensouveränität zu unterstützen. Hier ist der Grund:

Aspekt	Andere Methoden	`api`-Methode
Wo Prompts liegen	In den Konfigurationsdateien von champollion (für alle Entwickler sichtbar)	Auf dem Server der Gemeinschaft (privat)
Wo Coaching-Daten liegen	Im Verzeichnis `.champollion/coaching/` (in git eingecheckt)	Auf dem Server der Gemeinschaft (privat)
Wo Wörterbücher liegen	Im Plugin-Verzeichnis (mit dem Plugin verteilt)	Auf dem Server der Gemeinschaft (privat)
Wer die Pipeline kontrolliert	Wer auch immer `champollion sync` ausführt	Die Gemeinschaft, die die API betreibt
Was champollion sieht	Alles	Schlüssel hinein, Übersetzungen hinaus

Die api-Methode ist eine bewusste architektonische Entscheidung. Sie ist eine „dumme Leitung“, weil das geistige Eigentum — das linguistische Wissen, die Grammatikregeln, die sorgfältig kuratierten Coaching-Beispiele — der Gemeinschaft gehört, nicht dem Werkzeug.

Siehe Eine Methode über eine API bereitstellen für Implementierungsdetails.

Fallstudie: OMT-1600 und Datensouveränität

Metas OMT-1600 (März 2026) liefert ein konkretes Beispiel dafür, warum Datensouveränität für indigene Sprachen von Bedeutung ist. OMT-1600 trainierte Übersetzungsmodelle für 1.600 Sprachen unter Verwendung von:

CC-2000-Web: Einsprachiger Text, der per Web-Scraping aus mehr als 2.000 Languoiden gesammelt wurde — erhoben ohne Zustimmung der Gemeinschaften
Bibelübersetzungen: Religiöse Texte, die als parallele Trainings- und Evaluierungsdaten für die Sprachen mit den geringsten Ressourcen verwendet wurden
MeDLEy: Manuell kuratierter Bitext — jedoch ohne dokumentierte OCAP®- oder CARE-Konformität
Rückübersetzte synthetische Daten: ~270 Millionen synthetische parallele Sätze, die von den Modellen selbst erzeugt wurden

Für indigene Sprachen wie Plains Cree (CRK) bedeutet dies:

Prinzip	OMT-1600-Praxis	Auswirkung
Ownership	Meta besitzt die Modelle und entscheidet, wie sie veröffentlicht werden	Die Gemeinschaft hat keinen Eigentumsanteil daran, wie ihre Sprache modelliert wird
Control	Meta kontrolliert die Auswahl der Trainingsdaten, die Modellarchitektur und den Veröffentlichungszeitplan	Die Gemeinschaft hat keinen Einfluss darauf, welche Daten verwendet werden oder wie die Sprache dargestellt wird
Access	Die Modellgewichte sind derzeit nicht verfügbar — „nicht veröffentlicht aufgrund von Faktoren außerhalb der Kontrolle der Autoren“	Die Gemeinschaft kann das Modell, das ihre Sprache spricht, nicht abrufen, prüfen oder verändern
Possession	Alle Daten und Modelle liegen auf Metas Infrastruktur	Die Gemeinschaft kann die zum Trainieren des Modells verwendeten Daten nicht hosten, prüfen oder löschen

OMT-1600 ist eine Forschungsleistung. Es ist zugleich ein Beispiel für extraktive Datenpraxis: Linguistische Daten wurden aus dem Web und aus religiösen Texten gesammelt, zu einem Modell verarbeitet und als wissenschaftliche Arbeit veröffentlicht — alles ohne Beteiligung, Zustimmung oder Nutzenbeteiligung der Gemeinschaft.

Genau dieses Muster verhindert die Souveränitätsarchitektur von champollion. Die api-Methode hält linguistisches geistiges Eigentum auf von der Gemeinschaft kontrollierten Servern. Evaluierungskorpora werden mit Zustimmung der Gemeinschaft bereitgestellt und unter der Schlüsselverwahrung der Gemeinschaft gespeichert. Preisgekrönte Methoden gehen in das Eigentum der Gemeinschaft über. Der Unterschied ist nicht technischer, sondern ethischer und struktureller Natur.

:::note OMT-1600 trägt nicht allein die Schuld Dieses Muster — Web-Scraping mit anschließendem Modelltraining ohne Zustimmung der Gemeinschaft — ist gängige Praxis in der massiv mehrsprachigen NLP-Forschung. OMT-1600 ist eine Fallstudie wegen seines Umfangs (1.600 Sprachen) und seiner Aktualität (März 2026), nicht weil es in einzigartiger Weise extraktiv wäre. Dieselbe Kritik gilt für NLLB-200, Googles mehrsprachige Bemühungen und die meisten groß angelegten MT-Forschungsvorhaben. :::

Weiterführende Literatur

Siehe auch

Eine ressourcenarme Sprache unterstützen — der technische Leitfaden mit OCAP-Kontext
Übersetzungsmethoden — die api-Methode und wie sie geistiges Eigentum schützt
Eine Methode über eine API bereitstellen — eine von der Gemeinschaft kontrollierte Pipeline hosten
Plugin-Spezifikation — das Feld provenance für die Ressourcenangabe
Kochbuch: FST-Gated Pipeline — den Aufbau einer Pipeline, die eine Gemeinschaft selbst hosten kann

OCAP®-Prinzipien​

Was OCAP in der Praxis bedeutet​

CARE-Prinzipien​

Te Mana Raraunga — Māori-Datensouveränität​

Was dies für champollion-Nutzer bedeutet​

Für gängige Sprachen (Französisch, Japanisch, Spanisch ...)​

Für indigene und ressourcenarme Sprachen​

Die api-Methode und Souveränität​

Fallstudie: OMT-1600 und Datensouveränität​

Weiterführende Literatur​

Siehe auch​