Soberania de Dados
Resumo Executivo. Esta página explica os princípios de soberania de dados OCAP®, CARE e Te Mana Raraunga e o que eles significam para desenvolvedores que criam métodos de tradução para línguas indígenas. Aborda quando o consentimento da comunidade é necessário, como a arquitetura do método
apido champollion suporta soberania de dados, e as obrigações éticas de qualquer pessoa que trabalhe com dados linguísticos indígenas.
A tradução automática para línguas indígenas levanta questões que não existem para francês ou japonês. Quem é dono dos dados de treinamento? Quem controla como um modelo de linguagem fala? Quem decide se uma tradução é boa o suficiente para publicar?
A resposta é sempre a comunidade.
O champollion foi construído para apoiar isso. O método api mantém todos os recursos linguísticos no servidor sob controle da comunidade. O sistema de plugins separa o método da ferramenta. Mas a ferramenta não pode impor ética — esta página explica os princípios que você deve seguir.
Princípios OCAP®
OCAP (Ownership, Control, Access, Possession) é um conjunto de princípios desenvolvido pelo First Nations Information Governance Centre (FNIGC) que estabelecem como os dados das Primeiras Nações devem ser coletados, protegidos, usados e compartilhados.
| Princípio | O que Significa para Tradução |
|---|---|
| Ownership | A comunidade é dona de seus dados linguísticos — dicionários, gramáticas, textos paralelos, arquivos de coaching e qualquer tradução produzida a partir deles. |
| Control | A comunidade controla como seus dados de linguagem são usados, quem tem acesso e quais métodos de tradução são aceitáveis. |
| Access | Membros da comunidade têm o direito de acessar e gerenciar seus próprios recursos linguísticos independentemente de onde estejam armazenados. |
| Possession | Os dados físicos (arquivos de coaching, dicionários, pesos do modelo) devem residir em infraestrutura que a comunidade controla — não em nuvem de terceiros. |
O que OCAP significa na prática
- Não publique traduções de uma língua indígena sem autorização explícita da comunidade.
- Não treine modelos em dados linguísticos fornecidos pela comunidade sem um acordo de compartilhamento de dados.
- Não faça scraping de recursos linguísticos da comunidade em sites, redes sociais ou materiais educacionais.
- Use o método
apipara que prompts, dados de coaching e dicionários permaneçam em servidores controlados pela comunidade. O métodoapido champollion é um "cano burro" — envia chaves e recebe traduções de volta. Toda a propriedade intelectual linguística fica no servidor. - Documente a proveniência — o campo
provenanceno manifesto do plugin deve listar cada recurso usado, sua licença e sua origem.
:::warning OCAP® é uma marca registrada OCAP® é uma marca registrada do First Nations Information Governance Centre. Aplica-se especificamente às Primeiras Nações no Canadá. Os princípios têm relevância mais ampla, mas a marca registrada e a autoridade de governança pertencem ao FNIGC. :::
Princípios CARE
Os Princípios CARE para Governança de Dados Indígenas foram desenvolvidos pela Global Indigenous Data Alliance (GIDA) como complemento aos princípios de dados FAIR. FAIR diz que dados devem ser Findable, Accessible, Interoperable e Reusable. CARE diz que isso não é suficiente — a governança de dados também deve centralizar os direitos indígenas.
| Princípio | Aplicação |
|---|---|
| Collective Benefit | Ferramentas de tradução devem beneficiar a comunidade linguística em primeiro lugar. Pontuações em leaderboards são um meio para melhorar métodos, não para extrair valor comercial de línguas comunitárias. |
| Authority to Control | Comunidades têm autoridade para governar como seus dados de linguagem são coletados, usados e compartilhados. Uma pontuação alta no leaderboard não concede permissão para publicar traduções. |
| Responsibility | Pesquisadores e desenvolvedores que trabalham com dados de línguas indígenas têm responsabilidade de construir relacionamentos, obter consentimento e compartilhar benefícios. |
| Ethics | Os direitos e bem-estar dos povos indígenas devem ser a preocupação primária. Métodos de tradução devem ser desenvolvidos com comunidades, não sobre elas. |
Te Mana Raraunga — Soberania de Dados Māori
Te Mana Raraunga é a Māori Data Sovereignty Network. Ela afirma que dados Māori — incluindo dados de linguagem — são um taonga (tesouro) sujeito aos princípios do Tratado de Waitangi e tikanga Māori (lei consuetudinária Māori).
Princípios-chave:
| Princípio | Significado |
|---|---|
| Rangatiratanga (Autoridade) | Māori têm direito inerente de exercer autoridade sobre seus dados, incluindo dados de linguagem. |
| Whakapapa (Relacionamentos) | Dados têm origens e conexões. Dados de linguagem carregam os relacionamentos e conhecimento das pessoas que os criaram. |
| Whanaungatanga (Obrigações) | Aqueles que detêm ou processam dados Māori têm obrigações recíprocas com as comunidades de origem. |
| Kotahitanga (Benefício coletivo) | Dados Māori devem ser usados para o benefício coletivo de Māori. |
| Manaakitanga (Reciprocidade) | O uso de dados Māori deve envolver cuidado, respeito e reciprocidade. |
| Kaitiakitanga (Guardiania) | Guardiões de dados têm dever de proteger os dados e garantir que sejam usados apropriadamente. |
Esses princípios se aplicam a te reo Māori (a língua Māori) e a qualquer trabalho computacional envolvendo dados da língua Māori.
O que Isso Significa para Usuários do champollion
Para línguas padrão (francês, japonês, espanhol...)
Use o champollion normalmente. Essas línguas têm grandes corpora publicamente disponíveis, APIs de tradução estabelecidas e nenhuma preocupação de soberania. Traduza, sincronize e publique como desejar.
Para línguas indígenas e de baixo recurso
A situação é fundamentalmente diferente:
-
Obtenha consentimento primeiro. Antes de construir um método de tradução para uma língua indígena, estabeleça um relacionamento com a comunidade. Um método construído sem envolvimento da comunidade — não importa quão tecnicamente impressionante — não deve ser publicado ou distribuído.
-
Use o método
api. Hospede o pipeline de tradução em infraestrutura controlada pela comunidade. O métodoapino champollion foi projetado para isso: envia chaves e recebe traduções de volta sem expor os prompts, dicionários ou dados de coaching que fazem o método funcionar.Community-controlled setup{"pairs": {"en:crk": {"method": "api","endpoint": "https://api.community-server.example/translate"}}} -
Documente tudo. Use o campo
provenanceno seu manifesto de plugin para listar cada recurso, sua licença e se foi fornecido com consentimento da comunidade. -
Pontuações não são licenças. Uma pontuação alta no leaderboard prova que um método funciona bem tecnicamente. Não concede permissão para publicar traduções, distribuir o plugin ou comercializar o método. A comunidade decide.
-
Compartilhe o método, não os dados. Se você desenvolver uma técnica que funciona bem (por exemplo, "LLM com gate FST e prompts coached"), compartilhe a arquitetura e abordagem no leaderboard. A comunidade retém controle sobre os dados linguísticos que a fazem funcionar para sua língua específica.
O Método api e Soberania
O método de tradução api existe especificamente para apoiar soberania de dados. Aqui está o porquê:
| Aspecto | Outros Métodos | Método api |
|---|---|---|
| Onde prompts vivem | Nos arquivos de config do champollion (visíveis para todos os desenvolvedores) | No servidor da comunidade (privado) |
| Onde dados de coaching vivem | No diretório .champollion/coaching/ (commitado no git) | No servidor da comunidade (privado) |
| Onde dicionários vivem | No diretório do plugin (distribuído com o plugin) | No servidor da comunidade (privado) |
| Quem controla o pipeline | Quem executa champollion sync | A comunidade que opera a API |
| O que champollion vê | Tudo | Chaves dentro, traduções fora |
O método api é uma escolha arquitetônica deliberada. É um "cano burro" porque a propriedade intelectual — o conhecimento linguístico, as regras de gramática, os exemplos de coaching cuidadosamente curados — pertence à comunidade, não à ferramenta.
Veja Serving a Method via API para detalhes de implementação.
Estudo de Caso: OMT-1600 e Soberania de Dados
O OMT-1600 da Meta (março de 2026) fornece um exemplo concreto de por que soberania de dados importa para línguas indígenas. O OMT-1600 treinou modelos de tradução para 1.600 línguas usando:
- CC-2000-Web: Texto monolíngue coletado por web scraping de 2.000+ languoides — coletado sem consentimento da comunidade
- Traduções da Bíblia: Textos religiosos usados como dados de treinamento paralelo e avaliação para as línguas com menor recurso
- MeDLEy: Bitext manualmente curado — mas sem conformidade OCAP® ou CARE documentada
- Dados sintéticos retrotraduzidos: ~270 milhões de sentenças paralelas sintéticas geradas pelos próprios modelos
Para línguas indígenas como Plains Cree (CRK), isso significa:
| Princípio | Prática OMT-1600 | Impacto |
|---|---|---|
| Ownership | Meta é dona dos modelos e decide como liberá-los | Comunidade não tem participação na propriedade de como sua língua é modelada |
| Control | Meta controla seleção de dados de treinamento, arquitetura do modelo e cronograma de lançamento | Comunidade não tem entrada em quais dados são usados ou como a língua é representada |
| Access | Pesos do modelo não estão disponíveis atualmente — "não lançados devido a fatores fora do controle dos autores" | Comunidade não pode acessar, inspecionar ou modificar o modelo que fala sua língua |
| Possession | Todos os dados e modelos residem em infraestrutura da Meta | Comunidade não pode hospedar, auditar ou deletar os dados usados para treinar o modelo |
OMT-1600 é uma realização de pesquisa. É também um exemplo de prática extrativista de dados: dados linguísticos foram coletados da web e textos religiosos, processados em um modelo e publicados como um artigo — tudo sem envolvimento, consentimento ou compartilhamento de benefícios da comunidade.
Este é exatamente o padrão que a arquitetura de soberania do champollion previne. O método api mantém propriedade intelectual linguística em servidores controlados pela comunidade. Corpora de avaliação são fornecidos com consentimento da comunidade e armazenados sob custódia de chaves da comunidade. Métodos vencedores de prêmios são transferidos para propriedade da comunidade. A diferença não é técnica — é ética e estrutural.
:::note OMT-1600 não é uniquamente culpado Este padrão — web scraping seguido de treinamento de modelo sem consentimento da comunidade — é prática padrão em pesquisa de PNL massivamente multilíngue. OMT-1600 é um estudo de caso por causa de sua escala (1.600 línguas) e recência (março de 2026), não porque é uniquamente extrativista. A mesma crítica se aplica a NLLB-200, esforços multilíngues do Google e a maioria da pesquisa de MT em larga escala. :::
Leitura Adicional
- First Nations Information Governance Centre — OCAP®
- Global Indigenous Data Alliance — CARE Principles
- Te Mana Raraunga — Māori Data Sovereignty Network
- USIDSN — United States Indigenous Data Sovereignty Network
Veja Também
- Support a Low-Resource Language — o guia técnico com contexto OCAP
- Translation Methods — o método
apie como protege propriedade intelectual - Serving a Method via API — hospedando um pipeline controlado pela comunidade
- Plugin Specification — o campo
provenancepara atribuição de recursos - Cookbook: FST-Gated Pipeline — construindo um pipeline que uma comunidade pode auto-hospedar