Ir para o conteúdo principal

Para Comunidades Linguísticas

Resumo Executivo. Um guia para falantes de línguas indígenas e de baixo recurso explicando como contribuir para a Arena (traduções de referência, revisão de tradução, dados de treinamento) e o que a comunidade recebe em troca (propriedade do código, receita de API, controle total de implantação). Nenhuma programação necessária.

Você não precisa ser programador para contribuir para a Arena. Se fala uma língua indígena ou de baixo recurso, você é a pessoa mais importante neste ecossistema.


O Que Precisamos De Você

Traduções de referência

Precisamos de pares de tradução curados para avaliação — inglês de um lado, sua língua do outro. Estes se tornam a "chave de resposta" contra a qual todos os métodos de tradução são avaliados.

Você pode criar estes a partir de:

  • Materiais educacionais — exercícios de livros didáticos, planos de aula, folhas de trabalho
  • Documentos comunitários — atas de reuniões, boletins informativos, anúncios
  • Frases do dia a dia — strings de interface, rótulos de aplicativos, expressões comuns
  • Conteúdo cultural — histórias, músicas ou descrições (com permissões apropriadas)

O formato é JSON simples:

{
"entries": [
{ "id": 1, "source": "Hello", "reference": "tânisi" },
{ "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
]
}

Revisão de tradução

Todo método que afirma produzir traduções funcionais precisa de validação humana. Falantes bilíngues revisam os resultados e nos dizem se o computador acertou — e mais importante ainda, por que errou.

Dados de treinamento

Regras gramaticais, entradas de dicionário, padrões morfológicos — estes são os recursos linguísticos que fazem os métodos de tradução funcionarem. Seu conhecimento de como sua língua funciona é insubstituível por qualquer modelo de IA.


O Que Você Recebe Em Troca

Propriedade

Quando um método de tradução é construído para sua língua e validado na Arena, a propriedade é transferida para a organização de governança da sua comunidade. Você possui o código, os pesos do modelo e a implantação.

Receita

Quando desenvolvedores usam o método da sua língua através da API champollion, sua comunidade recebe 90% da receita de API. Os 10% restantes cobrem custos de infraestrutura.

Controle

Sua organização de governança controla:

  • Quem pode acessar o método
  • Se pode ser usado comercialmente
  • Quais termos de preço se aplicam
  • Quando e como é atualizado
  • Quais dados são usados para desenvolvimento futuro

Como Se Envolver

  1. Entre em contato — Abra uma issue no repositório da Arena ou envie um email para os mantenedores
  2. Descreva sua língua — A qual família pertence? Quantos falantes tem? Quais sistemas de escrita são usados? Quais recursos computacionais existem (FSTs, dicionários, corpora)?
  3. Comece pequeno — Até 50 pares de tradução curados são suficientes para criar um conjunto de dados de avaliação e abrir uma nova faixa de leaderboard
  4. Conecte-nos à governança — Quem em sua comunidade tem autoridade sobre dados e tecnologia linguística? O modelo de soberania da Arena requer um parceiro de governança

Soberania de Dados

Seus dados linguísticos são seus. A Arena é construída sobre princípios OCAP®:

  • Nunca coletamos ou armazenamos seus dados linguísticos em nossos servidores
  • Métodos de tradução usam a arquitetura api — todos os dados de treinamento, dicionários e regras gramaticais permanecem em infraestrutura que você controla
  • Você decide quem pode desenvolver métodos para sua língua
  • Pontuações de leaderboard provam que um método funciona; elas não concedem permissão para implantá-lo

Veja Também