Protocolo de Validação por Falantes

Propósito. Este documento define exatamente o que precisamos de falantes bilíngues de Cree–Inglês para validar as métricas de avaliação LYSS. Sem essa validação, nossas pontuações automatizadas são estimativas de engenharia, não medições comprovadas de qualidade. Esta é a lacuna mais importante do projeto.

Público. Parceiros comunitários, colaboradores em potencial, revisores de bolsas e a equipe do projeto.

Última atualização: 2026-06-07

1. Por Que Precisamos de Falantes

O framework de avaliação LYSS (Linguistically-informed Yield & Structural Scoring) calcula pontuações de qualidade automatizadas para traduções de Inglês → Plains Cree. Ele usa três sinais principais:

LYSS-fst: A saída contém palavras válidas em Cree? (verificado pelo transdutor de estados finitos GiellaLT)
LYSS-eq: A saída é uma variante aceitável da tradução de referência? (verificado pelas classes de equivalência do linter)
LYSS-sem: A saída preserva o significado da fonte? (verificado pelo validador semântico)

Essas métricas produzem números. Não sabemos se esses números significam algo. O FST pode rejeitar palavras válidas que não reconhece (empréstimos, neologismos, nomes próprios). O linter pode perder equivalências válidas ou aceitar inválidas. O validador semântico pode julgar mal o significado. Até que falantes bilíngues nos digam se nossas pontuações automatizadas correspondem ao seu julgamento humano da qualidade da tradução, estamos adivinhando.

Toda métrica de avaliação de MT importante (BLEU, COMET, chrF++) foi validada comparando pontuações automatizadas com milhares de avaliações de qualidade humana. Precisamos do mesmo — em escala menor, porque nossos recursos são limitados, mas com o mesmo rigor.

2. O Que Precisamos: Três Tarefas

Tarefa A: Avaliação de Qualidade de Tradução (Principal — ~8 horas no total)

O quê: Avaliar 200 traduções de Inglês → Cree geradas por máquina em duas escalas.

Quem: 3+ falantes bilíngues de Plains Cree–Inglês com fluência de leitura em SRO (Standard Roman Orthography).

Como funciona:

Fornecemos uma planilha ou formulário web com 200 linhas. Cada linha tem:
- A sentença fonte em Inglês
- Uma tradução Cree gerada por máquina
- (Opcionalmente) uma tradução Cree de referência para comparação

Para cada tradução, o falante avalia duas coisas:

Adequação (ela diz a coisa certa?):

Pontuação	Rótulo	Significado
1	Nenhuma	A tradução não tem nada a ver com a fonte
2	Pouca	Algumas palavras correspondem, mas o significado geral está errado
3	Muita	O significado central está lá, mas partes importantes estão faltando ou erradas
4	Maior parte	Quase tudo está correto, pequenas lacunas de significado
5	Tudo	A tradução transmite completamente o significado da fonte

Fluência (soa como Cree real?):

Pontuação	Rótulo	Significado
1	Incompreensível	Isto não é Cree
2	Disfluente	Palavras individuais podem ser Cree, mas a sentença está quebrada
3	Não-nativa	Compreensível, mas claramente não como um falante de Cree diria
4	Boa	Soa natural com pequenas estranhezas
5	Impecável	Um falante de Cree poderia ter escrito isto

Opcionalmente, o falante pode adicionar uma nota em texto livre explicando sua avaliação (por exemplo, "concordância animado/inanimado errada no verbo," "isto é dialeto th, mas avalio com base no dialeto y").

Estimativa de tempo: ~2,5 minutos por tradução × 200 traduções = ~8 horas. Pode ser dividido em múltiplas sessões (por exemplo, 4 × 2 horas ao longo de 2 semanas).

Compensação: $50–65 CAD/hora (correspondendo às taxas de compensação de falantes da BENCHMARK_SPEC §10.3). Total por falante: $400–520 CAD. Para 3 falantes: $1.200–1.560 CAD.

O que fazemos com isso: Calculamos a correlação entre nossas pontuações LYSS automatizadas e as avaliações dos falantes. Se LYSS-fst correlaciona com avaliações de fluência e LYSS-sem correlaciona com avaliações de adequação, as métricas são validadas. Se não, sabemos onde corrigi-las.

Tarefa B: Validação de Equivalência do Linter (~2 horas)

O quê: Revisar 50 pares de traduções Cree que nosso linter classifica como "equivalentes" e nos dizer se realmente significam a mesma coisa.

Quem: 1–2 falantes bilíngues (podem ser os mesmos falantes da Tarefa A).

Como funciona:

Fornecemos 50 pares. Cada par tem:
- A fonte em Inglês
- Tradução A (a referência)
- Tradução B (uma variante que nosso linter diz ser equivalente)
- O motivo da equivalência (por exemplo, "permutação de ordem de palavras," "variante ortográfica," "partícula opcional removida")
Para cada par, o falante responde:
- Mesmo significado? Sim / Não / Depende do contexto
- Ambas naturais? Sim / A é melhor / B é melhor / Nenhuma é natural
- Notas (texto livre opcional)

Estimativa de tempo: ~2 minutos por par × 50 pares = ~2 horas.

Compensação: $50–65 CAD/hora × 2 horas = $100–130 CAD por falante.

O que fazemos com isso: Calculamos a precisão de cada classe de equivalência. Se falantes dizem que 90% das equivalências de "ordem de palavras" são genuinamente equivalentes, essa classe é validada. Se dizem que 40% das equivalências de "sinônimo de lema" estão erradas, sabemos que precisamos corrigir ou remover essa classe.

Tarefa C: Revisão de Rejeição Falsa do FST (~1,5 horas)

O quê: Revisar 100 palavras Cree que o analisador FST rejeita (diz que não são palavras válidas em Cree) e nos dizer se realmente são válidas.

Quem: 1 falante bilíngue com forte conhecimento de vocabulário Cree.

Como funciona:

Executamos o analisador FST em nosso corpus de ouro EDTeKLA com 436 entradas e coletamos cada palavra que ele rejeita.
Apresentamos até 100 palavras rejeitadas ao falante com seu contexto de sentença.
Para cada palavra, o falante responde:
- Esta é uma palavra Cree válida? Sim / Não / Incerto
- Se sim, que tipo? Palavra estabelecida / Empréstimo / Nome / Forma dialetal / Neologismo / Outro
- Notas (texto livre opcional)

Estimativa de tempo: ~1 minuto por palavra × 100 palavras = ~1,5 horas.

Compensação: $50–65 CAD/hora × 1,5 horas = $75–100 CAD.

O que fazemos com isso: Calculamos a taxa de rejeição falsa do FST. Se o FST rejeita 50 palavras e falantes dizem que 30 delas são válidas, a taxa de rejeição falsa é 60% — inaceitavelmente alta, exigindo uma lista de exceções/empréstimos. Se falantes dizem que apenas 5 são válidas, a taxa de rejeição falsa é 10% — a métrica é confiável.

3. Compromisso Total do Falante

Tarefa	Falantes Necessários	Horas por Falante	Custo por Falante	Custo Total
A: Avaliação de Qualidade	3	~8 horas	$400–520	$1.200–1.560
B: Validação do Linter	2	~2 horas	$100–130	$200–260
C: Revisão do FST	1	~1,5 horas	$75–100	$75–100
Total	3 falantes	~11,5 horas (máx. por falante)	$575–750 (máx.)	$1.475–1.920

Se os mesmos 3 falantes fizerem todas as tarefas: ~11,5 horas cada ao longo de 2–4 semanas, $575–750 cada.

Um único falante fazendo apenas a Tarefa A se comprometeria com ~8 horas ao longo de 2 semanas por $400–520.

4. Qualificações do Falante

Obrigatório:

Bilíngue em Plains Cree e Inglês
Fluência de leitura em SRO (Standard Roman Orthography)
Confortável em avaliar traduções em uma escala estruturada

Preferível:

Experiência com dialeto y (o dialeto usado em nosso corpus de referência do EDTeKLA)
Experiência em ensino ou tradução (fornece julgamento de qualidade calibrado)
Familiaridade com diferentes registros (formal, educacional, conversacional)

Não obrigatório:

Conhecimento técnico ou de PNL (fornecemos todas as ferramentas e contexto)
Habilidades computacionais (a interface de avaliação será uma planilha simples ou formulário web)
Envolvimento anterior com o projeto Champollion

5. Governança de Dados

Todas as contribuições dos falantes são regidas pelas políticas de dados OCAP®-forward do projeto:

Propriedade: As avaliações de qualidade dos falantes permanecem sua contribuição intelectual. Eles são creditados pelo nome (ou anonimamente, por sua escolha) em qualquer publicação.
Controle: Os falantes podem retirar suas avaliações a qualquer momento. A retirada remove seus dados de todas as análises.
Acesso: Os dados de avaliação são armazenados em infraestrutura controlada pela organização de governança comunitária (quando estabelecida) ou na plataforma preferida do falante.
Posse: Os dados de avaliação brutos nunca são publicados. Apenas estatísticas agregadas (correlações, concordância entre anotadores) aparecem em publicações.
Compensação: Os falantes são pagos por seu tempo independentemente de usarmos suas avaliações. O pagamento não é contingente aos resultados.

6. O Que os Falantes Recebem

Além da compensação:

Co-autoria em qualquer publicação usando suas avaliações (se desejado)
Reconhecimento em toda a documentação do projeto
Acesso antecipado às ferramentas de avaliação e resultados
Entrada em como as métricas são usadas — se um falante diz "seu linter está errado sobre X," corrigimos o linter
Poder de veto sobre publicação de resultados que consideram problemáticos

7. Como Começar

Se você é um falante bilíngue de Cree–Inglês interessado em participar, ou se conhece alguém que possa estar:

Entre em contato conosco em [email/contato do projeto] — sem compromisso, apenas uma conversa
Explicamos as tarefas em linguagem clara (sem jargão)
Você escolhe quais tarefas está interessado (A, B, C, ou qualquer combinação)
Definimos um cronograma que funcione para você (blocos de 2 horas, horário flexível)
Você avalia traduções via planilha ou formulário web — de qualquer lugar, no seu próprio tempo
Pagamos prontamente — dentro de 2 semanas após completar cada bloco de tarefas

8. O Que Acontece Depois

Com dados de validação de falantes, podemos:

Publicar as correlações de métrica — provando (ou refutando) que as pontuações LYSS refletem o julgamento humano
Recalibrar as métricas — ajustando pesos, limites e classes de equivalência com base no feedback dos falantes
Corrigir o linter — removendo equivalências falsas, adicionando as faltantes
Corrigir a lista de permissões do FST — adicionando palavras válidas que o FST rejeita incorretamente
Enviar para um local acadêmico — com falantes como co-autores, estabelecendo LYSS como uma métrica validada para avaliação de MT de linguagem polissintética

Sem validação de falantes, LYSS permanece uma ferramenta de engenharia. Com ela, LYSS se torna uma métrica cientificamente fundamentada. Essa é a diferença entre "construímos algo" e "provamos que funciona."

1. Por Que Precisamos de Falantes​

2. O Que Precisamos: Três Tarefas​

Tarefa A: Avaliação de Qualidade de Tradução (Principal — ~8 horas no total)​

Tarefa B: Validação de Equivalência do Linter (~2 horas)​

Tarefa C: Revisão de Rejeição Falsa do FST (~1,5 horas)​

3. Compromisso Total do Falante​

4. Qualificações do Falante​

5. Governança de Dados​

6. O Que os Falantes Recebem​

7. Como Começar​

8. O Que Acontece Depois​

1. Por Que Precisamos de Falantes

2. O Que Precisamos: Três Tarefas

Tarefa A: Avaliação de Qualidade de Tradução (Principal — ~8 horas no total)

Tarefa B: Validação de Equivalência do Linter (~2 horas)

Tarefa C: Revisão de Rejeição Falsa do FST (~1,5 horas)

3. Compromisso Total do Falante

4. Qualificações do Falante

5. Governança de Dados

6. O Que os Falantes Recebem

7. Como Começar

8. O Que Acontece Depois