Avaliação de MT

Resumo Executivo. Esta página define os critérios de submissão do leaderboard, métricas de pontuação (chrF++, aceitação FST, correspondência exata, correspondência equivalente, pontuação semântica), políticas anti-gaming, níveis de verificação e o fluxo de submissão. Métodos que foram expostos a dados de avaliação são desqualificados.

champollion inclui um framework de avaliação de tradução automática projetado para benchmarking reproduzível de métodos de tradução — especialmente para idiomas de baixo recurso e indígenas onde benchmarks padrão de MT não existem e reivindicações de qualidade são difíceis de verificar.

O Leaderboard

A peça central é o Method Leaderboard — um placar ao vivo, apoiado por Supabase, onde pesquisadores e membros da comunidade submetem e comparam métodos de tradução com avaliação reproduzível e com impressão digital.

Cada submissão inclui:

Pipeline com impressão digital — vinculado a um commit Git específico e hash de configuração, para que os resultados rastreiem até o código exato que os produziu
Dataset versionado — com hash de conteúdo e versionado; pontuações são comparáveis apenas dentro da mesma versão do dataset
Métricas padronizadas — toda pontuação é computada pelo harness de avaliação compartilhado, eliminando diferenças de implementação
Níveis de confiança — auto-avaliado, GDS Verificado ou Validado pela Comunidade
Rastreamento de custos — custo de API por submissão, para que trade-offs custo–qualidade sejam transparentes

O leaderboard atualmente rastreia cinco métricas. Três funcionam para qualquer idioma; duas estão disponíveis para Plains Cree e serão generalizadas conforme expandimos:

Métrica	Tipo	O Que Mede
chrF++	F-score de n-gramas de caracteres	Métrica de qualidade primária — correlaciona bem com julgamento humano, especialmente para idiomas morfologicamente ricos
Exact Match	Proporção de correspondências perfeitas	Precisão rigorosa — com que frequência a tradução é exatamente o padrão ouro?
FST Acceptance	Taxa de aprovação do portão morfológico	Para métodos com verificação de transdutor de estado finito — qual proporção de saídas é morfologicamente válida?
Equivalent Match	Taxa de variante aceitável	Fração correspondendo à referência ou a uma variante aceitável (ordem de palavras, convenção ortográfica). Atualmente CRK; generalizando.
Semantic Score	Fidelidade semântica	Preservação de significado — a tradução captura o significado pretendido independentemente da forma de superfície? Atualmente CRK; generalizando.

:::info Suite Completa de Métricas A Especificação de Pontuação define o inventário completo de 19 métricas em 5 categorias, fórmula de pontuação composta, tabelas de peso e limiares de nível de qualidade. :::

→ Ver o leaderboard

Datasets Disponíveis

EDTeKLA Development Set v1

O primeiro dataset de avaliação, construído para tradução English→Plains Cree (SRO). Criado pelo grupo de pesquisa EdTeKLA da Universidade de Alberta.

Propriedade	Valor
ID	`edtekla-dev-v1`
Par de idiomas	EN → CRK (Plains Cree, ortografia SRO)
Contagem de entradas	404 (`master_corpus.json`: 62 ouro + 342 livro didático); 548 total disponível
Licença	CC BY-NC-SA 4.0
Proveniência	`gold_standard` (verificado por falantes), `textbook` (materiais educacionais publicados)

FLORES+ Devtest — Apenas para Uso em Desenvolvimento

[!WARNING] FLORES+ está disponível para desenvolvimento e depuração, mas NÃO é usado para avaliação oficial do leaderboard. FLORES+ (originalmente Meta FLORES-200) é um dataset de benchmark amplamente público que LLMs de fronteira quase certamente foram treinados. Pontuações contra FLORES+ não refletem de forma confiável a qualidade de tradução do mundo real para métodos baseados em LLM. Métodos não-LLM (FST, baseado em regras, NMT fine-tuned) são menos afetados, mas pontuações FLORES+ ainda não são publicadas no leaderboard.

Fixtures FLORES+ permanecem disponíveis em test/benchmark/fixtures/ para testes de fumaça de pipeline, validação entre idiomas e uso em desenvolvimento. A avaliação oficial usa corpora personalizados construídos a partir de texto escrito por humanos não disponível publicamente em forma paralela.

Veja Evaluation Datasets para o schema completo do dataset, níveis de dificuldade e como criar o seu próprio.

:::danger NÃO TREINE em dados de avaliação

Estes datasets são apenas para avaliação. Métodos treinados, fine-tuned, com prompt de poucos exemplos ou de outra forma expostos a dados de avaliação produzirão pontuações artificialmente inflacionadas e serão desqualificados do leaderboard.

Isto não é uma sugestão — é a regra mais importante de integridade de avaliação. Use corpora separados para treinamento. Conjuntos de avaliação devem permanecer invisíveis para seu modelo durante o desenvolvimento.

Se você está usando dados de coaching ou exemplos de poucos exemplos, eles devem vir de fontes completamente separadas. Se tiver dúvida, não inclua. :::

:::warning Não-determinismo de LLM

Saídas de LLM são não-determinísticas. Pontuações representam medições em um ponto no tempo sob versões de modelo específicas e configurações de API. Provedores de modelo podem atualizar pesos, estratégias de decodificação ou filtros de segurança a qualquer momento, o que pode causar desvio de pontuação entre execuções. O leaderboard registra o slug de modelo exato e timestamp para cada submissão. :::

O Que Faz um Bom Método

Nem todos os métodos são criados iguais. Aqui está o que separa trabalho rigoroso de pontuações inflacionadas.

Características de um método forte

Separação limpa de dados de treinamento e avaliação — seu método nunca viu o conjunto de avaliação durante desenvolvimento, ajuste, engenharia de prompt ou seleção de exemplos de poucos exemplos
Reproduzível — alguém pode clonar seu repo, executar o harness e obter as mesmas pontuações (dentro dos limites de não-determinismo de LLM)
Documentado — seu método card descreve o que seu método faz, quais ferramentas usa e quais são suas limitações
Honesto sobre escopo — se seu método funciona apenas para um par de idiomas, diga isso; se degrada em certos padrões morfológicos, documente isso
Consciente da comunidade — para idiomas indígenas, seu método respeita soberania de dados. Você consultou comunidades de idiomas ou usou apenas dados com licença aberta

Sinais de alerta (o que é desqualificado)

Sinal de Alerta	Por Que É um Problema
Treinamento em dados de avaliação	Derrota completamente o propósito da avaliação. Pontuações inflacionadas enganam todos.
Cherry-picking de resultados	Executar 10 vezes e submeter a melhor execução sem divulgar as outras
Pós-processamento não divulgado	Corrigir manualmente saídas antes de pontuar
Dados de coaching contaminados	Usar exemplos do conjunto de avaliação como prompts de poucos exemplos ou entradas de dicionário
Reivindicar prontidão comercial sem proveniência	Se seu método usa dados CC BY-NC-SA, não está pronto comercialmente

Níveis de verificação

Níveis de verificação descrevem quem validou o resultado — separado dos níveis de qualidade (Baseline → Fluent) definidos na Especificação de Pontuação, §5, que descrevem o que a pontuação composta automatizada significa.

Nível	Significado	Como Obter
Self-benchmarked	Você executou o harness você mesmo e submeteu resultados	Abra um PR com seu run card
GDS Verified	Os mantenedores do champollion reproduziram seus resultados	Submeta seu método como um plugin instalável
Community Validated	Org de governança executou contra padrão ouro + revisão da comunidade	Submeta código do método para org de governança

Como Submeter

Construa seu método — veja Building a Method para a interface do método
Execute o harness — veja Eval Harness para setup e uso
Gere um run card — o harness produz um run card JSON com suas pontuações, impressão digital e metadados
Abra um PR — submeta seu run card para o repositório do eval harness
Apareça no leaderboard — uma vez mesclado, seus resultados aparecem no Method Leaderboard

Direções Futuras

Execuções de comparação de modelo abrangentes — avaliação sistemática de modelos de fronteira (GPT-4o, Claude, Gemini, etc.) em idiomas champollion usando corpora de avaliação personalizados (não benchmarks públicos)
Mais pares de idiomas — Quechua, Inuktitut e outros idiomas de baixo recurso conforme datasets verificados pela comunidade ficarem disponíveis
Importação de dataset — ferramentas para converter datasets de avaliação externos (WMT, Tatoeba, etc.) para o formato de avaliação champollion
Re-execuções automatizadas — detectando mudanças de versão de modelo e re-executando benchmarks para rastrear desvio de pontuação

Veja Também

Method Leaderboard — pontuações ao vivo e submissões
Eval Harness — como executar avaliações
Evaluation Datasets — formato de dataset e datasets disponíveis
Building a Method — especificação da interface do método
Run Card Specification — schema JSON do run card
Benchmark Specification — protocolo de avaliação, formato de corpus, soberania
Scoring Specification — SSOT para métricas, pesos compostos e níveis de qualidade

O Leaderboard​

Datasets Disponíveis​

EDTeKLA Development Set v1​

FLORES+ Devtest — Apenas para Uso em Desenvolvimento​

O Que Faz um Bom Método​

Características de um método forte​

Sinais de alerta (o que é desqualificado)​

Níveis de verificação​

Como Submeter​

Direções Futuras​

Veja Também​