Ir para o conteúdo principal

Avaliação de MT

Resumo Executivo. Esta página define os critérios de submissão do leaderboard, métricas de pontuação (chrF++, aceitação FST, correspondência exata, correspondência equivalente, pontuação semântica), políticas anti-gaming, níveis de verificação e o fluxo de submissão. Métodos que foram expostos a dados de avaliação são desqualificados.

champollion inclui um framework de avaliação de tradução automática projetado para benchmarking reproduzível de métodos de tradução — especialmente para idiomas de baixo recurso e indígenas onde benchmarks padrão de MT não existem e reivindicações de qualidade são difíceis de verificar.


O Leaderboard

A peça central é o Method Leaderboard — um placar ao vivo, apoiado por Supabase, onde pesquisadores e membros da comunidade submetem e comparam métodos de tradução com avaliação reproduzível e com impressão digital.

Cada submissão inclui:

  • Pipeline com impressão digital — vinculado a um commit Git específico e hash de configuração, para que os resultados rastreiem até o código exato que os produziu
  • Dataset versionado — com hash de conteúdo e versionado; pontuações são comparáveis apenas dentro da mesma versão do dataset
  • Métricas padronizadas — toda pontuação é computada pelo harness de avaliação compartilhado, eliminando diferenças de implementação
  • Níveis de confiança — auto-avaliado, GDS Verificado ou Validado pela Comunidade
  • Rastreamento de custos — custo de API por submissão, para que trade-offs custo–qualidade sejam transparentes

O leaderboard atualmente rastreia cinco métricas. Três funcionam para qualquer idioma; duas estão disponíveis para Plains Cree e serão generalizadas conforme expandimos:

MétricaTipoO Que Mede
chrF++F-score de n-gramas de caracteresMétrica de qualidade primária — correlaciona bem com julgamento humano, especialmente para idiomas morfologicamente ricos
Exact MatchProporção de correspondências perfeitasPrecisão rigorosa — com que frequência a tradução é exatamente o padrão ouro?
FST AcceptanceTaxa de aprovação do portão morfológicoPara métodos com verificação de transdutor de estado finito — qual proporção de saídas é morfologicamente válida?
Equivalent MatchTaxa de variante aceitávelFração correspondendo à referência ou a uma variante aceitável (ordem de palavras, convenção ortográfica). Atualmente CRK; generalizando.
Semantic ScoreFidelidade semânticaPreservação de significado — a tradução captura o significado pretendido independentemente da forma de superfície? Atualmente CRK; generalizando.

:::info Suite Completa de Métricas A Especificação de Pontuação define o inventário completo de 19 métricas em 5 categorias, fórmula de pontuação composta, tabelas de peso e limiares de nível de qualidade. :::

→ Ver o leaderboard


Datasets Disponíveis

EDTeKLA Development Set v1

O primeiro dataset de avaliação, construído para tradução English→Plains Cree (SRO). Criado pelo grupo de pesquisa EdTeKLA da Universidade de Alberta.

PropriedadeValor
IDedtekla-dev-v1
Par de idiomasEN → CRK (Plains Cree, ortografia SRO)
Contagem de entradas404 (master_corpus.json: 62 ouro + 342 livro didático); 548 total disponível
LicençaCC BY-NC-SA 4.0
Proveniênciagold_standard (verificado por falantes), textbook (materiais educacionais publicados)

FLORES+ Devtest — Apenas para Uso em Desenvolvimento

[!WARNING] FLORES+ está disponível para desenvolvimento e depuração, mas NÃO é usado para avaliação oficial do leaderboard. FLORES+ (originalmente Meta FLORES-200) é um dataset de benchmark amplamente público que LLMs de fronteira quase certamente foram treinados. Pontuações contra FLORES+ não refletem de forma confiável a qualidade de tradução do mundo real para métodos baseados em LLM. Métodos não-LLM (FST, baseado em regras, NMT fine-tuned) são menos afetados, mas pontuações FLORES+ ainda não são publicadas no leaderboard.

Fixtures FLORES+ permanecem disponíveis em test/benchmark/fixtures/ para testes de fumaça de pipeline, validação entre idiomas e uso em desenvolvimento. A avaliação oficial usa corpora personalizados construídos a partir de texto escrito por humanos não disponível publicamente em forma paralela.

Veja Evaluation Datasets para o schema completo do dataset, níveis de dificuldade e como criar o seu próprio.

:::danger NÃO TREINE em dados de avaliação

Estes datasets são apenas para avaliação. Métodos treinados, fine-tuned, com prompt de poucos exemplos ou de outra forma expostos a dados de avaliação produzirão pontuações artificialmente inflacionadas e serão desqualificados do leaderboard.

Isto não é uma sugestão — é a regra mais importante de integridade de avaliação. Use corpora separados para treinamento. Conjuntos de avaliação devem permanecer invisíveis para seu modelo durante o desenvolvimento.

Se você está usando dados de coaching ou exemplos de poucos exemplos, eles devem vir de fontes completamente separadas. Se tiver dúvida, não inclua. :::

:::warning Não-determinismo de LLM

Saídas de LLM são não-determinísticas. Pontuações representam medições em um ponto no tempo sob versões de modelo específicas e configurações de API. Provedores de modelo podem atualizar pesos, estratégias de decodificação ou filtros de segurança a qualquer momento, o que pode causar desvio de pontuação entre execuções. O leaderboard registra o slug de modelo exato e timestamp para cada submissão. :::


O Que Faz um Bom Método

Nem todos os métodos são criados iguais. Aqui está o que separa trabalho rigoroso de pontuações inflacionadas.

Características de um método forte

  • Separação limpa de dados de treinamento e avaliação — seu método nunca viu o conjunto de avaliação durante desenvolvimento, ajuste, engenharia de prompt ou seleção de exemplos de poucos exemplos
  • Reproduzível — alguém pode clonar seu repo, executar o harness e obter as mesmas pontuações (dentro dos limites de não-determinismo de LLM)
  • Documentado — seu método card descreve o que seu método faz, quais ferramentas usa e quais são suas limitações
  • Honesto sobre escopo — se seu método funciona apenas para um par de idiomas, diga isso; se degrada em certos padrões morfológicos, documente isso
  • Consciente da comunidade — para idiomas indígenas, seu método respeita soberania de dados. Você consultou comunidades de idiomas ou usou apenas dados com licença aberta

Sinais de alerta (o que é desqualificado)

Sinal de AlertaPor Que É um Problema
Treinamento em dados de avaliaçãoDerrota completamente o propósito da avaliação. Pontuações inflacionadas enganam todos.
Cherry-picking de resultadosExecutar 10 vezes e submeter a melhor execução sem divulgar as outras
Pós-processamento não divulgadoCorrigir manualmente saídas antes de pontuar
Dados de coaching contaminadosUsar exemplos do conjunto de avaliação como prompts de poucos exemplos ou entradas de dicionário
Reivindicar prontidão comercial sem proveniênciaSe seu método usa dados CC BY-NC-SA, não está pronto comercialmente

Níveis de verificação

Níveis de verificação descrevem quem validou o resultado — separado dos níveis de qualidade (Baseline → Fluent) definidos na Especificação de Pontuação, §5, que descrevem o que a pontuação composta automatizada significa.

NívelSignificadoComo Obter
Self-benchmarkedVocê executou o harness você mesmo e submeteu resultadosAbra um PR com seu run card
GDS VerifiedOs mantenedores do champollion reproduziram seus resultadosSubmeta seu método como um plugin instalável
Community ValidatedOrg de governança executou contra padrão ouro + revisão da comunidadeSubmeta código do método para org de governança

Como Submeter

  1. Construa seu método — veja Building a Method para a interface do método
  2. Execute o harness — veja Eval Harness para setup e uso
  3. Gere um run card — o harness produz um run card JSON com suas pontuações, impressão digital e metadados
  4. Abra um PR — submeta seu run card para o repositório do eval harness
  5. Apareça no leaderboard — uma vez mesclado, seus resultados aparecem no Method Leaderboard

Direções Futuras

  • Execuções de comparação de modelo abrangentes — avaliação sistemática de modelos de fronteira (GPT-4o, Claude, Gemini, etc.) em idiomas champollion usando corpora de avaliação personalizados (não benchmarks públicos)
  • Mais pares de idiomas — Quechua, Inuktitut e outros idiomas de baixo recurso conforme datasets verificados pela comunidade ficarem disponíveis
  • Importação de dataset — ferramentas para converter datasets de avaliação externos (WMT, Tatoeba, etc.) para o formato de avaliação champollion
  • Re-execuções automatizadas — detectando mudanças de versão de modelo e re-executando benchmarks para rastrear desvio de pontuação

Veja Também