Perguntas Frequentes

Resumo Executivo. Respostas para perguntas comuns sobre o MT Eval Arena — como funciona a pontuação, o que resulta em desqualificação, como lidar com idiomas sem FSTs, recomendações de modelos e parâmetros, e o processo de submissão.

Pontuação & Métricas

Quais métricas o harness calcula?

O harness calcula cinco métricas para Plains Cree (o idioma de benchmark atual). Três são agnósticas de idioma e funcionam para qualquer idioma; duas atualmente dependem de plugins específicos do CRK e serão generalizadas conforme expandimos para mais idiomas.

Métrica	Escala	O Que Mede	Status
chrF++	0–100	Sobreposição de n-gramas de caracteres entre traduções preditas e de referência. Melhor métrica de superfície para idiomas morfologicamente ricos. Usa pontuação nativa do sacrebleu.	✅ Todos os idiomas
Exact match	0.0–1.0	Proporção de entradas onde a predição corresponde exatamente à referência após normalização.	✅ Todos os idiomas
FST acceptance	0.0–1.0	Proporção de palavras de saída aceitas por um transdutor de estados finitos (analisador morfológico). Calculado apenas quando um binário FST é fornecido.	✅ Todos os idiomas com FST
Equivalent match	0.0–1.0	Fração de entradas correspondentes à referência ou a uma variante aceitável — levando em conta ordem de palavras, convenção ortográfica e diferenças dialetais.	⚡ CRK (generalizando)
Semantic score	0.0–1.0	Pontuação de preservação de significado — quão bem a tradução captura o significado pretendido independentemente da forma de superfície?	⚡ CRK (generalizando)

Métricas adicionais estão planejadas: morphological accuracy, code-switching detection, terminology adherence e hallucination detection. Veja Scoring Specification §2 para o inventário completo de 19 métricas.

Como é calculada a pontuação composta?

A composta é uma média ponderada das métricas disponíveis, normalizada para uma escala 0.0–1.0. Os pesos são definidos em dois perfis:

Profile A (idiomas com FST): 9 métricas, métricas estruturais (FST + morphological accuracy) carregam 40% do peso composto
Profile B (idiomas sem FST): 8 métricas, semântica e chrF++ carregam peso de topo igual

Quando uma métrica não está disponível, seu peso é redistribuído proporcionalmente entre as métricas restantes. Isso significa que benchmarks em estágio inicial (com apenas chrF++ e exact match disponíveis) ainda produzem compostas válidas — os pesos efetivos apenas refletem o que está disponível.

As tabelas de peso completas, regras de normalização e justificativa de exclusão estão em Scoring Specification §4. O código do harness espelha essas tabelas em mt_eval_harness/scoring.py. chrF++ é normalizado dividindo por 100 antes da ponderação; taxas de code-switching e hallucination são invertidas (menor = melhor).

O que são níveis de qualidade?

Níveis de qualidade são rótulos heurísticos mapeados para intervalos de pontuação composta. Eles ajudam a comunicar o que uma pontuação significa na prática:

Nível	Intervalo Composto	Interpretação
Baseline	0.00 – 0.30	Abaixo de qualidade útil. Método precisa de melhoria significativa.
Emerging	0.30 – 0.50	Mostra promessa. Algumas traduções estão corretas mas inconsistentes.
Functional	0.50 – 0.70	Utilizável como referência com revisão humana. Não adequado para implantação sem revisão.
Deployable	0.70 – 0.85	Pronto para uso em produção com revisão periódica. Dispara elegibilidade de transferência de propriedade.
Fluent	0.85 – 1.00	Qualidade quase nativa. Adequado para implantação sem supervisão.

Qual é a diferença entre níveis de qualidade e níveis de verificação?

Níveis de qualidade descrevem o que a pontuação automatizada significa (Baseline → Fluent). Níveis de verificação descrevem quem validou o resultado:

Nível de Verificação	O Que Significa
Self-benchmarked	O submissor executou o harness por conta própria. Pontuações são plausíveis mas não verificadas.
GDS Verified	Um mantenedor reproduziu o resultado usando a configuração de método submetida.
Community Validated	Falantes bilíngues revisaram as traduções e confirmaram a qualidade.

Um método pode ser "Deployable" em qualidade mas apenas "Self-benchmarked" em verificação — significando que a pontuação parece ótima mas ninguém confirmou independentemente.

Submissão & Desqualificação

O que resulta em desqualificação da minha submissão?

Sua submissão será rejeitada ou sinalizada se:

Seu método foi exposto aos dados de avaliação. Se você treinou, ajustou, fez few-shot-prompt ou de outra forma usou qualquer entrada do conjunto de dados de avaliação, suas pontuações são artificialmente inflacionadas. Isso inclui usar as traduções de referência em seu prompt.
Seu run card falha nas verificações de integridade. A impressão digital deve corresponder à configuração. Run cards adulterados são rejeitados.
Seu método não implementa o protocolo TranslationMethod. O harness espera translate(entries, config) → results. Integrações personalizadas que contornam o harness não são aceitas.

Posso submeter múltiplas vezes?

Sim. O leaderboard rastreia todas as submissões. Você pode iterar — executar dezenas de experimentos, submeter apenas o melhor. Cada submissão registra uma impressão digital única, então não há ambiguidade sobre qual execução produziu qual pontuação.

Como faço para verificar minha pontuação?

Self-benchmarked (automático): Toda submissão começa aqui.
GDS Verified: Submeta seu método como um pacote reproduzível (código + configuração + dados de coaching). Um mantenedor o executará novamente contra o mesmo conjunto de dados e confirmará que as pontuações correspondem.
Community Validated: Para idiomas indígenas, isso requer que falantes bilíngues revisem uma amostra de traduções. Isso não pode ser automatizado — requer engajamento comunitário.

A API de submissão está ativa?

Ainda não. O endpoint https://mtevalarena.org/api/leaderboard/submit é aspiracional. Submissões atuais devem ser feitas via pull request para o repositório eval harness com seu JSON de run card no diretório results/.

Modelos & Parâmetros

Qual modelo devo usar?

Não há um único melhor modelo — depende do par de idiomas, seu orçamento e sua abordagem. Orientação geral:

Tipo de Idioma	Ponto de Partida Recomendado	Por Quê
Alto recurso (Francês, Espanhol, Japonês)	`google/gemini-2.5-flash` ou `gpt-4o-mini`	Rápido, barato, baseline forte
Baixo recurso com alguma cobertura LLM (Quéchua, Iorubá)	`google/gemini-2.5-pro` ou `anthropic/claude-sonnet-4`	Modelos maiores têm melhor conhecimento latente
Polissintético / muito baixo recurso (Plains Cree, Inuktitut)	`google/gemini-2.5-pro` com coaching	Dados de coaching importam mais que a escolha do modelo. OMT-1600 inclui alguns idiomas polissintéticos (ex., CRK em tier R1) mas com tokenização BPE padrão — faça benchmark como baseline na Arena.

O harness de avaliação usa OpenRouter, então qualquer modelo disponível no OpenRouter pode ser avaliado. Execute champollion models --method llm para ver modelos disponíveis.

Qual temperatura devo usar?

Menor é geralmente melhor para tradução:

Temperatura	Efeito	Recomendado Para
0.0 – 0.2	Saída altamente determinística, consistente	Métodos de produção, benchmarks finais
0.3 – 0.5	Alguma variação, ocasionalmente mais criativo	Exploração, iteração inicial
0.6+	Alta variação, imprevisível	Não recomendado para benchmarking de MT

Temperatura é registrada no run card, então diferentes temperaturas produzem diferentes impressões digitais — são tratadas como experimentos diferentes.

Dados de coaching ajudam?

Sim, significativamente — para idiomas de baixo recurso. Dados de coaching (regras gramaticais, entradas de dicionário, notas de estilo) são injetados no prompt do sistema do LLM. Para Plains Cree, métodos com coaching consistentemente superam métodos LLM brutos para idiomas polissintéticos porque LLMs de propósito geral têm exposição limitada a polissintéticos e nenhuma consciência morfológica. Mesmo OMT-1600, que foi especificamente treinado para CRK, usa tokenização BPE padrão que não pode representar morfologia polissintética estruturalmente. Os dados de coaching fornecem o contexto linguístico que o modelo não possui.

Para idiomas de alto recurso (Francês, Espanhol), coaching tem menos impacto porque o modelo já tem conhecimento baseline forte.

Veja Coaching Data para a especificação completa.

FST & Validação Morfológica

E se não houver FST para meu idioma?

Muitos idiomas não têm um transdutor de estados finitos. Tudo bem — o harness funciona sem um. A pontuação composta usa pesos de Profile B (veja Scoring Specification §4.3) que deslocam peso para métricas semânticas e de superfície. FST acceptance é marcado como null no run card.

Os principais registros para FSTs existentes:

Registro	Cobertura	URL
GiellaLT	Sámi, Cree, Inuktitut e outros idiomas do Ártico/subartico	giellalt.uit.no
ALTLab	Plains Cree, Woods Cree, Ojibwe	altlab.artsrn.ualberta.ca
Apertium	~60 pares de idiomas, principalmente europeus	apertium.org
UniMorph	Paradigmas morfológicos para 150+ idiomas	unimorph.github.io

Posso construir um FST?

Sim, mas não é trivial. Um FST codifica as regras morfológicas de um idioma — todas as formas de palavras válidas. Construir um requer conhecimento linguístico profundo do idioma. Se você tiver acesso a uma gramática morfológica (ex., de um departamento de linguística), ela pode ser compilada em um FST usando ferramentas como HFST ou Foma.

Como o gating de FST funciona na prática?

O pipeline com gating de FST funciona assim:

LLM gera uma tradução
Cada palavra na saída é verificada contra o FST
Palavras que o FST rejeita são sinalizadas como morfologicamente inválidas
O método pode tentar novamente com feedback ("a palavra X não é válida, tente novamente")
Após tentativas, palavras inválidas restantes são registradas

A taxa de aceitação de FST mede quantas palavras passam na validação. Veja o FST-Gated Pipeline Tutorial para um exemplo completo trabalhado.

Dados & Conjuntos de Dados

Posso contribuir com um conjunto de dados para um novo idioma?

Sim. Requisitos mínimos de Benchmark Specification §11:

50 entradas padrão-ouro (fonte + tradução de referência verificada)
30 entradas de desenvolvimento (podem sobrepor com padrão-ouro para corpora pequenos)
Consentimento comunitário (para idiomas indígenas, autorização explícita de um órgão de governança)
Documentação de proveniência (de onde os dados vieram, qual licença se aplica)

Novos conjuntos de dados abrem novas faixas de leaderboard automaticamente. Veja For Language Communities para o guia do contribuidor.

Em qual formato meu conjunto de dados deve estar?

JSON com os nomes de campo canônicos:

{
  "name": "my-language-dev-v1",
  "language_pair": "en-xxx",
  "segment": "development",
  "version": "1.0",
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "[translation in target language]",
      "difficulty": 1,
      "domain": "general"
    }
  ]
}

Veja Datasets para o esquema completo e definições de tier de dificuldade.

Soberania & Propriedade

Quem é o proprietário de um método construído para um idioma indígena?

Para idiomas indígenas, métodos que atingem tier Deployable (composta ≥ 0.70) E passam na validação comunitária disparam o processo de ownership transfer. A propriedade do código é transferida do pesquisador para a organização de governança da comunidade linguística.

O pesquisador retém:

Direitos de publicação (artigos acadêmicos sobre o método)
Crédito no leaderboard
O direito de aplicar as mesmas técnicas a outros idiomas

A organização de governança ganha:

Propriedade total do código do método e dados de coaching
Controle sobre implantação (quando, onde, como)
Receita do uso de API (90% comunidade, 10% infraestrutura)

Posso usar champollion para idiomas não indígenas sem preocupações de soberania?

Sim. Para idiomas padrão (Francês, Japonês, Espanhol, etc.), não há considerações de soberania. Use champollion normalmente — traduza, sincronize, publique como desejar. O framework de soberania se aplica especificamente a idiomas indígenas e governados por comunidades onde princípios de governança de dados (OCAP®, CARE, Te Mana Raraunga) requerem consideração especial.

Veja Também

How It Works — o explicador de solução completo
Scoring Specification — a SSOT para toda lógica de pontuação (métricas, pesos, níveis)
Benchmark Specification — protocolo de avaliação, formato de corpus, soberania
Submit a Method — quickstart passo a passo
Leaderboard Rules — critérios de submissão
Data Sovereignty — OCAP®, CARE e obrigações éticas

Pontuação & Métricas​

Quais métricas o harness calcula?​

Como é calculada a pontuação composta?​

O que são níveis de qualidade?​

Qual é a diferença entre níveis de qualidade e níveis de verificação?​

Submissão & Desqualificação​

O que resulta em desqualificação da minha submissão?​

Posso submeter múltiplas vezes?​

Como faço para verificar minha pontuação?​

A API de submissão está ativa?​

Modelos & Parâmetros​

Qual modelo devo usar?​

Qual temperatura devo usar?​

Dados de coaching ajudam?​

FST & Validação Morfológica​

E se não houver FST para meu idioma?​

Posso construir um FST?​

Como o gating de FST funciona na prática?​

Dados & Conjuntos de Dados​

Posso contribuir com um conjunto de dados para um novo idioma?​

Em qual formato meu conjunto de dados deve estar?​

Soberania & Propriedade​

Quem é o proprietário de um método construído para um idioma indígena?​

Posso usar champollion para idiomas não indígenas sem preocupações de soberania?​

Veja Também​