Enviar um Método
Resumo Executivo. Um guia passo a passo para enviar sua primeira execução de benchmark para o leaderboard. Clone o harness, execute-o contra um dataset, revise seu run card e envie. Leva 10 minutos se você tiver uma chave de API.
Este guia o orienta através do envio de sua primeira execução de benchmark para o leaderboard do MT Eval Arena.
Pré-requisitos
- Python 3.10+
- Uma chave de API OpenRouter (ou equivalente para seu provedor de modelo)
- Um método de tradução — qualquer coisa que produza traduções a partir de um texto de origem
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp
Etapa 1: Execute o Harness
O harness avalia seu método contra um dataset padronizado:
mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
| Flag | O que faz |
|---|---|
--corpus | Caminho para o corpus de avaliação (.json, .jsonl, .tsv) |
--model | Slug do modelo — alias curto (ex. gemini-pro) ou ID OpenRouter completo |
--condition | Rótulo para seu método (aparece no leaderboard) |
--temperature | Temperatura de amostragem (menor = mais determinístico) |
--fst-retries | Opcional: número de tentativas de retry FST |
--submit | Enviar automaticamente o run card para o leaderboard |
O harness produz um run card — um arquivo JSON autossuficiente com suas pontuações, o hash do dataset, o slug do modelo e uma impressão digital criptográfica vinculando resultados à configuração exata do experimento.
Etapa 2: Revise Seu Run Card
Run cards são salvos em results/. Inspecione o seu antes de enviar:
cat results/your-run-card.json | python -m json.tool
Campos-chave para verificar:
scores.chrf_plus_plus— sua métrica de qualidade primáriascores.exact_match_rate— proporção de traduções perfeitasscores.fst_acceptance_rate— validade morfológica (se FST foi usado)totals.total_cost_usd— o que a execução custoufingerprint— o hash de reprodutibilidade do experimento
Veja a Especificação do Run Card para o schema completo.
Etapa 3: Envie
Envio automático
Se você passou --submit ao executar o harness, seu run card já foi enviado.
Envio manual
Envie qualquer run card via API:
curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json
Ou faça upload através da Interface do Leaderboard.
O que Acontece Depois
- Seu envio é validado (hash do dataset, integridade do run card)
- Os resultados aparecem no leaderboard como Self-benchmarked (nível de confiança 1)
- Para obter status GDS Verified, envie seu método como um plugin instalável para que os mantenedores possam reproduzir seus resultados
- Para métodos de línguas indígenas: se seu método chegar ao topo, o processo de transferência de propriedade começa
Veja Também
- Uso do Harness — referência CLI completa
- Regras do Leaderboard — critérios de envio e políticas anti-gaming
- Construindo um Método — o protocolo TranslationMethod
- Datasets — datasets de avaliação disponíveis