Enviar un Método
Resumen Ejecutivo. Una guía paso a paso para enviar su primer benchmark al ranking. Clone el harness, ejecútelo contra un conjunto de datos, revise su tarjeta de ejecución y envíela. Toma 10 minutos si tiene una clave API.
Esta guía lo acompaña a través del envío de su primer benchmark al ranking de MT Eval Arena.
Requisitos Previos
- Python 3.10+
- Una clave API de OpenRouter (o equivalente para su proveedor de modelo)
- Un método de traducción — cualquier cosa que produzca traducciones a partir de un texto fuente
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp
Paso 1: Ejecutar el Harness
El harness califica su método contra un conjunto de datos estandarizado:
mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
| Bandera | Qué Hace |
|---|---|
--corpus | Ruta al corpus de evaluación (.json, .jsonl, .tsv) |
--model | Slug del modelo — alias corto (p. ej. gemini-pro) o ID completo de OpenRouter |
--condition | Etiqueta para su método (aparece en el ranking) |
--temperature | Temperatura de muestreo (menor = más determinista) |
--fst-retries | Opcional: número de intentos de reintento FST |
--submit | Enviar automáticamente la tarjeta de ejecución al ranking |
El harness produce una tarjeta de ejecución — un archivo JSON independiente con sus puntuaciones, el hash del conjunto de datos, el slug del modelo y una huella digital criptográfica que vincula los resultados a la configuración exacta del experimento.
Paso 2: Revisar Su Tarjeta de Ejecución
Las tarjetas de ejecución se guardan en results/. Inspeccione la suya antes de enviarla:
cat results/your-run-card.json | python -m json.tool
Campos clave a verificar:
scores.chrf_plus_plus— su métrica de calidad principalscores.exact_match_rate— proporción de traducciones perfectasscores.fst_acceptance_rate— validez morfológica (si se utilizó FST)totals.total_cost_usd— cuál fue el costo de la ejecuciónfingerprint— el hash de reproducibilidad del experimento
Consulte la Especificación de Tarjeta de Ejecución para el esquema completo.
Paso 3: Enviar
Envío automático
Si pasó --submit al ejecutar el harness, su tarjeta de ejecución ya fue cargada.
Envío manual
Envíe cualquier tarjeta de ejecución a través de la API:
curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json
O cargue a través de la Interfaz del Ranking.
Qué Sucede Después
- Su envío se valida (hash del conjunto de datos, integridad de la tarjeta de ejecución)
- Los resultados aparecen en el ranking como Auto-evaluado (nivel de confianza 1)
- Para obtener el estado GDS Verificado, envíe su método como un complemento instalable para que los mantenedores puedan reproducir sus resultados
- Para métodos de lenguas indígenas: si su método llega a la cima, comienza el proceso de transferencia de propiedad
Véase También
- Uso del Harness — referencia completa de CLI
- Reglas del Ranking — criterios de envío y políticas contra manipulación
- Construir un Método — el protocolo TranslationMethod
- Conjuntos de Datos — conjuntos de datos de evaluación disponibles