Ir al contenido principal

Enviar un Método

Resumen Ejecutivo. Una guía paso a paso para enviar su primer benchmark al ranking. Clone el harness, ejecútelo contra un conjunto de datos, revise su tarjeta de ejecución y envíela. Toma 10 minutos si tiene una clave API.

Esta guía lo acompaña a través del envío de su primer benchmark al ranking de MT Eval Arena.


Requisitos Previos

  • Python 3.10+
  • Una clave API de OpenRouter (o equivalente para su proveedor de modelo)
  • Un método de traducción — cualquier cosa que produzca traducciones a partir de un texto fuente
# Clone the eval harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install sacrebleu aiohttp

Paso 1: Ejecutar el Harness

El harness califica su método contra un conjunto de datos estandarizado:

mt-eval run \
--corpus data/edtekla-dev-v1.json \
--model gemini-pro \
--condition your-method-name \
--temperature 0.2
BanderaQué Hace
--corpusRuta al corpus de evaluación (.json, .jsonl, .tsv)
--modelSlug del modelo — alias corto (p. ej. gemini-pro) o ID completo de OpenRouter
--conditionEtiqueta para su método (aparece en el ranking)
--temperatureTemperatura de muestreo (menor = más determinista)
--fst-retriesOpcional: número de intentos de reintento FST
--submitEnviar automáticamente la tarjeta de ejecución al ranking

El harness produce una tarjeta de ejecución — un archivo JSON independiente con sus puntuaciones, el hash del conjunto de datos, el slug del modelo y una huella digital criptográfica que vincula los resultados a la configuración exacta del experimento.


Paso 2: Revisar Su Tarjeta de Ejecución

Las tarjetas de ejecución se guardan en results/. Inspeccione la suya antes de enviarla:

cat results/your-run-card.json | python -m json.tool

Campos clave a verificar:

  • scores.chrf_plus_plus — su métrica de calidad principal
  • scores.exact_match_rate — proporción de traducciones perfectas
  • scores.fst_acceptance_rate — validez morfológica (si se utilizó FST)
  • totals.total_cost_usd — cuál fue el costo de la ejecución
  • fingerprint — el hash de reproducibilidad del experimento

Consulte la Especificación de Tarjeta de Ejecución para el esquema completo.


Paso 3: Enviar

Envío automático

Si pasó --submit al ejecutar el harness, su tarjeta de ejecución ya fue cargada.

Envío manual

Envíe cualquier tarjeta de ejecución a través de la API:

curl -X POST https://mtevalarena.org/api/leaderboard/submit \
-H "Content-Type: application/json" \
-d @results/your-run-card.json

O cargue a través de la Interfaz del Ranking.


Qué Sucede Después

  1. Su envío se valida (hash del conjunto de datos, integridad de la tarjeta de ejecución)
  2. Los resultados aparecen en el ranking como Auto-evaluado (nivel de confianza 1)
  3. Para obtener el estado GDS Verificado, envíe su método como un complemento instalable para que los mantenedores puedan reproducir sus resultados
  4. Para métodos de lenguas indígenas: si su método llega a la cima, comienza el proceso de transferencia de propiedad

Véase También