Ir al contenido principal

Evaluación de MT

Resumen Ejecutivo. Esta página define los criterios de envío al leaderboard, las métricas de puntuación (chrF++, aceptación FST, coincidencia exacta, coincidencia equivalente, puntuación semántica), políticas anti-gaming, niveles de verificación y el flujo de envío. Los métodos que han sido expuestos a datos de evaluación serán descalificados.

champollion incluye un marco de evaluación de traducción automática diseñado para benchmarking reproducible de métodos de traducción — especialmente para idiomas de bajo recurso e indígenas donde los benchmarks estándar de MT no existen y las afirmaciones de calidad son difíciles de verificar.


El Leaderboard

La pieza central es el Method Leaderboard — un marcador en vivo respaldado por Supabase donde investigadores y miembros de la comunidad envían y comparan métodos de traducción con evaluación reproducible y con huella digital.

Cada envío incluye:

  • Pipeline con huella digital — vinculado a un commit específico de Git y hash de configuración, para que los resultados se remitan al código exacto que los produjo
  • Dataset versionado — con hash de contenido y versionado; las puntuaciones solo son comparables dentro de la misma versión del dataset
  • Métricas estandarizadas — toda la puntuación se calcula mediante el arnés de evaluación compartido, eliminando diferencias de implementación
  • Niveles de confianza — auto-benchmarked, GDS Verified o Community Validated
  • Seguimiento de costos — costo de API por envío, para que los compromisos costo-calidad sean transparentes

El leaderboard actualmente rastrea cinco métricas. Tres funcionan para cualquier idioma; dos están disponibles para Plains Cree y se generalizarán a medida que expandamos:

MétricaTipoQué Mide
chrF++F-score de n-gramas de caracteresMétrica de calidad primaria — correlaciona bien con el juicio humano, especialmente para idiomas morfológicamente ricos
Exact MatchProporción de coincidencias perfectasPrecisión estricta — ¿con qué frecuencia la traducción es exactamente el estándar de oro?
FST AcceptanceTasa de paso de puerta morfológicaPara métodos con verificación de transductor de estado finito — ¿qué proporción de salidas son morfológicamente válidas?
Equivalent MatchTasa de variante aceptableFracción que coincide con la referencia o una variante aceptable (orden de palabras, convención ortográfica). Actualmente CRK; generalizando.
Semantic ScoreFidelidad semánticaPreservación de significado — ¿la traducción captura el significado previsto independientemente de la forma superficial? Actualmente CRK; generalizando.

:::info Suite Completa de Métricas La Especificación de Puntuación define el inventario completo de 19 métricas en 5 categorías, fórmula de puntuación compuesta, tablas de pesos y umbrales de nivel de calidad. :::

→ Ver el leaderboard


Datasets Disponibles

EDTeKLA Development Set v1

El primer dataset de evaluación, construido para traducción English→Plains Cree (SRO). Creado por el grupo de investigación EdTeKLA de la Universidad de Alberta.

PropiedadValor
IDedtekla-dev-v1
Par de idiomasEN → CRK (Plains Cree, ortografía SRO)
Cantidad de entradas404 (master_corpus.json: 62 oro + 342 libro de texto); 548 total disponibles
LicenciaCC BY-NC-SA 4.0
Procedenciagold_standard (verificado por hablantes), textbook (materiales educativos publicados)

FLORES+ Devtest — Solo para Desarrollo

[!WARNING] FLORES+ está disponible para desarrollo y depuración pero NO se utiliza para evaluación oficial del leaderboard. FLORES+ (originalmente Meta FLORES-200) es un dataset de benchmark ampliamente público que casi con certeza los LLMs fronterizos han sido entrenados con él. Las puntuaciones contra FLORES+ no reflejan de manera confiable la calidad de traducción del mundo real para métodos basados en LLM. Los métodos no-LLM (FST, basados en reglas, NMT fine-tuned) se ven menos afectados pero las puntuaciones de FLORES+ aún no se publican en el leaderboard.

Los fixtures de FLORES+ permanecen disponibles en test/benchmark/fixtures/ para pruebas de humo del pipeline, validación entre idiomas y uso en desarrollo. La evaluación oficial utiliza corpus personalizados construidos a partir de texto escrito por humanos no disponible públicamente en forma paralela.

Consulte Evaluation Datasets para el esquema completo del dataset, niveles de dificultad y cómo crear el suyo.

:::danger NO ENTRENE con datos de evaluación

Estos datasets son solo para evaluación. Los métodos entrenados, fine-tuned, con few-shot-prompted o de otra manera expuestos a datos de evaluación producirán puntuaciones artificialmente infladas y serán descalificados del leaderboard.

Esto no es una sugerencia — es la regla más importante de la integridad de la evaluación. Utilice corpus separados para entrenamiento. Los conjuntos de evaluación deben permanecer invisibles para su modelo durante el desarrollo.

Si está utilizando datos de coaching o ejemplos few-shot, estos deben provenir de fuentes completamente separadas. Si tiene dudas, no los incluya. :::

:::warning No-determinismo de LLM

Las salidas de LLM son no-deterministas. Las puntuaciones representan mediciones en un punto en el tiempo bajo versiones de modelo específicas y configuraciones de API. Los proveedores de modelos pueden actualizar pesos, estrategias de decodificación o filtros de seguridad en cualquier momento, lo que puede causar desviación de puntuación entre ejecuciones. El leaderboard registra el slug exacto del modelo y la marca de tiempo para cada envío. :::


Qué Hace un Buen Método

No todos los métodos son iguales. Aquí está lo que separa el trabajo riguroso de las puntuaciones infladas.

Características de un método fuerte

  • Separación limpia de datos de entrenamiento y evaluación — su método nunca ha visto el conjunto de evaluación durante el desarrollo, ajuste, ingeniería de prompts o selección de ejemplos few-shot
  • Reproducible — alguien más puede clonar su repositorio, ejecutar el arnés y obtener las mismas puntuaciones (dentro de los límites de no-determinismo de LLM)
  • Documentado — su tarjeta de método describe qué hace su método, qué herramientas utiliza y cuáles son sus limitaciones
  • Honesto sobre el alcance — si su método solo funciona para un par de idiomas, dígalo; si se degrada en ciertos patrones morfológicos, documente eso
  • Consciente de la comunidad — para idiomas indígenas, su método respeta la soberanía de datos. Ha consultado con comunidades de idiomas o utilizado solo datos con licencia abierta

Banderas rojas (lo que se descalifica)

Bandera RojaPor Qué Es un Problema
Entrenamiento con datos de evaluaciónAnula completamente el propósito de la evaluación. Las puntuaciones infladas engañan a todos.
Cherry-picking de resultadosEjecutar 10 veces y enviar la mejor ejecución sin divulgar las otras
Post-procesamiento no divulgadoArreglar manualmente las salidas antes de la puntuación
Datos de coaching contaminadosUsar ejemplos del conjunto de evaluación como prompts few-shot o entradas de diccionario
Afirmar disponibilidad comercial sin procedenciaSi su método utiliza datos CC BY-NC-SA, no está listo comercialmente

Niveles de verificación

Los niveles de verificación describen quién validó el resultado — separado de los niveles de calidad (Baseline → Fluent) definidos en la Especificación de Puntuación, §5, que describen qué significa la puntuación compuesta automatizada.

NivelSignificadoCómo Obtenerlo
Self-benchmarkedUsted ejecutó el arnés usted mismo y envió resultadosAbra un PR con su tarjeta de ejecución
GDS VerifiedLos mantenedores de champollion reprodujeron sus resultadosEnvíe su método como un plugin instalable
Community ValidatedLa organización de gobernanza ejecutó contra estándar de oro + revisión de comunidadEnvíe código del método a la organización de gobernanza

Cómo Enviar

  1. Construya su método — consulte Building a Method para la interfaz del método
  2. Ejecute el arnés — consulte Eval Harness para configuración y uso
  3. Genere una tarjeta de ejecución — el arnés produce una tarjeta de ejecución JSON con sus puntuaciones, huella digital y metadatos
  4. Abra un PR — envíe su tarjeta de ejecución al repositorio del arnés de evaluación
  5. Aparezca en el leaderboard — una vez fusionado, sus resultados aparecen en el Method Leaderboard

Direcciones Futuras

  • Ejecuciones de comparación de modelos exhaustivas — evaluación sistemática de modelos fronterizos (GPT-4o, Claude, Gemini, etc.) en idiomas de champollion utilizando corpus de evaluación personalizados (no benchmarks públicos)
  • Más pares de idiomas — Quechua, Inuktitut y otros idiomas de bajo recurso a medida que datasets verificados por la comunidad estén disponibles
  • Importación de datasets — herramientas para convertir datasets de evaluación externos (WMT, Tatoeba, etc.) al formato de evaluación de champollion
  • Re-ejecuciones automatizadas — detectar cambios de versión de modelo y re-ejecutar benchmarks para rastrear desviación de puntuación

Véase También