Ir al contenido principal

Conjuntos de Datos de Evaluación

Resumen Ejecutivo. Esta página describe los conjuntos de datos de evaluación disponibles para evaluación comparativa, incluyendo el esquema de entrada del corpus, niveles de dificultad (1–5) y requisitos de procedencia. Actualmente disponibles: EDTeKLA Dev v1 (Plains Cree, 548 entradas totales: 486 de libro de texto + 62 estándar de oro) y FLORES+ Devtest (39 idiomas, 1,012 entradas cada uno).

Los conjuntos de datos son los objetivos fijos contra los que se ejecuta el arnés. Cada conjunto de datos es un archivo JSON que contiene pares origen→destino con referencias estándar de oro. El arnés califica los resultados del modelo contra estas referencias — nunca las modifica.

:::danger NO ENTRENE con datos de evaluación

⚠️ Estos conjuntos de datos son solo para evaluación. Los métodos entrenados, ajustados, solicitados con pocos ejemplos, o de otra manera expuestos a datos de evaluación producirán puntuaciones artificialmente infladas y serán descalificados de la tabla de clasificación.

Utilice corpus separados para entrenamiento. Los conjuntos de evaluación deben permanecer sin ser vistos por su modelo durante el desarrollo. :::


Formato del Conjunto de Datos

Cada conjunto de datos sigue el mismo esquema JSON:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info Esquema Canónico La Especificación de Evaluación Comparativa define el corpus canónico y el esquema de entrada. Esta página documenta los conjuntos de datos disponibles y cómo crear nuevos. :::

Bloque dataset de Nivel Superior

CampoTipoDescripción
idstringIdentificador único del conjunto de datos (utilizado en tarjetas de ejecución y tabla de clasificación)
versionstringVersión semántica. Incrementar esto invalida comparaciones previas de tarjetas de ejecución
language_pairstringEtiqueta de visualización (p. ej., EN→CRK)
descriptionstringOpcional. Resumen legible por humanos
source_languagestringCódigo de idioma de origen BCP 47
target_languagestringCódigo de idioma de destino BCP 47
createdstringFecha de creación ISO 8601
licensestringIdentificador de licencia SPDX
provenancestring[]Lista de etiquetas de procedencia utilizadas en todas las entradas

Campos de Entrada

CampoTipoRequeridoDescripción
idintegerIdentificador único de entrada dentro del corpus
sourcestringEl texto de origen a traducir
referencestringLa traducción de referencia estándar de oro
difficultyintegerNivel de dificultad 1–5 (véase a continuación)
provenancestringOrigen de esta entrada (p. ej., gold_standard, textbook, elicited)
registerstringNivel de registro/formalidad (p. ej., conversational, formal, ceremonial)
contextstringFunción comunicativa (p. ej., greeting, declaration, instruction)
notesstringContexto opcional para revisores humanos
morphological_analysisstringDesglose morfológico estándar de oro
variant_classstringEtiqueta de clase que agrupa variantes de traducción aceptables

Conjuntos de Datos Disponibles

Conjunto de Desarrollo EDTeKLA v1

El primer conjunto de datos de evaluación, construido para traducción de inglés→Plains Cree (SRO). Creado por el grupo de investigación EdTeKLA de la Universidad de Alberta.

PropiedadValor
IDedtekla-dev-v1
Versión1.0
Par de idiomasEN → CRK (Plains Cree, ortografía SRO)
Cantidad de entradas548 totales (486 de libro de texto + 62 estándar de oro). El corpus dev canónico es textbook_dev.json (436 entradas — la división dev completa del libro de texto de 486 totales: 436 dev + 50 prueba retenida)
Distribución de dificultadFácil, Medio, Difícil
Procedenciagold_standard (verificado por hablantes), textbook (materiales educativos publicados)
LicenciaCC BY-NC-SA 4.0

Lo que prueba:

  • Saludos básicos y frases comunes
  • Animacidad nominal y obviación
  • Conjugación verbal entre personas y tiempos
  • Construcciones locativas
  • Paradigmas posesivos
  • Estructuras de oraciones complejas

:::tip Estructura del corpus La colección completa de EdTeKLA tiene 548 entradas curadas: 486 del corpus de libro de texto (436 dev + 50 retenidas) y 62 del estándar de oro itwêwina. El corpus dev canónico es textbook_dev.json con 436 entradas — la división dev completa del libro de texto. Cada entrada fue verificada por hablantes fluidos o extraída de libros de texto de idioma Cree publicados. Un conjunto de datos más pequeño y de alta calidad con estándares de oro verificados es más útil que uno grande y ruidoso — especialmente para un idioma de recursos limitados donde las traducciones "lo suficientemente cercanas" a menudo son morfológicamente inválidas. :::


Creación de un Nuevo Conjunto de Datos

Para crear un conjunto de datos para un nuevo par de idiomas o dominio:

1. Estructurar el JSON

Siga el esquema Formato del Conjunto de Datos. Cada entrada debe tener source, reference, difficulty, provenance, register, y context.

2. Asignar un ID único

Utilice un slug descriptivo: {project}-{split}-v{version} (p. ej., edtekla-dev-v1, quechua-test-v1).

3. Verificar estándares de oro

Cada valor reference debe ser verificado por un hablante fluido o extraído de un recurso publicado y revisado por pares. Las referencias generadas por máquina anulan el propósito de la evaluación.

4. Establecer niveles de dificultad

Asigne a cada entrada un nivel de dificultad entero:

NivelDescripciónEjemplos
1 — Vocabulario básicoPalabras individuales, saludos comunes, números"hello" → "tânisi"
2 — Oraciones simplesSujeto-verbo o SVO, tiempo presente"I see the dog"
3 — Complejidad moderadaTiempo pasado/futuro, posesivos, animacidad"I saw his dog yesterday"
4 — Morfología complejaObviación, voz pasiva, orden conjuntivo"the woman whose son went to the store"
5 — AvanzadoMulti-cláusula, registro formal, ceremonial, idiomáticoPárrafo completo con tono apropiado al registro

5. Etiquetar procedencia

Cada entrada debe indicar de dónde proviene. Etiquetas comunes:

  • gold_standard — Verificado por hablantes fluidos
  • textbook — De materiales educativos publicados
  • elicited — Producido a través de sesiones de elicitación estructurada
  • corpus — Extraído de un corpus paralelo

6. Validar el archivo

Ejecute el arnés contra su conjunto de datos con cualquier modelo para verificar que el JSON esté bien formado y todos los campos requeridos estén presentes:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

El arnés generará un error en campos faltantes, índices duplicados o violaciones de esquema.

7. Enviar para inclusión

Abra una solicitud de extracción contra el repositorio del arnés de evaluación con su archivo de conjunto de datos en el directorio data/. Incluya documentación de su metodología de verificación y fuentes de procedencia.


FLORES+ Devtest

Un evaluación comparativa multilingüe de cobertura amplia mantenida por la Iniciativa de Datos de Idiomas Abiertos (OLDI). Utilizada para la evaluación comparativa de frontera multi-modelo de champollion.

PropiedadValor
IDflores-plus-devtest
Pares de idiomasEN → 39 idiomas (todos los idiomas naturales registrados en champollion)
Cantidad de entradas1,012 oraciones por idioma
LicenciaCC BY-SA 4.0
FuenteOriginalmente Meta FLORES-200, ahora mantenido por OLDI
UbicaciónAccesorios pre-extraídos en test/benchmark/fixtures/ en el repositorio principal de champollion

:::danger Solo para evaluación FLORES+ está destinado únicamente a evaluación. Los curadores solicitan explícitamente que no se utilice como datos de entrenamiento. Asegúrese de que su contenido esté excluido de cualquier corpus de entrenamiento. :::


Véase También