Guía de Creación de Corpus

La idea: Antes de poder evaluar un método de traducción, necesita un corpus de evaluación. Esta guía cubre cómo construir uno desde cero — obtención de datos, requisitos de formato, estándares de calidad, licencias y contribución a la Arena.

:::info Esto no es un método de traducción Esta guía es un requisito previo para muchos métodos. Un buen corpus de evaluación es la base que hace posible todo lo demás. Incluso 50 pares curados son suficientes para abrir una nueva pista en el leaderboard. :::

Cuándo Usar Esta Guía

Desea agregar un nuevo par de idiomas al leaderboard de la Arena
Es un profesor de idiomas que desea evaluar traducciones de estudiantes
Es un trabajador comunitario de idiomas con acceso a materiales bilingües
Es un investigador que necesita un conjunto de evaluación estandarizado para su par de idiomas

Formato del Corpus

El harness acepta JSON simple:

my-corpus.json
{
  "metadata": {
    "name": "Quechua Dev v1",
    "version": "1.0.0",
    "source_language": "eng",
    "target_language": "que",
    "entry_count": 75,
    "license": "CC-BY-SA-4.0",
    "author": "Your Name / Organization",
    "description": "75 English-Quechua pairs from educational materials"
  },
  "entries": [
    {
      "id": 1,
      "source": "Hello, how are you?",
      "reference": "Allillanchu, imaynallan kashanki?"
    },
    {
      "id": 2,
      "source": "The sun is shining today",
      "reference": "Kunan p'unchay inti k'anchashan"
    }
  ]
}

Dónde Obtener Datos

Fuente	Calidad	Volumen	Licencia
Libros de texto / materiales educativos	Alta (revisada por expertos)	Baja-media	Verificar con el editor
Documentos gubernamentales	Media (registro formal)	Media-alta	A menudo dominio público
Diccionarios bilingües	Alta (entradas verificadas)	Media	Varía
Ancianos de la comunidad / hablantes	Más alta (intuición nativa)	Baja (tiempo limitado)	Gobernada por la comunidad
Textos religiosos	Media (específica del dominio)	Alta	Generalmente abierta
Corpus existentes (Hansard, FLORES)	Media-alta	Alta	Verificar licencia
Creada manualmente	Más alta	Baja	Usted es propietario

Estándares de Calidad

Un buen corpus de evaluación tiene:

Contenido diverso — no solo saludos o frases simples. Incluya preguntas, comandos, oraciones complejas, términos específicos del dominio
Traducciones verificadas — revisadas por al menos un hablante fluido, idealmente dos
Ortografía consistente — un script, una convención de ortografía en todo el documento
Fuentes independientes — no derivadas del mismo texto en el que los métodos se entrenarán
Licencia clara — licencia explícita que permita el uso de evaluación

:::danger Contaminación del corpus El corpus de evaluación debe ser independiente de cualquier dato de entrenamiento. Si un método fue entrenado o indicado con datos del corpus de evaluación, será descalificado. Diseñe su corpus para ser excluido desde el principio. :::

Directrices de Tamaño

Tamaño	Lo Que Permite
50 entradas	Evaluación mínima viable — suficiente para detectar diferencias de calidad graves
100–200 entradas	Ranking confiable — suficiente para significancia estadística entre métodos
500+ entradas	Grado de investigación — puntuaciones compuestas robustas, intervalos de confianza
1,000+ entradas	Estándar de oro — equivalente a cobertura de devtest de FLORES

Comience en pequeño. 50 entradas son suficientes para abrir una pista en el leaderboard. Puede expandir más tarde.

Contribuir a la Arena

Cree su corpus en el formato JSON anterior
Licéncielo — CC BY-SA 4.0 se recomienda para evaluación abierta; CC BY-NC-SA 4.0 para uso restringido
Envíe un PR al repositorio del harness de evaluación con su corpus en data/
El leaderboard se abre automáticamente para su par de idiomas una vez que el corpus se fusiona

Para Comunidades de Lenguas Indígenas

La creación de corpus es un acto de soberanía lingüística. Su corpus, sus términos:

Usted decide la licencia y las condiciones de acceso
Puede contribuir un conjunto de desarrollo público (para desarrollo de métodos) mientras mantiene un conjunto de prueba secreto (para evaluación oficial) bajo control comunitario
El marco de soberanía protege sus datos en todos los niveles

Incluso un corpus pequeño es un activo estratégico — es el benchmark que decide qué significa "lo suficientemente bueno" para su idioma.

Se Combina Bien Con

Traducción Parcial — crear un corpus ES el paso de traducción humana
Retrotraducción — datos sintéticos complementan corpus creados por humanos
Todos los demás libros de recetas — todos necesitan un corpus de evaluación

Véase También

Conjuntos de Datos de Evaluación — corpus existentes (EDTeKLA, FLORES+)
Soberanía de Datos — propiedad y control
Para Comunidades de Idiomas — participación comunitaria
Apoye un Idioma de Pocos Recursos — la perspectiva general

Cuándo Usar Esta Guía​

Formato del Corpus​

Dónde Obtener Datos​

Estándares de Calidad​

Directrices de Tamaño​

Contribuir a la Arena​

Para Comunidades de Lenguas Indígenas​

Se Combina Bien Con​

Véase También​