Protocolo de Validación por Hablantes
Propósito. Este documento define exactamente qué necesitamos de hablantes bilingües de cree de las llanuras e inglés para validar las métricas de evaluación LYSS. Sin esta validación, nuestras puntuaciones automatizadas son estimaciones de ingeniería, no mediciones de calidad comprobadas. Esta es la brecha más importante del proyecto.
Audiencia. Socios comunitarios, colaboradores potenciales, revisores de subvenciones y el equipo del proyecto.
Última actualización: 2026-06-07
1. Por qué necesitamos hablantes
El marco de evaluación LYSS (Linguistically-informed Yield & Structural Scoring) calcula puntuaciones de calidad automatizadas para traducciones de inglés → cree de las llanuras. Utiliza tres señales principales:
- LYSS-fst: ¿Contiene la salida palabras válidas en cree? (verificado por el transductor de estados finitos de GiellaLT)
- LYSS-eq: ¿Es la salida una variante aceptable de la traducción de referencia? (verificado por las clases de equivalencia del linter)
- LYSS-sem: ¿Preserva la salida el significado de la fuente? (verificado por el validador semántico)
Estas métricas producen números. No sabemos si esos números significan algo. El FST puede rechazar palabras válidas que no reconoce (préstamos, neologismos, nombres propios). El linter puede perder equivalencias válidas o aceptar inválidas. El validador semántico puede juzgar mal el significado. Hasta que hablantes bilingües nos digan si nuestras puntuaciones automatizadas coinciden con su juicio humano de la calidad de la traducción, estamos adivinando.
Cada métrica importante de evaluación de MT (BLEU, COMET, chrF++) fue validada comparando puntuaciones automatizadas contra miles de evaluaciones de calidad humana. Necesitamos lo mismo — a una escala menor, porque nuestros recursos son limitados, pero con el mismo rigor.
2. Qué necesitamos: Tres tareas
Tarea A: Calificación de calidad de traducción (Principal — ~8 horas en total)
Qué: Calificar 200 traducciones de inglés → cree generadas por máquina en dos escalas.
Quién: 3 o más hablantes bilingües de cree de las llanuras e inglés con fluidez de lectura en SRO (Ortografía Romana Estándar).
Cómo funciona:
-
Proporcionamos una hoja de cálculo o formulario web con 200 filas. Cada fila tiene:
- La oración fuente en inglés
- Una traducción al cree generada por máquina
- (Opcionalmente) una traducción de referencia al cree para comparación
-
Para cada traducción, el hablante califica dos cosas:
Adecuación (¿dice lo correcto?):
Puntuación Etiqueta Significado 1 Ninguna La traducción no tiene nada que ver con la fuente 2 Poca Algunas palabras coinciden pero el significado general es incorrecto 3 Mucha El significado central está ahí pero faltan o son incorrectas partes importantes 4 La mayoría Casi todo es correcto, brechas menores de significado 5 Todo La traducción transmite completamente el significado de la fuente Fluidez (¿suena como cree real?):
Puntuación Etiqueta Significado 1 Incomprensible Esto no es cree 2 Poco fluido Las palabras individuales podrían ser cree pero la oración está rota 3 No nativo Comprensible pero claramente no es cómo lo diría un hablante de cree 4 Bueno Suena natural con torpeza menor 5 Impecable Un hablante de cree podría haber escrito esto -
Opcionalmente, el hablante puede agregar una nota de texto libre explicando su calificación (p. ej., "acuerdo animado/inanimado incorrecto en el verbo," "este es dialecto th pero califico basado en dialecto y").
Estimación de tiempo: ~2.5 minutos por traducción × 200 traducciones = ~8 horas. Puede dividirse en múltiples sesiones (p. ej., 4 × sesiones de 2 horas durante 2 semanas).
Compensación: $50–65 CAD/hora (coincidiendo con las tasas de compensación de hablantes de BENCHMARK_SPEC §10.3). Total por hablante: $400–520 CAD. Para 3 hablantes: $1,200–1,560 CAD.
Qué hacemos con esto: Calculamos la correlación entre nuestras puntuaciones LYSS automatizadas y las calificaciones de los hablantes. Si LYSS-fst se correlaciona con calificaciones de fluidez y LYSS-sem se correlaciona con calificaciones de adecuación, las métricas están validadas. Si no, sabemos dónde arreglarlas.
Tarea B: Validación de equivalencia del linter (~2 horas)
Qué: Revisar 50 pares de traducciones al cree que nuestro linter clasifica como "equivalentes" y decirnos si realmente significan lo mismo.
Quién: 1–2 hablantes bilingües (pueden ser los mismos hablantes de la Tarea A).
Cómo funciona:
-
Proporcionamos 50 pares. Cada par tiene:
- La fuente en inglés
- Traducción A (la referencia)
- Traducción B (una variante que nuestro linter dice que es equivalente)
- La razón de equivalencia (p. ej., "permutación de orden de palabras," "variante ortográfica," "partícula opcional eliminada")
-
Para cada par, el hablante responde:
- ¿Mismo significado? Sí / No / Depende del contexto
- ¿Ambas naturales? Sí / A es mejor / B es mejor / Ninguna es natural
- Notas (texto libre opcional)
Estimación de tiempo: ~2 minutos por par × 50 pares = ~2 horas.
Compensación: $50–65 CAD/hora × 2 horas = $100–130 CAD por hablante.
Qué hacemos con esto: Calculamos la precisión de cada clase de equivalencia. Si los hablantes dicen que el 90% de las equivalencias de "orden de palabras" son genuinamente equivalentes, esa clase está validada. Si dicen que el 40% de las equivalencias de "sinónimo de lema" son incorrectas, sabemos que debemos arreglar o eliminar esa clase.
Tarea C: Revisión de rechazos falsos del FST (~1.5 horas)
Qué: Revisar 100 palabras en cree que el analizador FST rechaza (dice que no son palabras válidas en cree) y decirnos si realmente son válidas.
Quién: 1 hablante bilingüe con fuerte conocimiento de vocabulario en cree.
Cómo funciona:
- Ejecutamos el analizador FST en nuestro corpus de estándar de oro EDTeKLA de 436 entradas y recopilamos cada palabra que rechaza.
- Presentamos hasta 100 palabras rechazadas al hablante con su contexto de oración.
- Para cada palabra, el hablante responde:
- ¿Es esta una palabra válida en cree? Sí / No / Inseguro
- Si es sí, ¿qué tipo? Palabra establecida / Préstamo / Nombre / Forma dialectal / Neologismo / Otro
- Notas (opcional)
Estimación de tiempo: ~1 minuto por palabra × 100 palabras = ~1.5 horas.
Compensación: $50–65 CAD/hora × 1.5 horas = $75–100 CAD.
Qué hacemos con esto: Calculamos la tasa de rechazo falso del FST. Si el FST rechaza 50 palabras y los hablantes dicen que 30 de ellas son válidas, la tasa de rechazo falso es del 60% — inaceptablemente alta, requiriendo una lista de excepciones/préstamos. Si los hablantes dicen que solo 5 son válidas, la tasa de rechazo falso es del 10% — la métrica es confiable.
3. Compromiso total del hablante
| Tarea | Hablantes necesarios | Horas por hablante | Costo por hablante | Costo total |
|---|---|---|---|---|
| A: Calificación de calidad | 3 | ~8 horas | $400–520 | $1,200–1,560 |
| B: Validación del linter | 2 | ~2 horas | $100–130 | $200–260 |
| C: Revisión del FST | 1 | ~1.5 horas | $75–100 | $75–100 |
| Total | 3 hablantes | ~11.5 horas (máximo por hablante) | $575–750 (máximo) | $1,475–1,920 |
Si los mismos 3 hablantes hacen todas las tareas: ~11.5 horas cada uno durante 2–4 semanas, $575–750 cada uno.
Un solo hablante haciendo solo la Tarea A se comprometería a ~8 horas durante 2 semanas por $400–520.
4. Calificaciones del hablante
Requerido:
- Bilingüe en cree de las llanuras e inglés
- Fluidez de lectura en SRO (Ortografía Romana Estándar)
- Cómodo calificando traducciones en una escala estructurada
Preferido:
- Experiencia con dialecto y (el dialecto utilizado en nuestro corpus de referencia de EDTeKLA)
- Experiencia en enseñanza o traducción (proporciona juicio de calidad calibrado)
- Familiaridad con diferentes registros (formal, educativo, conversacional)
No requerido:
- Conocimiento técnico o de PNL (proporcionamos todas las herramientas y contexto)
- Habilidades computacionales (la interfaz de calificación será una hoja de cálculo simple o formulario web)
- Participación previa en el proyecto Champollion
5. Gobernanza de datos
Todas las contribuciones de los hablantes se rigen por las políticas de datos orientadas a OCAP® del proyecto:
- Propiedad: Las calificaciones de calidad de los hablantes permanecen como su contribución intelectual. Se les acredita por nombre (o anónimamente, a su elección) en cualquier publicación.
- Control: Los hablantes pueden retirar sus calificaciones en cualquier momento. La retirada elimina sus datos de todos los análisis.
- Acceso: Los datos de calificación se almacenan en infraestructura controlada por la organización de gobernanza comunitaria (cuando se establezca) o en la plataforma preferida del hablante.
- Posesión: Los datos de calificación sin procesar nunca se publican. Solo estadísticas agregadas (correlaciones, acuerdo entre anotadores) aparecen en publicaciones.
- Compensación: Los hablantes se pagan por su tiempo independientemente de si usamos sus calificaciones. El pago no está condicionado a los resultados.
6. Qué obtienen los hablantes
Más allá de la compensación:
- Coautoría en cualquier publicación que use sus calificaciones (si lo desean)
- Reconocimiento en toda la documentación del proyecto
- Acceso anticipado a las herramientas de evaluación y resultados
- Aporte sobre cómo se usan las métricas — si un hablante dice "tu linter está equivocado sobre X," arreglamos el linter
- Poder de veto sobre la publicación de resultados que encuentren problemáticos
7. Cómo comenzar
Si usted es un hablante bilingüe de cree e inglés interesado en participar, o si conoce a alguien que podría estarlo:
- Contáctenos en [correo electrónico/contacto del proyecto] — sin compromiso requerido, solo una conversación
- Explicamos las tareas en lenguaje simple (sin jerga)
- Usted elige qué tareas le interesan (A, B, C, o cualquier combinación)
- Establecemos un cronograma que funcione para usted (bloques de 2 horas, horario flexible)
- Usted califica traducciones a través de hoja de cálculo o formulario web — desde cualquier lugar, a su propio ritmo
- Pagamos rápidamente — dentro de 2 semanas de completar cada bloque de tareas
8. Qué sucede después
Con datos de validación de hablantes, podemos:
- Publicar las correlaciones de métricas — probando (o refutando) que las puntuaciones LYSS reflejan el juicio humano
- Recalibrar las métricas — ajustando pesos, umbrales y clases de equivalencia basados en retroalimentación de hablantes
- Arreglar el linter — eliminando equivalencias falsas, agregando las faltantes
- Arreglar la lista de excepciones del FST — agregando palabras válidas que el FST rechaza incorrectamente
- Enviar a un lugar académico — con hablantes como coautores, estableciendo LYSS como una métrica validada para evaluación de MT de lenguajes polisintéticos
Sin validación de hablantes, LYSS permanece como una herramienta de ingeniería. Con ella, LYSS se convierte en una métrica de evaluación científicamente fundamentada. Esa es la diferencia entre "construimos algo" y "probamos que funciona."