Ir para o conteúdo principal

Conjuntos de Dados de Avaliação

Resumo Executivo. Esta página descreve os conjuntos de dados de avaliação disponíveis para benchmarking, incluindo o esquema de entrada do corpus, níveis de dificuldade (1–5) e requisitos de proveniência. Atualmente disponíveis: EDTeKLA Dev v1 (Cree das Planícies, 548 entradas totais: 486 de livro didático + 62 padrão ouro) e FLORES+ Devtest (39 idiomas, 1.012 entradas cada).

Conjuntos de dados são os alvos fixos contra os quais o harness é executado. Cada conjunto de dados é um arquivo JSON contendo pares origem→alvo com referências padrão ouro. O harness pontua as saídas do modelo contra essas referências — nunca as modifica.

:::danger NÃO TREINE com dados de avaliação

⚠️ Estes conjuntos de dados são apenas para avaliação. Métodos treinados, ajustados, com prompts de poucos exemplos ou de outra forma expostos a dados de avaliação produzirão pontuações artificialmente inflacionadas e serão desqualificados do leaderboard.

Use corpora separados para treinamento. Conjuntos de avaliação devem permanecer invisíveis para seu modelo durante o desenvolvimento. :::


Formato do Conjunto de Dados

Todo conjunto de dados segue o mesmo esquema JSON:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info Esquema Canônico A Especificação de Benchmark define o corpus canônico e o esquema de entrada. Esta página documenta os conjuntos de dados disponíveis e como criar novos. :::

Bloco dataset de Nível Superior

CampoTipoDescrição
idstringIdentificador único do conjunto de dados (usado em cartões de execução e leaderboard)
versionstringVersão semântica. Incrementar isso invalida comparações de cartões de execução anteriores
language_pairstringRótulo de exibição (ex: EN→CRK)
descriptionstringOpcional. Resumo legível por humanos
source_languagestringCódigo de idioma de origem BCP 47
target_languagestringCódigo de idioma de destino BCP 47
createdstringData de criação ISO 8601
licensestringIdentificador de licença SPDX
provenancestring[]Lista de tags de proveniência usadas em todas as entradas

Campos de Entrada

CampoTipoObrigatórioDescrição
idintegerIdentificador único de entrada dentro do corpus
sourcestringO texto de origem a traduzir
referencestringA tradução de referência padrão ouro
difficultyintegerNível de dificuldade 1–5 (veja abaixo)
provenancestringOrigem desta entrada (ex: gold_standard, textbook, elicited)
registerstringNível de registro/formalidade (ex: conversational, formal, ceremonial)
contextstringFunção comunicativa (ex: greeting, declaration, instruction)
notesstringContexto opcional para revisores humanos
morphological_analysisstringAnálise morfológica padrão ouro
variant_classstringRótulo de classe agrupando variantes de tradução aceitáveis

Conjuntos de Dados Disponíveis

Conjunto de Desenvolvimento EDTeKLA v1

O primeiro conjunto de dados de avaliação, construído para tradução de Inglês→Cree das Planícies (SRO). Criado pelo grupo de pesquisa EdTeKLA da Universidade de Alberta.

PropriedadeValor
IDedtekla-dev-v1
Versão1.0
Par de idiomasEN → CRK (Cree das Planícies, ortografia SRO)
Contagem de entradas548 total (486 de livro didático + 62 padrão ouro). O corpus dev canônico é textbook_dev.json (436 entradas — a divisão dev completa do livro didático de 486 total: 436 dev + 50 teste retido)
Distribuição de dificuldadeFácil, Médio, Difícil
Proveniênciagold_standard (verificado por falantes), textbook (materiais educacionais publicados)
LicençaCC BY-NC-SA 4.0

O que testa:

  • Saudações básicas e frases comuns
  • Animacidade de nomes e obviação
  • Conjugação verbal entre pessoas e tempos
  • Construções locativas
  • Paradigmas possessivos
  • Estruturas de sentenças complexas

:::tip Estrutura do corpus A coleção completa EdTeKLA tem 548 entradas curadas: 486 do corpus de livro didático (436 dev + 50 retido) e 62 do padrão ouro itwêwina. O corpus dev canônico é textbook_dev.json com 436 entradas — a divisão dev completa do livro didático. Cada entrada foi verificada por falantes fluentes ou obtida de livros didáticos de idioma Cree publicados. Um conjunto de dados menor e de alta qualidade com padrões ouro verificados é mais útil do que um grande e ruidoso — especialmente para um idioma de poucos recursos onde traduções "aproximadas" são frequentemente morfologicamente inválidas. :::


Criando um Novo Conjunto de Dados

Para criar um conjunto de dados para um novo par de idiomas ou domínio:

1. Estruture o JSON

Siga o esquema Formato do Conjunto de Dados. Cada entrada deve ter source, reference, difficulty, provenance, register e context.

2. Atribua um ID único

Use um slug descritivo: {project}-{split}-v{version} (ex: edtekla-dev-v1, quechua-test-v1).

3. Verifique padrões ouro

Todo valor reference deve ser verificado por um falante fluente ou obtido de um recurso publicado e revisado por pares. Referências geradas por máquina derrotam o propósito da avaliação.

4. Defina níveis de dificuldade

Atribua a cada entrada um nível de dificuldade inteiro:

NívelDescriçãoExemplos
1 — Vocabulário básicoPalavras isoladas, saudações comuns, números"hello" → "tânisi"
2 — Sentenças simplesSujeito-verbo ou SVO, tempo presente"I see the dog"
3 — Complexidade moderadaTempo passado/futuro, possessivos, animacidade"I saw his dog yesterday"
4 — Morfologia complexaObviação, voz passiva, ordem conjunta"the woman whose son went to the store"
5 — AvançadoMulti-cláusula, registro formal, cerimonial, idiomáticoParágrafo completo com tom apropriado ao registro

5. Marque proveniência

Cada entrada deve indicar de onde veio. Tags comuns:

  • gold_standard — Verificado por falantes fluentes
  • textbook — De materiais educacionais publicados
  • elicited — Produzido através de sessões de elicitação estruturada
  • corpus — Extraído de um corpus paralelo

6. Valide o arquivo

Execute o harness contra seu conjunto de dados com qualquer modelo para verificar se o JSON está bem formado e todos os campos obrigatórios estão presentes:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

O harness gerará erro em campos ausentes, índices duplicados ou violações de esquema.

7. Envie para inclusão

Abra um pull request contra o repositório do harness de avaliação com seu arquivo de conjunto de dados no diretório data/. Inclua documentação de sua metodologia de verificação e fontes de proveniência.


FLORES+ Devtest

Um benchmark multilíngue de cobertura ampla mantido pela Open Language Data Initiative (OLDI). Usado para o benchmark de fronteira multi-modelo do champollion.

PropriedadeValor
IDflores-plus-devtest
Pares de idiomasEN → 39 idiomas (todos os idiomas naturais registrados do champollion)
Contagem de entradas1.012 sentenças por idioma
LicençaCC BY-SA 4.0
FonteOriginalmente Meta FLORES-200, agora mantido por OLDI
LocalizaçãoFixtures pré-extraídos em test/benchmark/fixtures/ no repositório principal do champollion

:::danger Apenas para avaliação FLORES+ é destinado exclusivamente para avaliação. Os curadores explicitamente solicitam que não seja usado como dados de treinamento. Garanta que seu conteúdo seja excluído de qualquer corpus de treinamento. :::


Veja Também