Lumaktaw sa pangunahing nilalaman

Mga Dataset sa Evaluation

Executive Summary. Inilalarawan ng pahinang ito ang mga evaluation dataset na available para sa benchmarking, kabilang ang corpus entry schema, mga difficulty tier (1–5), at mga kinakailangan sa provenance. Kasalukuyang available: EDTeKLA Dev v1 (Plains Cree, 548 kabuuang entry: 486 textbook + 62 gold standard) at FLORES+ Devtest (39 wika, tig-1,012 entry bawat isa).

Ang mga dataset ang mga nakapirming target na pinapatakbo ng harness. Bawat dataset ay isang JSON file na naglalaman ng mga pares na source→target na may gold-standard references. Sine-score ng harness ang mga output ng model laban sa mga reference na ito — hindi nito kailanman binabago ang mga ito.

:::danger HUWAG MAG-TRAIN sa evaluation data

⚠️ Ang mga dataset na ito ay para lamang sa evaluation. Ang mga method na na-train, na-fine-tune, na-few-shot-prompt, o sa anumang paraan ay nalantad sa evaluation data ay magbubunga ng artipisyal na pinataas na score at madidisqualify mula sa leaderboard.

Gumamit ng hiwalay na corpora para sa training. Dapat manatiling hindi nakikita ng inyong model ang mga evaluation set habang nagde-develop. :::


Format ng Dataset

Sinusunod ng bawat dataset ang parehong JSON schema:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info Kanonikal na Schema Itinatakda ng Benchmark Specification ang kanonikal na corpus at entry schema. Idinodokumento ng pahinang ito ang mga available na dataset at kung paano gumawa ng mga bago. :::

Bloke ng Top-Level dataset

PatlangUriPaglalarawan
idstringNatatanging identifier ng dataset (ginagamit sa mga run card at leaderboard)
versionstringSemantic version. Ang pag-increment nito ay nagpapawalang-bisa sa mga naunang paghahambing ng run card
language_pairstringDisplay label (hal., EN→CRK)
descriptionstringOpsyonal. Buod na nababasa ng tao
source_languagestringBCP 47 source language code
target_languagestringBCP 47 target language code
createdstringISO 8601 creation date
licensestringSPDX license identifier
provenancestring[]Listahan ng mga provenance tag na ginagamit sa mga entry

Mga Patlang ng Entry

PatlangUriKinakailanganPaglalarawan
idintegerNatatanging identifier ng entry sa loob ng corpus
sourcestringAng source text na isasalin
referencestringAng gold-standard reference translation
difficultyintegerDifficulty tier 1–5 (tingnan sa ibaba)
provenancestringPinagmulan ng entry na ito (hal., gold_standard, textbook, elicited)
registerstringAntas ng register/formality (hal., conversational, formal, ceremonial)
contextstringKomunikatibong tungkulin (hal., greeting, declaration, instruction)
notesstringOpsyonal na context para sa mga human reviewer
morphological_analysisstringGold-standard morphological breakdown
variant_classstringClass label na nagpapangkat ng mga katanggap-tanggap na variant ng salin

Mga Available na Dataset

EDTeKLA Development Set v1

Ang unang evaluation dataset, na binuo para sa pagsasaling English→Plains Cree (SRO). Nilikha ng EdTeKLA research group sa University of Alberta.

PropertyValue
IDedtekla-dev-v1
Bersyon1.0
Pares ng wikaEN → CRK (Plains Cree, SRO orthography)
Bilang ng entry548 kabuuan (486 textbook + 62 gold standard). Ang kanonikal na dev corpus ay textbook_dev.json (436 entry — ang buong textbook dev split mula sa 486 kabuuan: 436 dev + 50 held-out test)
Distribusyon ng difficultyMadali, Katamtaman, Mahirap
Provenancegold_standard (na-verify ng mga speaker), textbook (nailathalang educational materials)
LicenseCC BY-NC-SA 4.0

Ano ang sinusuri nito:

  • Mga pangunahing pagbati at karaniwang parirala
  • Noun animacy at obviation
  • Verb conjugation sa iba’t ibang person at tense
  • Mga locative construction
  • Possessive paradigms
  • Mga kumplikadong istruktura ng pangungusap

:::tip Istruktura ng Corpus Ang buong koleksyon ng EdTeKLA ay may 548 curated entry: 486 mula sa textbook corpus (436 dev + 50 held-out) at 62 mula sa itwêwina gold standard. Ang kanonikal na dev corpus ay textbook_dev.json na may 436 entry — ang buong textbook dev split. Bawat entry ay na-verify ng mga fluent speaker o kinuha mula sa nailathalang Cree language textbooks. Mas kapaki-pakinabang ang mas maliit at mataas ang kalidad na dataset na may na-verify na gold standards kaysa sa malaki ngunit maingay na dataset — lalo na para sa low-resource language kung saan ang mga saling "close enough" ay madalas na morphologically invalid. :::


Paglikha ng Bagong Dataset

Upang lumikha ng dataset para sa bagong pares ng wika o domain:

1. Istruktura ang JSON

Sundin ang schema sa Format ng Dataset. Bawat entry ay dapat may source, reference, difficulty, provenance, register, at context.

2. Magtalaga ng natatanging ID

Gumamit ng deskriptibong slug: {project}-{split}-v{version} (hal., edtekla-dev-v1, quechua-test-v1).

3. I-verify ang mga gold standard

Bawat value ng reference ay dapat ma-verify ng fluent speaker o makuha mula sa nailathala at peer-reviewed na resource. Sinisira ng machine-generated references ang layunin ng evaluation.

4. Itakda ang mga difficulty tier

Magtalaga sa bawat entry ng integer difficulty level:

TierPaglalarawanMga Halimbawa
1 — Basic vocabularyMga iisang salita, karaniwang pagbati, numero"hello" → "tânisi"
2 — Simple sentencesSubject-verb o SVO, present tense"I see the dog"
3 — Moderate complexityPast/future tense, possessives, animacy"I saw his dog yesterday"
4 — Complex morphologyObviation, passive voice, conjunct order"the woman whose son went to the store"
5 — AdvancedMulti-clause, formal register, ceremonial, idiomaticBuong talata na may register-appropriate na tono

5. Lagyan ng tag ang provenance

Dapat ipahiwatig ng bawat entry kung saan ito nagmula. Mga karaniwang tag:

  • gold_standard — Na-verify ng mga fluent speaker
  • textbook — Mula sa nailathalang educational materials
  • elicited — Ginawa sa pamamagitan ng structured elicitation sessions
  • corpus — Kinuha mula sa parallel corpus

6. I-validate ang file

Patakbuhin ang harness laban sa inyong dataset gamit ang anumang model upang i-verify na maayos ang pagkaka-format ng JSON at naroroon ang lahat ng kinakailangang patlang:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

Mag-e-error ang harness kapag may kulang na mga patlang, duplicate indices, o mga paglabag sa schema.

7. Isumite para maisama

Magbukas ng pull request laban sa eval harness repository kasama ang inyong dataset file sa directory na data/. Isama ang dokumentasyon ng inyong verification methodology at mga provenance source.


FLORES+ Devtest

Isang broad-coverage multilingual benchmark na pinapanatili ng Open Language Data Initiative (OLDI). Ginagamit para sa multi-model frontier benchmark ng champollion.

PropertyValue
IDflores-plus-devtest
Mga pares ng wikaEN → 39 wika (lahat ng natural language na nakarehistro sa champollion)
Bilang ng entry1,012 pangungusap bawat wika
LicenseCC BY-SA 4.0
SourceOrihinal na Meta FLORES-200, ngayon ay pinapanatili ng OLDI
LokasyonMga pre-extracted fixture sa test/benchmark/fixtures/ sa main champollion repo

:::danger Para lamang sa evaluation Ang FLORES+ ay inilaan lamang para sa evaluation. Tahasang hinihiling ng mga curator na huwag itong gamitin bilang training data. Tiyaking hindi kasama ang nilalaman nito sa anumang training corpora. :::


Tingnan Din