Mga Dataset sa Evaluation

Executive Summary. Inilalarawan ng pahinang ito ang mga evaluation dataset na available para sa benchmarking, kabilang ang corpus entry schema, mga difficulty tier (1–5), at mga kinakailangan sa provenance. Kasalukuyang available: EDTeKLA Dev v1 (Plains Cree, 548 kabuuang entry: 486 textbook + 62 gold standard) at FLORES+ Devtest (39 wika, tig-1,012 entry bawat isa).

Ang mga dataset ang mga nakapirming target na pinapatakbo ng harness. Bawat dataset ay isang JSON file na naglalaman ng mga pares na source→target na may gold-standard references. Sine-score ng harness ang mga output ng model laban sa mga reference na ito — hindi nito kailanman binabago ang mga ito.

:::danger HUWAG MAG-TRAIN sa evaluation data

⚠️ Ang mga dataset na ito ay para lamang sa evaluation. Ang mga method na na-train, na-fine-tune, na-few-shot-prompt, o sa anumang paraan ay nalantad sa evaluation data ay magbubunga ng artipisyal na pinataas na score at madidisqualify mula sa leaderboard.

Gumamit ng hiwalay na corpora para sa training. Dapat manatiling hindi nakikita ng inyong model ang mga evaluation set habang nagde-develop. :::

Format ng Dataset

Sinusunod ng bawat dataset ang parehong JSON schema:

{
  "dataset": {
    "id": "dataset-slug",
    "version": "1.0",
    "language_pair": "EN→CRK",
    "description": "Human-readable description of the dataset",
    "source_language": "en",
    "target_language": "crk",
    "created": "2025-05-01",
    "license": "CC-BY-NC-4.0",
    "provenance": ["gold_standard", "textbook"]
  },
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "tânisi",
      "difficulty": 1,
      "provenance": "gold_standard",
      "register": "conversational",
      "context": "greeting",
      "notes": "Common greeting, SRO orthography"
    }
  ]
}

:::info Kanonikal na Schema Itinatakda ng Benchmark Specification ang kanonikal na corpus at entry schema. Idinodokumento ng pahinang ito ang mga available na dataset at kung paano gumawa ng mga bago. :::

Bloke ng Top-Level `dataset`

Patlang	Uri	Paglalarawan
`id`	`string`	Natatanging identifier ng dataset (ginagamit sa mga run card at leaderboard)
`version`	`string`	Semantic version. Ang pag-increment nito ay nagpapawalang-bisa sa mga naunang paghahambing ng run card
`language_pair`	`string`	Display label (hal., `EN→CRK`)
`description`	`string`	Opsyonal. Buod na nababasa ng tao
`source_language`	`string`	BCP 47 source language code
`target_language`	`string`	BCP 47 target language code
`created`	`string`	ISO 8601 creation date
`license`	`string`	SPDX license identifier
`provenance`	`string[]`	Listahan ng mga provenance tag na ginagamit sa mga entry

Mga Patlang ng Entry

Patlang	Uri	Kinakailangan	Paglalarawan
`id`	`integer`	✅	Natatanging identifier ng entry sa loob ng corpus
`source`	`string`	✅	Ang source text na isasalin
`reference`	`string`	✅	Ang gold-standard reference translation
`difficulty`	`integer`	✅	Difficulty tier 1–5 (tingnan sa ibaba)
`provenance`	`string`	✅	Pinagmulan ng entry na ito (hal., `gold_standard`, `textbook`, `elicited`)
`register`	`string`	✅	Antas ng register/formality (hal., `conversational`, `formal`, `ceremonial`)
`context`	`string`	✅	Komunikatibong tungkulin (hal., `greeting`, `declaration`, `instruction`)
`notes`	`string`	❌	Opsyonal na context para sa mga human reviewer
`morphological_analysis`	`string`	❌	Gold-standard morphological breakdown
`variant_class`	`string`	❌	Class label na nagpapangkat ng mga katanggap-tanggap na variant ng salin

Mga Available na Dataset

EDTeKLA Development Set v1

Ang unang evaluation dataset, na binuo para sa pagsasaling English→Plains Cree (SRO). Nilikha ng EdTeKLA research group sa University of Alberta.

Property	Value
ID	`edtekla-dev-v1`
Bersyon	`1.0`
Pares ng wika	EN → CRK (Plains Cree, SRO orthography)
Bilang ng entry	548 kabuuan (486 textbook + 62 gold standard). Ang kanonikal na dev corpus ay `textbook_dev.json` (436 entry — ang buong textbook dev split mula sa 486 kabuuan: 436 dev + 50 held-out test)
Distribusyon ng difficulty	Madali, Katamtaman, Mahirap
Provenance	`gold_standard` (na-verify ng mga speaker), `textbook` (nailathalang educational materials)
License	CC BY-NC-SA 4.0

Ano ang sinusuri nito:

Mga pangunahing pagbati at karaniwang parirala
Noun animacy at obviation
Verb conjugation sa iba’t ibang person at tense
Mga locative construction
Possessive paradigms
Mga kumplikadong istruktura ng pangungusap

:::tip Istruktura ng Corpus Ang buong koleksyon ng EdTeKLA ay may 548 curated entry: 486 mula sa textbook corpus (436 dev + 50 held-out) at 62 mula sa itwêwina gold standard. Ang kanonikal na dev corpus ay textbook_dev.json na may 436 entry — ang buong textbook dev split. Bawat entry ay na-verify ng mga fluent speaker o kinuha mula sa nailathalang Cree language textbooks. Mas kapaki-pakinabang ang mas maliit at mataas ang kalidad na dataset na may na-verify na gold standards kaysa sa malaki ngunit maingay na dataset — lalo na para sa low-resource language kung saan ang mga saling "close enough" ay madalas na morphologically invalid. :::

Paglikha ng Bagong Dataset

Upang lumikha ng dataset para sa bagong pares ng wika o domain:

1. Istruktura ang JSON

Sundin ang schema sa Format ng Dataset. Bawat entry ay dapat may source, reference, difficulty, provenance, register, at context.

2. Magtalaga ng natatanging ID

Gumamit ng deskriptibong slug: {project}-{split}-v{version} (hal., edtekla-dev-v1, quechua-test-v1).

3. I-verify ang mga gold standard

Bawat value ng reference ay dapat ma-verify ng fluent speaker o makuha mula sa nailathala at peer-reviewed na resource. Sinisira ng machine-generated references ang layunin ng evaluation.

4. Itakda ang mga difficulty tier

Magtalaga sa bawat entry ng integer difficulty level:

Tier	Paglalarawan	Mga Halimbawa
1 — Basic vocabulary	Mga iisang salita, karaniwang pagbati, numero	"hello" → "tânisi"
2 — Simple sentences	Subject-verb o SVO, present tense	"I see the dog"
3 — Moderate complexity	Past/future tense, possessives, animacy	"I saw his dog yesterday"
4 — Complex morphology	Obviation, passive voice, conjunct order	"the woman whose son went to the store"
5 — Advanced	Multi-clause, formal register, ceremonial, idiomatic	Buong talata na may register-appropriate na tono

5. Lagyan ng tag ang provenance

Dapat ipahiwatig ng bawat entry kung saan ito nagmula. Mga karaniwang tag:

gold_standard — Na-verify ng mga fluent speaker
textbook — Mula sa nailathalang educational materials
elicited — Ginawa sa pamamagitan ng structured elicitation sessions
corpus — Kinuha mula sa parallel corpus

6. I-validate ang file

Patakbuhin ang harness laban sa inyong dataset gamit ang anumang model upang i-verify na maayos ang pagkaka-format ng JSON at naroroon ang lahat ng kinakailangang patlang:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

Mag-e-error ang harness kapag may kulang na mga patlang, duplicate indices, o mga paglabag sa schema.

7. Isumite para maisama

Magbukas ng pull request laban sa eval harness repository kasama ang inyong dataset file sa directory na data/. Isama ang dokumentasyon ng inyong verification methodology at mga provenance source.

FLORES+ Devtest

Isang broad-coverage multilingual benchmark na pinapanatili ng Open Language Data Initiative (OLDI). Ginagamit para sa multi-model frontier benchmark ng champollion.

Property	Value
ID	`flores-plus-devtest`
Mga pares ng wika	EN → 39 wika (lahat ng natural language na nakarehistro sa champollion)
Bilang ng entry	1,012 pangungusap bawat wika
License	CC BY-SA 4.0
Source	Orihinal na Meta FLORES-200, ngayon ay pinapanatili ng OLDI
Lokasyon	Mga pre-extracted fixture sa `test/benchmark/fixtures/` sa main champollion repo

:::danger Para lamang sa evaluation Ang FLORES+ ay inilaan lamang para sa evaluation. Tahasang hinihiling ng mga curator na huwag itong gamitin bilang training data. Tiyaking hindi kasama ang nilalaman nito sa anumang training corpora. :::

Tingnan Din

MT Evaluation — pangkalahatang-ideya ng evaluation framework at leaderboard
Eval Harness — kung paano magpatakbo ng evaluations laban sa mga dataset na ito
Run Card Specification — ang JSON schema para sa pagtatala ng mga resulta
Method Leaderboard — mga live na benchmark score
EdTeKLA Project — ang research group ng University of Alberta sa likod ng Cree dataset

Format ng Dataset​

Bloke ng Top-Level dataset​

Mga Patlang ng Entry​

Mga Available na Dataset​

EDTeKLA Development Set v1​

Paglikha ng Bagong Dataset​

1. Istruktura ang JSON​

2. Magtalaga ng natatanging ID​

3. I-verify ang mga gold standard​

4. Itakda ang mga difficulty tier​

5. Lagyan ng tag ang provenance​

6. I-validate ang file​

7. Isumite para maisama​

FLORES+ Devtest​

Tingnan Din​