Tập dữ liệu Đánh giá

Tóm tắt dự án. Trang này mô tả các tập dữ liệu đánh giá hiện có để đo kiểm (benchmarking), bao gồm cấu trúc (schema) của các mục trong ngữ liệu, các mức độ khó (1–5) và các yêu cầu về nguồn gốc (provenance). Hiện tại đang có sẵn: EDTeKLA Dev v1 (Plains Cree, tổng cộng 548 mục: 486 từ sách giáo khoa + 62 bản dịch chuẩn gold standard) và FLORES+ Devtest (39 ngôn ngữ, mỗi ngôn ngữ 1.012 mục).

Các tập dữ liệu là các mục tiêu cố định mà công cụ chạy đánh giá (harness) sẽ sử dụng để đối chiếu. Mỗi tập dữ liệu là một tệp JSON chứa các cặp nguồn→đích kèm theo các bản dịch tham chiếu gold-standard. Công cụ harness sẽ tính điểm đầu ra của mô hình dựa trên các bản dịch tham chiếu này — nó không bao giờ sửa đổi chúng.

:::danger KHÔNG HUẤN LUYỆN trên dữ liệu đánh giá

⚠️ Các tập dữ liệu này chỉ dành riêng cho việc đánh giá. Các phương pháp được huấn luyện (train), tinh chỉnh (fine-tune), gợi ý vài lượt (few-shot-prompted) hoặc tiếp xúc với dữ liệu đánh giá bằng bất kỳ hình thức nào khác sẽ tạo ra điểm số cao một cách giả tạo và sẽ bị loại khỏi bảng xếp hạng (leaderboard).

Hãy sử dụng các ngữ liệu riêng biệt để huấn luyện. Các tập dữ liệu đánh giá phải được giữ kín hoàn toàn với mô hình của bạn trong suốt quá trình phát triển. :::

Định dạng Tập dữ liệu

Mọi tập dữ liệu đều tuân theo cùng một cấu trúc (schema) JSON:

{
  "dataset": {
    "id": "dataset-slug",
    "version": "1.0",
    "language_pair": "EN→CRK",
    "description": "Human-readable description of the dataset",
    "source_language": "en",
    "target_language": "crk",
    "created": "2025-05-01",
    "license": "CC-BY-NC-4.0",
    "provenance": ["gold_standard", "textbook"]
  },
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "tânisi",
      "difficulty": 1,
      "provenance": "gold_standard",
      "register": "conversational",
      "context": "greeting",
      "notes": "Common greeting, SRO orthography"
    }
  ]
}

:::info Cấu trúc Chuẩn (Canonical Schema) Tài liệu Benchmark Specification định nghĩa ngữ liệu chuẩn và cấu trúc của các mục dữ liệu. Trang này tài liệu hóa các tập dữ liệu hiện có và cách tạo tập dữ liệu mới. :::

Khối `dataset` Cấp cao nhất

Trường	Kiểu dữ liệu	Mô tả
`id`	`string`	Mã định danh duy nhất của tập dữ liệu (được sử dụng trong run card và bảng xếp hạng)
`version`	`string`	Phiên bản ngữ nghĩa (semantic version). Việc tăng phiên bản này sẽ làm mất hiệu lực của các so sánh run card trước đó
`language_pair`	`string`	Nhãn hiển thị (ví dụ: `EN→CRK`)
`description`	`string`	Không bắt buộc. Bản tóm tắt dễ đọc đối với con người
`source_language`	`string`	Mã ngôn ngữ nguồn BCP 47
`target_language`	`string`	Mã ngôn ngữ đích BCP 47
`created`	`string`	Ngày tạo theo chuẩn ISO 8601
`license`	`string`	Mã định danh giấy phép SPDX
`provenance`	`string[]`	Danh sách các thẻ nguồn gốc (provenance tags) được sử dụng trên các mục dữ liệu

Các Trường của Mục dữ liệu

Trường	Kiểu dữ liệu	Bắt buộc	Mô tả
`id`	`integer`	✅	Mã định danh duy nhất của mục dữ liệu trong ngữ liệu
`source`	`string`	✅	Văn bản nguồn cần dịch
`reference`	`string`	✅	Bản dịch tham chiếu gold-standard
`difficulty`	`integer`	✅	Mức độ khó từ 1–5 (xem bên dưới)
`provenance`	`string`	✅	Nguồn gốc của mục dữ liệu này (ví dụ: `gold_standard`, `textbook`, `elicited`)
`register`	`string`	✅	Văn phong/mức độ trang trọng (ví dụ: `conversational`, `formal`, `ceremonial`)
`context`	`string`	✅	Chức năng giao tiếp (ví dụ: `greeting`, `declaration`, `instruction`)
`notes`	`string`	❌	Ngữ cảnh không bắt buộc dành cho người đánh giá
`morphological_analysis`	`string`	❌	Phân tích hình thái học gold-standard
`variant_class`	`string`	❌	Nhãn lớp nhóm các biến thể dịch thuật được chấp nhận

Các Tập dữ liệu Hiện có

Tập Phát triển EDTeKLA v1

Tập dữ liệu đánh giá đầu tiên, được xây dựng cho tác vụ dịch English→Plains Cree (SRO). Được tạo bởi nhóm nghiên cứu EdTeKLA tại Đại học Alberta.

Thuộc tính	Giá trị
ID	`edtekla-dev-v1`
Phiên bản	`1.0`
Cặp ngôn ngữ	EN → CRK (Plains Cree, chữ viết SRO)
Số lượng mục	Tổng cộng 548 (486 từ sách giáo khoa + 62 gold standard). Ngữ liệu phát triển chuẩn (canonical dev corpus) là `textbook_dev.json` (436 mục — toàn bộ phần chia phát triển từ sách giáo khoa trong tổng số 486 mục: 436 phát triển + 50 kiểm tra được giữ lại)
Phân bổ độ khó	Dễ, Trung bình, Khó
Nguồn gốc	`gold_standard` (được xác minh bởi người bản xứ), `textbook` (tài liệu giáo dục đã xuất bản)
Giấy phép	CC BY-NC-SA 4.0

Nội dung kiểm tra:

Các câu chào hỏi cơ bản và cụm từ thông dụng
Tính sinh vật của danh từ (noun animacy) và sự phân biệt ngôi thứ ba phụ (obviation)
Chia động từ theo các ngôi và thì
Cấu trúc chỉ vị trí (locative)
Hệ biến hình sở hữu (possessive paradigms)
Cấu trúc câu phức tạp

:::tip Cấu trúc ngữ liệu Bộ sưu tập EdTeKLA đầy đủ có 548 mục được tuyển chọn: 486 mục từ ngữ liệu sách giáo khoa (436 phát triển + 50 giữ lại) và 62 mục từ bản dịch chuẩn gold-standard itwêwina. Ngữ liệu phát triển chuẩn là textbook_dev.json với 436 mục — toàn bộ phần chia phát triển từ sách giáo khoa. Mỗi mục dữ liệu đều được xác minh bởi những người nói lưu loát hoặc được lấy từ các sách giáo khoa tiếng Cree đã xuất bản. Một tập dữ liệu nhỏ hơn, chất lượng cao với các bản dịch chuẩn gold-standard đã được xác minh sẽ hữu ích hơn một tập dữ liệu lớn nhưng nhiều nhiễu — đặc biệt là đối với một ngôn ngữ ít tài nguyên (low-resource language), nơi các bản dịch "gần đúng" thường không hợp lệ về mặt hình thái học. :::

Tạo một Tập dữ liệu Mới

Để tạo một tập dữ liệu cho một cặp ngôn ngữ hoặc lĩnh vực mới:

1. Cấu trúc tệp JSON

Tuân theo cấu trúc Định dạng Tập dữ liệu. Mỗi mục dữ liệu phải có source, reference, difficulty, provenance, register, và context.

2. Gán một ID duy nhất

Sử dụng một slug mô tả: {project}-{split}-v{version} (ví dụ: edtekla-dev-v1, quechua-test-v1).

3. Xác minh các bản dịch chuẩn gold-standard

Mỗi giá trị reference phải được xác minh bởi người nói lưu loát hoặc được lấy từ một nguồn tài liệu đã xuất bản và được bình duyệt (peer-reviewed). Các bản dịch tham chiếu do máy tạo ra sẽ làm mất đi mục đích của việc đánh giá.

4. Thiết lập các mức độ khó

Gán cho mỗi mục dữ liệu một mức độ khó bằng số nguyên:

Mức độ	Mô tả	Ví dụ
1 — Từ vựng cơ bản	Từ đơn, câu chào hỏi thông dụng, chữ số	"hello" → "tânisi"
2 — Câu đơn giản	Chủ ngữ-động từ hoặc SVO, thì hiện tại	"I see the dog"
3 — Độ phức tạp trung bình	Thì quá khứ/tương lai, từ sở hữu, tính sinh vật	"I saw his dog yesterday"
4 — Hình thái học phức tạp	Sự phân biệt ngôi thứ ba phụ (obviation), thể bị động, trật tự liên hợp (conjunct order)	"the woman whose son went to the store"
5 — Nâng cao	Nhiều mệnh đề, văn phong trang trọng, nghi lễ, thành ngữ	Một đoạn văn đầy đủ với giọng điệu phù hợp với văn phong

5. Gắn thẻ nguồn gốc (provenance)

Mỗi mục dữ liệu nên chỉ rõ nguồn gốc của nó. Các thẻ phổ biến:

gold_standard — Được xác minh bởi người nói lưu loát
textbook — Từ các tài liệu giáo dục đã xuất bản
elicited — Được tạo ra thông qua các buổi thu thập dữ liệu có cấu trúc (elicitation sessions)
corpus — Được trích xuất từ một ngữ liệu song song

6. Xác thực tệp

Chạy công cụ harness đối với tập dữ liệu của bạn bằng bất kỳ mô hình nào để xác minh rằng tệp JSON được định dạng đúng và có đầy đủ tất cả các trường bắt buộc:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

Công cụ harness sẽ báo lỗi nếu thiếu trường, trùng lặp chỉ mục hoặc vi phạm cấu trúc (schema).

7. Gửi yêu cầu tích hợp

Hãy mở một pull request tới kho lưu trữ eval harness kèm theo tệp dữ liệu của bạn trong thư mục data/. Đính kèm tài liệu mô tả phương pháp xác minh và các nguồn gốc dữ liệu của bạn.

FLORES+ Devtest

Một bộ đo kiểm đa ngôn ngữ có độ bao phủ rộng được duy trì bởi Open Language Data Initiative (OLDI). Được sử dụng cho bộ đo kiểm đa mô hình tiên phong (multi-model frontier benchmark) của champollion.

Thuộc tính	Giá trị
ID	`flores-plus-devtest`
Các cặp ngôn ngữ	EN → 39 ngôn ngữ (tất cả các ngôn ngữ tự nhiên đã đăng ký của champollion)
Số lượng mục	1.012 câu cho mỗi ngôn ngữ
Giấy phép	CC BY-SA 4.0
Nguồn	Ban đầu là Meta FLORES-200, hiện được duy trì bởi OLDI
Vị trí	Các tệp fixtures được trích xuất sẵn tại `test/benchmark/fixtures/` trong kho lưu trữ champollion chính

:::danger Chỉ dành cho đánh giá FLORES+ chỉ được thiết kế dành riêng cho việc đánh giá. Các nhà quản lý yêu cầu rõ ràng rằng nó không được sử dụng làm dữ liệu huấn luyện. Hãy đảm bảo nội dung của nó được loại trừ khỏi bất kỳ ngữ liệu huấn luyện nào. :::

Xem thêm

Đánh giá dịch máy (MT Evaluation) — tổng quan về khung đánh giá và bảng xếp hạng
Eval Harness — cách chạy đánh giá đối với các tập dữ liệu này
Đặc tả Run Card — cấu trúc JSON để ghi lại kết quả
Bảng xếp hạng Phương pháp (Method Leaderboard) — điểm số đo kiểm trực tiếp
Dự án EdTeKLA — nhóm nghiên cứu của Đại học Alberta đứng sau tập dữ liệu tiếng Cree

Định dạng Tập dữ liệu​

Khối dataset Cấp cao nhất​

Các Trường của Mục dữ liệu​

Các Tập dữ liệu Hiện có​

Tập Phát triển EDTeKLA v1​

Tạo một Tập dữ liệu Mới​

1. Cấu trúc tệp JSON​

2. Gán một ID duy nhất​

3. Xác minh các bản dịch chuẩn gold-standard​

4. Thiết lập các mức độ khó​

5. Gắn thẻ nguồn gốc (provenance)​

6. Xác thực tệp​

7. Gửi yêu cầu tích hợp​

FLORES+ Devtest​

Xem thêm​