مجموعات بيانات التقييم
ملخص تنفيذي. تصف هذه الصفحة مجموعات بيانات التقييم المتاحة لقياس الأداء، بما في ذلك مخطط إدخالات المتن (corpus)، ومستويات الصعوبة (1–5)، ومتطلبات المصدر. المتاح حاليًا: EDTeKLA Dev v1 (لغة كري السهول، 548 إدخالًا إجماليًا: 486 من الكتب المدرسية + 62 معيارًا ذهبيًا) وFLORES+ Devtest (39 لغة، 1,012 إدخالًا لكل لغة).
مجموعات البيانات هي الأهداف الثابتة التي يعمل عليها إطار التقييم (harness). كل مجموعة بيانات هي ملف JSON يحتوي على أزواج مصدر→هدف مع ترجمات مرجعية معيارية ذهبية. يقوم إطار التقييم بتقييم مخرجات النموذج مقارنةً بهذه المراجع — ولا يعدّلها أبدًا.
:::danger لا تستخدم بيانات التقييم في التدريب
⚠️ هذه المجموعات مخصصة للتقييم فقط. الطرق التي تم تدريبها أو ضبطها الدقيق أو تزويدها بأمثلة قليلة (few-shot) أو تعريضها لبيانات التقييم بأي شكل آخر ستنتج درجات مضخّمة بشكل مصطنع وسيتم استبعادها من لوحة المتصدرين.
استخدم متونًا منفصلة للتدريب. يجب أن تظل مجموعات التقييم غير مرئية لنموذجك أثناء التطوير. :::
تنسيق مجموعة البيانات
تتبع كل مجموعة بيانات نفس مخطط JSON:
{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}
:::info المخطط القياسي تحدد مواصفات قياس الأداء المخطط القياسي للمتن والإدخالات. توثّق هذه الصفحة مجموعات البيانات المتاحة وكيفية إنشاء مجموعات جديدة. :::
كتلة dataset في المستوى الأعلى
| الحقل | النوع | الوصف |
|---|---|---|
id | string | معرّف فريد لمجموعة البيانات (يُستخدم في بطاقات التشغيل ولوحة المتصدرين) |
version | string | إصدار دلالي. زيادة هذا الرقم تبطل مقارنات بطاقات التشغيل السابقة |
language_pair | string | تسمية العرض (مثل EN→CRK) |
description | string | اختياري. ملخص مقروء للبشر |
source_language | string | رمز لغة المصدر وفق BCP 47 |
target_language | string | رمز اللغة الهدف وفق BCP 47 |
created | string | تاريخ الإنشاء وفق ISO 8601 |
license | string | معرّف الترخيص وفق SPDX |
provenance | string[] | قائمة وسوم المصدر المستخدمة عبر الإدخالات |
حقول الإدخالات
| الحقل | النوع | مطلوب | الوصف |
|---|---|---|---|
id | integer | ✅ | معرّف فريد للإدخال داخل المتن |
source | string | ✅ | النص المصدر المراد ترجمته |
reference | string | ✅ | الترجمة المرجعية المعيارية الذهبية |
difficulty | integer | ✅ | مستوى الصعوبة من 1 إلى 5 (انظر أدناه) |
provenance | string | ✅ | أصل هذا الإدخال (مثل gold_standard، textbook، elicited) |
register | string | ✅ | مستوى السجل اللغوي/الرسمية (مثل conversational، formal، ceremonial) |
context | string | ✅ | الوظيفة التواصلية (مثل greeting، declaration، instruction) |
notes | string | ❌ | سياق اختياري للمراجعين البشريين |
morphological_analysis | string | ❌ | تحليل صرفي معياري ذهبي |
variant_class | string | ❌ | تسمية فئة تجمّع متغيرات الترجمة المقبولة |
مجموعات البيانات المتاحة
EDTeKLA Development Set v1
مجموعة بيانات التقييم الأولى، أُنشئت لترجمة الإنجليزية→كري السهول (SRO). أنشأتها مجموعة أبحاث EdTeKLA في جامعة ألبرتا.
| الخاصية | القيمة |
|---|---|
| المعرّف | edtekla-dev-v1 |
| الإصدار | 1.0 |
| زوج اللغات | EN → CRK (كري السهول، نظام الكتابة SRO) |
| عدد الإدخالات | 548 إجمالًا (486 من الكتب المدرسية + 62 معيارًا ذهبيًا). المتن التطويري القياسي هو textbook_dev.json (436 إدخالًا — كامل قسم التطوير من الكتب المدرسية من إجمالي 486: 436 للتطوير + 50 محجوزة للاختبار) |
| توزيع الصعوبة | سهل، متوسط، صعب |
| المصدر | gold_standard (تم التحقق منها بواسطة متحدثين)، textbook (مواد تعليمية منشورة) |
| الترخيص | CC BY-NC-SA 4.0 |
ما الذي تختبره:
- التحيات الأساسية والعبارات الشائعة
- حيوية الأسماء (animacy) والإحالة البعيدة (obviation)
- تصريف الأفعال عبر الأشخاص والأزمنة
- التراكيب المكانية
- أنماط الملكية
- التراكيب الجملية المعقدة
:::tip بنية المتن
تحتوي مجموعة EdTeKLA الكاملة على 548 إدخالًا منسّقًا: 486 من متن الكتب المدرسية (436 للتطوير + 50 محجوزة) و62 من المعيار الذهبي itwêwina. المتن التطويري القياسي هو textbook_dev.json بـ 436 إدخالًا — كامل قسم التطوير من الكتب المدرسية. تم التحقق من كل إدخال بواسطة متحدثين بطلاقة أو استُمد من كتب مدرسية منشورة للغة كري. مجموعة بيانات أصغر وعالية الجودة بمعايير ذهبية موثّقة أكثر فائدة من مجموعة كبيرة ومشوّشة — خاصةً للغة منخفضة الموارد حيث غالبًا ما تكون الترجمات «القريبة بما يكفي» غير صحيحة صرفيًا.
:::
إنشاء مجموعة بيانات جديدة
لإنشاء مجموعة بيانات لزوج لغوي جديد أو مجال جديد:
1. هيكلة ملف JSON
اتبع مخطط تنسيق مجموعة البيانات. يجب أن يحتوي كل إدخال على source وreference وdifficulty وprovenance وregister وcontext.
2. تعيين معرّف فريد
استخدم اسمًا وصفيًا: {project}-{split}-v{version} (مثل edtekla-dev-v1، quechua-test-v1).
3. التحقق من المعايير الذهبية
يجب التحقق من كل قيمة reference بواسطة متحدث بطلاقة أو استمدادها من مصدر منشور خاضع لمراجعة الأقران. المراجع المولّدة آليًا تُبطل الغرض من التقييم.
4. تحديد مستويات الصعوبة
عيّن لكل إدخال مستوى صعوبة بقيمة صحيحة:
| المستوى | الوصف | أمثلة |
|---|---|---|
| 1 — مفردات أساسية | كلمات مفردة، تحيات شائعة، أرقام | "hello" → "tânisi" |
| 2 — جمل بسيطة | فاعل-فعل أو SVO، الزمن الحاضر | "I see the dog" |
| 3 — تعقيد متوسط | الزمن الماضي/المستقبل، الملكية، الحيوية | "I saw his dog yesterday" |
| 4 — صرف معقد | الإحالة البعيدة، المبني للمجهول، الصيغة الموصولة (conjunct order) | "the woman whose son went to the store" |
| 5 — متقدم | جمل متعددة العبارات، سجل رسمي، احتفالي، اصطلاحي | فقرة كاملة بنبرة مناسبة للسجل اللغوي |
5. وسم المصدر
ينبغي أن يشير كل إدخال إلى مصدره. الوسوم الشائعة:
gold_standard— تم التحقق منها بواسطة متحدثين بطلاقةtextbook— من مواد تعليمية منشورةelicited— أُنتجت من خلال جلسات استخلاص منظّمةcorpus— مستخرجة من متن متوازٍ
6. التحقق من صحة الملف
شغّل إطار التقييم على مجموعة بياناتك مع أي نموذج للتحقق من أن ملف JSON سليم البنية وأن جميع الحقول المطلوبة موجودة:
python eval/baseline_experiment.py --dataset path/to/your-dataset.json
سيُظهر إطار التقييم خطأً عند وجود حقول مفقودة أو فهارس مكررة أو انتهاكات للمخطط.
7. التقديم للإدراج
افتح طلب سحب (pull request) في مستودع إطار التقييم مع ملف مجموعة بياناتك في مجلد data/. أرفق توثيقًا لمنهجية التحقق التي اتبعتها ومصادر المتن.
FLORES+ Devtest
معيار قياس متعدد اللغات واسع التغطية تديره Open Language Data Initiative (OLDI). يُستخدم لقياس الأداء المتقدم متعدد النماذج في champollion.
| الخاصية | القيمة |
|---|---|
| المعرّف | flores-plus-devtest |
| أزواج اللغات | EN → 39 لغة (جميع اللغات الطبيعية المسجلة في champollion) |
| عدد الإدخالات | 1,012 جملة لكل لغة |
| الترخيص | CC BY-SA 4.0 |
| المصدر | في الأصل Meta FLORES-200، وتديره الآن OLDI |
| الموقع | بيانات ثابتة مستخرجة مسبقًا في test/benchmark/fixtures/ في مستودع champollion الرئيسي |
:::danger للتقييم فقط مجموعة FLORES+ مخصصة حصريًا للتقييم. يطلب القيّمون عليها صراحةً عدم استخدامها كبيانات تدريب. تأكد من استبعاد محتوياتها من أي متون تدريبية. :::
انظر أيضًا
- تقييم الترجمة الآلية — نظرة عامة على إطار التقييم ولوحة المتصدرين
- إطار التقييم — كيفية تشغيل التقييمات على هذه المجموعات
- مواصفات بطاقة التشغيل — مخطط JSON لتسجيل النتائج
- لوحة متصدري الطرق — درجات قياس الأداء المباشرة
- مشروع EdTeKLA — مجموعة الأبحاث في جامعة ألبرتا التي أنشأت مجموعة بيانات لغة كري