الانتقال إلى المحتوى الرئيسي

مجموعات بيانات التقييم

ملخص تنفيذي. تصف هذه الصفحة مجموعات بيانات التقييم المتاحة لقياس الأداء، بما في ذلك مخطط إدخالات المتن (corpus)، ومستويات الصعوبة (1–5)، ومتطلبات المصدر. المتاح حاليًا: EDTeKLA Dev v1 (لغة كري السهول، 548 إدخالًا إجماليًا: 486 من الكتب المدرسية + 62 معيارًا ذهبيًا) وFLORES+ Devtest (39 لغة، 1,012 إدخالًا لكل لغة).

مجموعات البيانات هي الأهداف الثابتة التي يعمل عليها إطار التقييم (harness). كل مجموعة بيانات هي ملف JSON يحتوي على أزواج مصدر→هدف مع ترجمات مرجعية معيارية ذهبية. يقوم إطار التقييم بتقييم مخرجات النموذج مقارنةً بهذه المراجع — ولا يعدّلها أبدًا.

:::danger لا تستخدم بيانات التقييم في التدريب

⚠️ هذه المجموعات مخصصة للتقييم فقط. الطرق التي تم تدريبها أو ضبطها الدقيق أو تزويدها بأمثلة قليلة (few-shot) أو تعريضها لبيانات التقييم بأي شكل آخر ستنتج درجات مضخّمة بشكل مصطنع وسيتم استبعادها من لوحة المتصدرين.

استخدم متونًا منفصلة للتدريب. يجب أن تظل مجموعات التقييم غير مرئية لنموذجك أثناء التطوير. :::


تنسيق مجموعة البيانات

تتبع كل مجموعة بيانات نفس مخطط JSON:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info المخطط القياسي تحدد مواصفات قياس الأداء المخطط القياسي للمتن والإدخالات. توثّق هذه الصفحة مجموعات البيانات المتاحة وكيفية إنشاء مجموعات جديدة. :::

كتلة dataset في المستوى الأعلى

الحقلالنوعالوصف
idstringمعرّف فريد لمجموعة البيانات (يُستخدم في بطاقات التشغيل ولوحة المتصدرين)
versionstringإصدار دلالي. زيادة هذا الرقم تبطل مقارنات بطاقات التشغيل السابقة
language_pairstringتسمية العرض (مثل EN→CRK)
descriptionstringاختياري. ملخص مقروء للبشر
source_languagestringرمز لغة المصدر وفق BCP 47
target_languagestringرمز اللغة الهدف وفق BCP 47
createdstringتاريخ الإنشاء وفق ISO 8601
licensestringمعرّف الترخيص وفق SPDX
provenancestring[]قائمة وسوم المصدر المستخدمة عبر الإدخالات

حقول الإدخالات

الحقلالنوعمطلوبالوصف
idintegerمعرّف فريد للإدخال داخل المتن
sourcestringالنص المصدر المراد ترجمته
referencestringالترجمة المرجعية المعيارية الذهبية
difficultyintegerمستوى الصعوبة من 1 إلى 5 (انظر أدناه)
provenancestringأصل هذا الإدخال (مثل gold_standard، textbook، elicited)
registerstringمستوى السجل اللغوي/الرسمية (مثل conversational، formal، ceremonial)
contextstringالوظيفة التواصلية (مثل greeting، declaration، instruction)
notesstringسياق اختياري للمراجعين البشريين
morphological_analysisstringتحليل صرفي معياري ذهبي
variant_classstringتسمية فئة تجمّع متغيرات الترجمة المقبولة

مجموعات البيانات المتاحة

EDTeKLA Development Set v1

مجموعة بيانات التقييم الأولى، أُنشئت لترجمة الإنجليزية→كري السهول (SRO). أنشأتها مجموعة أبحاث EdTeKLA في جامعة ألبرتا.

الخاصيةالقيمة
المعرّفedtekla-dev-v1
الإصدار1.0
زوج اللغاتEN → CRK (كري السهول، نظام الكتابة SRO)
عدد الإدخالات548 إجمالًا (486 من الكتب المدرسية + 62 معيارًا ذهبيًا). المتن التطويري القياسي هو textbook_dev.json (436 إدخالًا — كامل قسم التطوير من الكتب المدرسية من إجمالي 486: 436 للتطوير + 50 محجوزة للاختبار)
توزيع الصعوبةسهل، متوسط، صعب
المصدرgold_standard (تم التحقق منها بواسطة متحدثين)، textbook (مواد تعليمية منشورة)
الترخيصCC BY-NC-SA 4.0

ما الذي تختبره:

  • التحيات الأساسية والعبارات الشائعة
  • حيوية الأسماء (animacy) والإحالة البعيدة (obviation)
  • تصريف الأفعال عبر الأشخاص والأزمنة
  • التراكيب المكانية
  • أنماط الملكية
  • التراكيب الجملية المعقدة

:::tip بنية المتن تحتوي مجموعة EdTeKLA الكاملة على 548 إدخالًا منسّقًا: 486 من متن الكتب المدرسية (436 للتطوير + 50 محجوزة) و62 من المعيار الذهبي itwêwina. المتن التطويري القياسي هو textbook_dev.json بـ 436 إدخالًا — كامل قسم التطوير من الكتب المدرسية. تم التحقق من كل إدخال بواسطة متحدثين بطلاقة أو استُمد من كتب مدرسية منشورة للغة كري. مجموعة بيانات أصغر وعالية الجودة بمعايير ذهبية موثّقة أكثر فائدة من مجموعة كبيرة ومشوّشة — خاصةً للغة منخفضة الموارد حيث غالبًا ما تكون الترجمات «القريبة بما يكفي» غير صحيحة صرفيًا. :::


إنشاء مجموعة بيانات جديدة

لإنشاء مجموعة بيانات لزوج لغوي جديد أو مجال جديد:

1. هيكلة ملف JSON

اتبع مخطط تنسيق مجموعة البيانات. يجب أن يحتوي كل إدخال على source وreference وdifficulty وprovenance وregister وcontext.

2. تعيين معرّف فريد

استخدم اسمًا وصفيًا: {project}-{split}-v{version} (مثل edtekla-dev-v1، quechua-test-v1).

3. التحقق من المعايير الذهبية

يجب التحقق من كل قيمة reference بواسطة متحدث بطلاقة أو استمدادها من مصدر منشور خاضع لمراجعة الأقران. المراجع المولّدة آليًا تُبطل الغرض من التقييم.

4. تحديد مستويات الصعوبة

عيّن لكل إدخال مستوى صعوبة بقيمة صحيحة:

المستوىالوصفأمثلة
1 — مفردات أساسيةكلمات مفردة، تحيات شائعة، أرقام"hello" → "tânisi"
2 — جمل بسيطةفاعل-فعل أو SVO، الزمن الحاضر"I see the dog"
3 — تعقيد متوسطالزمن الماضي/المستقبل، الملكية، الحيوية"I saw his dog yesterday"
4 — صرف معقدالإحالة البعيدة، المبني للمجهول، الصيغة الموصولة (conjunct order)"the woman whose son went to the store"
5 — متقدمجمل متعددة العبارات، سجل رسمي، احتفالي، اصطلاحيفقرة كاملة بنبرة مناسبة للسجل اللغوي

5. وسم المصدر

ينبغي أن يشير كل إدخال إلى مصدره. الوسوم الشائعة:

  • gold_standard — تم التحقق منها بواسطة متحدثين بطلاقة
  • textbook — من مواد تعليمية منشورة
  • elicited — أُنتجت من خلال جلسات استخلاص منظّمة
  • corpus — مستخرجة من متن متوازٍ

6. التحقق من صحة الملف

شغّل إطار التقييم على مجموعة بياناتك مع أي نموذج للتحقق من أن ملف JSON سليم البنية وأن جميع الحقول المطلوبة موجودة:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

سيُظهر إطار التقييم خطأً عند وجود حقول مفقودة أو فهارس مكررة أو انتهاكات للمخطط.

7. التقديم للإدراج

افتح طلب سحب (pull request) في مستودع إطار التقييم مع ملف مجموعة بياناتك في مجلد data/. أرفق توثيقًا لمنهجية التحقق التي اتبعتها ومصادر المتن.


FLORES+ Devtest

معيار قياس متعدد اللغات واسع التغطية تديره Open Language Data Initiative (OLDI). يُستخدم لقياس الأداء المتقدم متعدد النماذج في champollion.

الخاصيةالقيمة
المعرّفflores-plus-devtest
أزواج اللغاتEN → 39 لغة (جميع اللغات الطبيعية المسجلة في champollion)
عدد الإدخالات1,012 جملة لكل لغة
الترخيصCC BY-SA 4.0
المصدرفي الأصل Meta FLORES-200، وتديره الآن OLDI
الموقعبيانات ثابتة مستخرجة مسبقًا في test/benchmark/fixtures/ في مستودع champollion الرئيسي

:::danger للتقييم فقط مجموعة FLORES+ مخصصة حصريًا للتقييم. يطلب القيّمون عليها صراحةً عدم استخدامها كبيانات تدريب. تأكد من استبعاد محتوياتها من أي متون تدريبية. :::


انظر أيضًا