مجموعات بيانات التقييم

ملخص تنفيذي. تصف هذه الصفحة مجموعات بيانات التقييم المتاحة لقياس الأداء، بما في ذلك مخطط إدخالات المتن (corpus)، ومستويات الصعوبة (1–5)، ومتطلبات المصدر. المتاح حاليًا: EDTeKLA Dev v1 (لغة كري السهول، 548 إدخالًا إجماليًا: 486 من الكتب المدرسية + 62 معيارًا ذهبيًا) وFLORES+ Devtest (39 لغة، 1,012 إدخالًا لكل لغة).

مجموعات البيانات هي الأهداف الثابتة التي يعمل عليها إطار التقييم (harness). كل مجموعة بيانات هي ملف JSON يحتوي على أزواج مصدر→هدف مع ترجمات مرجعية معيارية ذهبية. يقوم إطار التقييم بتقييم مخرجات النموذج مقارنةً بهذه المراجع — ولا يعدّلها أبدًا.

:::danger لا تستخدم بيانات التقييم في التدريب

⚠️ هذه المجموعات مخصصة للتقييم فقط. الطرق التي تم تدريبها أو ضبطها الدقيق أو تزويدها بأمثلة قليلة (few-shot) أو تعريضها لبيانات التقييم بأي شكل آخر ستنتج درجات مضخّمة بشكل مصطنع وسيتم استبعادها من لوحة المتصدرين.

استخدم متونًا منفصلة للتدريب. يجب أن تظل مجموعات التقييم غير مرئية لنموذجك أثناء التطوير. :::

تنسيق مجموعة البيانات

تتبع كل مجموعة بيانات نفس مخطط JSON:

{
  "dataset": {
    "id": "dataset-slug",
    "version": "1.0",
    "language_pair": "EN→CRK",
    "description": "Human-readable description of the dataset",
    "source_language": "en",
    "target_language": "crk",
    "created": "2025-05-01",
    "license": "CC-BY-NC-4.0",
    "provenance": ["gold_standard", "textbook"]
  },
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "tânisi",
      "difficulty": 1,
      "provenance": "gold_standard",
      "register": "conversational",
      "context": "greeting",
      "notes": "Common greeting, SRO orthography"
    }
  ]
}

:::info المخطط القياسي تحدد مواصفات قياس الأداء المخطط القياسي للمتن والإدخالات. توثّق هذه الصفحة مجموعات البيانات المتاحة وكيفية إنشاء مجموعات جديدة. :::

كتلة `dataset` في المستوى الأعلى

الحقل	النوع	الوصف
`id`	`string`	معرّف فريد لمجموعة البيانات (يُستخدم في بطاقات التشغيل ولوحة المتصدرين)
`version`	`string`	إصدار دلالي. زيادة هذا الرقم تبطل مقارنات بطاقات التشغيل السابقة
`language_pair`	`string`	تسمية العرض (مثل `EN→CRK`)
`description`	`string`	اختياري. ملخص مقروء للبشر
`source_language`	`string`	رمز لغة المصدر وفق BCP 47
`target_language`	`string`	رمز اللغة الهدف وفق BCP 47
`created`	`string`	تاريخ الإنشاء وفق ISO 8601
`license`	`string`	معرّف الترخيص وفق SPDX
`provenance`	`string[]`	قائمة وسوم المصدر المستخدمة عبر الإدخالات

حقول الإدخالات

الحقل	النوع	مطلوب	الوصف
`id`	`integer`	✅	معرّف فريد للإدخال داخل المتن
`source`	`string`	✅	النص المصدر المراد ترجمته
`reference`	`string`	✅	الترجمة المرجعية المعيارية الذهبية
`difficulty`	`integer`	✅	مستوى الصعوبة من 1 إلى 5 (انظر أدناه)
`provenance`	`string`	✅	أصل هذا الإدخال (مثل `gold_standard`، `textbook`، `elicited`)
`register`	`string`	✅	مستوى السجل اللغوي/الرسمية (مثل `conversational`، `formal`، `ceremonial`)
`context`	`string`	✅	الوظيفة التواصلية (مثل `greeting`، `declaration`، `instruction`)
`notes`	`string`	❌	سياق اختياري للمراجعين البشريين
`morphological_analysis`	`string`	❌	تحليل صرفي معياري ذهبي
`variant_class`	`string`	❌	تسمية فئة تجمّع متغيرات الترجمة المقبولة

مجموعات البيانات المتاحة

EDTeKLA Development Set v1

مجموعة بيانات التقييم الأولى، أُنشئت لترجمة الإنجليزية→كري السهول (SRO). أنشأتها مجموعة أبحاث EdTeKLA في جامعة ألبرتا.

الخاصية	القيمة
المعرّف	`edtekla-dev-v1`
الإصدار	`1.0`
زوج اللغات	EN → CRK (كري السهول، نظام الكتابة SRO)
عدد الإدخالات	548 إجمالًا (486 من الكتب المدرسية + 62 معيارًا ذهبيًا). المتن التطويري القياسي هو `textbook_dev.json` (436 إدخالًا — كامل قسم التطوير من الكتب المدرسية من إجمالي 486: 436 للتطوير + 50 محجوزة للاختبار)
توزيع الصعوبة	سهل، متوسط، صعب
المصدر	`gold_standard` (تم التحقق منها بواسطة متحدثين)، `textbook` (مواد تعليمية منشورة)
الترخيص	CC BY-NC-SA 4.0

ما الذي تختبره:

التحيات الأساسية والعبارات الشائعة
حيوية الأسماء (animacy) والإحالة البعيدة (obviation)
تصريف الأفعال عبر الأشخاص والأزمنة
التراكيب المكانية
أنماط الملكية
التراكيب الجملية المعقدة

:::tip بنية المتن تحتوي مجموعة EdTeKLA الكاملة على 548 إدخالًا منسّقًا: 486 من متن الكتب المدرسية (436 للتطوير + 50 محجوزة) و62 من المعيار الذهبي itwêwina. المتن التطويري القياسي هو textbook_dev.json بـ 436 إدخالًا — كامل قسم التطوير من الكتب المدرسية. تم التحقق من كل إدخال بواسطة متحدثين بطلاقة أو استُمد من كتب مدرسية منشورة للغة كري. مجموعة بيانات أصغر وعالية الجودة بمعايير ذهبية موثّقة أكثر فائدة من مجموعة كبيرة ومشوّشة — خاصةً للغة منخفضة الموارد حيث غالبًا ما تكون الترجمات «القريبة بما يكفي» غير صحيحة صرفيًا. :::

إنشاء مجموعة بيانات جديدة

لإنشاء مجموعة بيانات لزوج لغوي جديد أو مجال جديد:

1. هيكلة ملف JSON

اتبع مخطط تنسيق مجموعة البيانات. يجب أن يحتوي كل إدخال على source وreference وdifficulty وprovenance وregister وcontext.

2. تعيين معرّف فريد

استخدم اسمًا وصفيًا: {project}-{split}-v{version} (مثل edtekla-dev-v1، quechua-test-v1).

3. التحقق من المعايير الذهبية

يجب التحقق من كل قيمة reference بواسطة متحدث بطلاقة أو استمدادها من مصدر منشور خاضع لمراجعة الأقران. المراجع المولّدة آليًا تُبطل الغرض من التقييم.

4. تحديد مستويات الصعوبة

عيّن لكل إدخال مستوى صعوبة بقيمة صحيحة:

المستوى	الوصف	أمثلة
1 — مفردات أساسية	كلمات مفردة، تحيات شائعة، أرقام	"hello" → "tânisi"
2 — جمل بسيطة	فاعل-فعل أو SVO، الزمن الحاضر	"I see the dog"
3 — تعقيد متوسط	الزمن الماضي/المستقبل، الملكية، الحيوية	"I saw his dog yesterday"
4 — صرف معقد	الإحالة البعيدة، المبني للمجهول، الصيغة الموصولة (conjunct order)	"the woman whose son went to the store"
5 — متقدم	جمل متعددة العبارات، سجل رسمي، احتفالي، اصطلاحي	فقرة كاملة بنبرة مناسبة للسجل اللغوي

5. وسم المصدر

ينبغي أن يشير كل إدخال إلى مصدره. الوسوم الشائعة:

gold_standard — تم التحقق منها بواسطة متحدثين بطلاقة
textbook — من مواد تعليمية منشورة
elicited — أُنتجت من خلال جلسات استخلاص منظّمة
corpus — مستخرجة من متن متوازٍ

6. التحقق من صحة الملف

شغّل إطار التقييم على مجموعة بياناتك مع أي نموذج للتحقق من أن ملف JSON سليم البنية وأن جميع الحقول المطلوبة موجودة:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

سيُظهر إطار التقييم خطأً عند وجود حقول مفقودة أو فهارس مكررة أو انتهاكات للمخطط.

7. التقديم للإدراج

افتح طلب سحب (pull request) في مستودع إطار التقييم مع ملف مجموعة بياناتك في مجلد data/. أرفق توثيقًا لمنهجية التحقق التي اتبعتها ومصادر المتن.

FLORES+ Devtest

معيار قياس متعدد اللغات واسع التغطية تديره Open Language Data Initiative (OLDI). يُستخدم لقياس الأداء المتقدم متعدد النماذج في champollion.

الخاصية	القيمة
المعرّف	`flores-plus-devtest`
أزواج اللغات	EN → 39 لغة (جميع اللغات الطبيعية المسجلة في champollion)
عدد الإدخالات	1,012 جملة لكل لغة
الترخيص	CC BY-SA 4.0
المصدر	في الأصل Meta FLORES-200، وتديره الآن OLDI
الموقع	بيانات ثابتة مستخرجة مسبقًا في `test/benchmark/fixtures/` في مستودع champollion الرئيسي

:::danger للتقييم فقط مجموعة FLORES+ مخصصة حصريًا للتقييم. يطلب القيّمون عليها صراحةً عدم استخدامها كبيانات تدريب. تأكد من استبعاد محتوياتها من أي متون تدريبية. :::

انظر أيضًا

تقييم الترجمة الآلية — نظرة عامة على إطار التقييم ولوحة المتصدرين
إطار التقييم — كيفية تشغيل التقييمات على هذه المجموعات
مواصفات بطاقة التشغيل — مخطط JSON لتسجيل النتائج
لوحة متصدري الطرق — درجات قياس الأداء المباشرة
مشروع EdTeKLA — مجموعة الأبحاث في جامعة ألبرتا التي أنشأت مجموعة بيانات لغة كري

تنسيق مجموعة البيانات​

كتلة dataset في المستوى الأعلى​

حقول الإدخالات​

مجموعات البيانات المتاحة​

EDTeKLA Development Set v1​

إنشاء مجموعة بيانات جديدة​

1. هيكلة ملف JSON​

2. تعيين معرّف فريد​

3. التحقق من المعايير الذهبية​

4. تحديد مستويات الصعوبة​

5. وسم المصدر​

6. التحقق من صحة الملف​

7. التقديم للإدراج​

FLORES+ Devtest​

انظر أيضًا​