الانتقال إلى المحتوى الرئيسي

دليل إنشاء المدونات اللغوية (Corpus)

الفكرة: قبل أن تتمكن من تقييم أي طريقة ترجمة، تحتاج إلى مدونة لغوية للتقييم. يغطي هذا الدليل كيفية بناء مدونة من الصفر — مصادر البيانات، ومتطلبات التنسيق، ومعايير الجودة، والترخيص، والمساهمة في Arena.

:::info هذه ليست طريقة ترجمة هذا الدليل هو المتطلب الأساسي للعديد من الطرق. المدونة اللغوية الجيدة للتقييم هي الأساس الذي يجعل كل شيء آخر ممكنًا. حتى 50 زوجًا منقّحًا تكفي لفتح مسار جديد في لوحة المتصدرين. :::

متى تستخدم هذا

  • تريد إضافة زوج لغوي جديد إلى لوحة المتصدرين في Arena
  • أنت معلم لغة تريد قياس أداء ترجمات الطلاب
  • أنت عامل لغوي مجتمعي لديك إمكانية الوصول إلى مواد ثنائية اللغة
  • أنت باحث تحتاج إلى مجموعة تقييم موحّدة لزوجك اللغوي

تنسيق المدونة اللغوية

يستقبل إطار التقييم (harness) ملفات JSON بسيطة:

my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}

من أين تحصل على البيانات

المصدرالجودةالحجمالترخيص
الكتب المدرسية / المواد التعليميةعالية (مراجعة من خبراء)منخفض إلى متوسطراجع الناشر
الوثائق الحكوميةمتوسطة (سجل لغوي رسمي)متوسط إلى عالٍغالبًا ملكية عامة
القواميس ثنائية اللغةعالية (مدخلات موثّقة)متوسطمتفاوت
كبار المجتمع / المتحدثونالأعلى (حدس اللغة الأم)منخفض (وقت محدود)يخضع لإدارة المجتمع
النصوص الدينيةمتوسطة (خاصة بمجال معيّن)عالٍعادةً مفتوحة
المدونات اللغوية الموجودة (Hansard, FLORES)متوسطة إلى عاليةعالٍتحقق من الرخصة
المُعدّة يدويًاالأعلىمنخفضأنت تملكها

معايير الجودة

تتميز المدونة اللغوية الجيدة للتقييم بما يلي:

  1. محتوى متنوع — ليس مجرد تحيات أو عبارات بسيطة. أدرج أسئلة وأوامر وجملًا معقدة ومصطلحات خاصة بمجالات معينة
  2. ترجمات موثّقة — راجعها متحدث واحد على الأقل يتقن اللغة، ويفضّل اثنان
  3. هجاء متّسق — نظام كتابة واحد وقاعدة إملائية واحدة في كل المدونة
  4. مصادر مستقلة — غير مشتقة من النص نفسه الذي ستُدرَّب عليه الطرق
  5. ترخيص واضح — رخصة صريحة تسمح بالاستخدام لأغراض التقييم

:::danger تلوّث المدونة اللغوية يجب أن تكون مدونة التقييم مستقلة عن أي بيانات تدريب. إذا تم تدريب طريقة ما أو توجيهها (prompting) باستخدام بيانات من مدونة التقييم، فسيتم استبعادها. صمّم مدونتك لتكون محجوزة (held-out) منذ اليوم الأول. :::

إرشادات الحجم

الحجمما الذي يتيحه
50 مدخلًاالحد الأدنى للتقييم القابل للتطبيق — يكفي للكشف عن فروق الجودة الكبيرة
100–200 مدخلترتيب موثوق — يكفي لتحقيق دلالة إحصائية بين الطرق
500+ مدخلمستوى بحثي — درجات composite score متينة وفترات ثقة
1,000+ مدخلالمعيار الذهبي — يعادل تغطية FLORES devtest

ابدأ بحجم صغير. 50 مدخلًا تكفي لفتح مسار في لوحة المتصدرين. يمكنك التوسع لاحقًا.

المساهمة في Arena

  1. أنشئ مدونتك اللغوية بتنسيق JSON الموضح أعلاه
  2. رخّصها — يوصى برخصة CC BY-SA 4.0 للتقييم المفتوح؛ وبرخصة CC BY-NC-SA 4.0 للاستخدام المقيّد
  3. قدّم طلب سحب (PR) إلى مستودع eval harness مع مدونتك في data/
  4. تُفتح لوحة المتصدرين تلقائيًا لزوجك اللغوي بمجرد دمج المدونة

لمجتمعات اللغات الأصلانية

إنشاء المدونة اللغوية هو فعل من أفعال السيادة اللغوية. مدونتك، وفق شروطك:

  • أنت من يقرر الرخصة وشروط الوصول
  • يمكنك المساهمة بـمجموعة تطوير عامة (لتطوير الطرق) مع الاحتفاظ بـمجموعة اختبار سرية (للتقييم الرسمي) تحت سيطرة المجتمع
  • يحمي إطار السيادة بياناتك على كل المستويات

حتى المدونة الصغيرة هي أصل استراتيجي — فهي المعيار الذي يحدد ما يعنيه "الجيد بما فيه الكفاية" للغتك.

تتكامل جيدًا مع

  • الترجمة الجزئية — إنشاء المدونة هو بحد ذاته خطوة الترجمة البشرية
  • الترجمة العكسية — البيانات الاصطناعية تكمّل المدونات التي أنشأها البشر
  • كل دليل عملي آخر — جميعها تحتاج إلى مدونة لغوية للتقييم

انظر أيضًا