دليل إنشاء المدونات اللغوية (Corpus)
الفكرة: قبل أن تتمكن من تقييم أي طريقة ترجمة، تحتاج إلى مدونة لغوية للتقييم. يغطي هذا الدليل كيفية بناء مدونة من الصفر — مصادر البيانات، ومتطلبات التنسيق، ومعايير الجودة، والترخيص، والمساهمة في Arena.
:::info هذه ليست طريقة ترجمة هذا الدليل هو المتطلب الأساسي للعديد من الطرق. المدونة اللغوية الجيدة للتقييم هي الأساس الذي يجعل كل شيء آخر ممكنًا. حتى 50 زوجًا منقّحًا تكفي لفتح مسار جديد في لوحة المتصدرين. :::
متى تستخدم هذا
- تريد إضافة زوج لغوي جديد إلى لوحة المتصدرين في Arena
- أنت معلم لغة تريد قياس أداء ترجمات الطلاب
- أنت عامل لغوي مجتمعي لديك إمكانية الوصول إلى مواد ثنائية اللغة
- أنت باحث تحتاج إلى مجموعة تقييم موحّدة لزوجك اللغوي
تنسيق المدونة اللغوية
يستقبل إطار التقييم (harness) ملفات JSON بسيطة:
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}
من أين تحصل على البيانات
| المصدر | الجودة | الحجم | الترخيص |
|---|---|---|---|
| الكتب المدرسية / المواد التعليمية | عالية (مراجعة من خبراء) | منخفض إلى متوسط | راجع الناشر |
| الوثائق الحكومية | متوسطة (سجل لغوي رسمي) | متوسط إلى عالٍ | غالبًا ملكية عامة |
| القواميس ثنائية اللغة | عالية (مدخلات موثّقة) | متوسط | متفاوت |
| كبار المجتمع / المتحدثون | الأعلى (حدس اللغة الأم) | منخفض (وقت محدود) | يخضع لإدارة المجتمع |
| النصوص الدينية | متوسطة (خاصة بمجال معيّن) | عالٍ | عادةً مفتوحة |
| المدونات اللغوية الموجودة (Hansard, FLORES) | متوسطة إلى عالية | عالٍ | تحقق من الرخصة |
| المُعدّة يدويًا | الأعلى | منخفض | أنت تملكها |
معايير الجودة
تتميز المدونة اللغوية الجيدة للتقييم بما يلي:
- محتوى متنوع — ليس مجرد تحيات أو عبارات بسيطة. أدرج أسئلة وأوامر وجملًا معقدة ومصطلحات خاصة بمجالات معينة
- ترجمات موثّقة — راجعها متحدث واحد على الأقل يتقن اللغة، ويفضّل اثنان
- هجاء متّسق — نظام كتابة واحد وقاعدة إملائية واحدة في كل المدونة
- مصادر مستقلة — غير مشتقة من النص نفسه الذي ستُدرَّب عليه الطرق
- ترخيص واضح — رخصة صريحة تسمح بالاستخدام لأغراض التقييم
:::danger تلوّث المدونة اللغوية يجب أن تكون مدونة التقييم مستقلة عن أي بيانات تدريب. إذا تم تدريب طريقة ما أو توجيهها (prompting) باستخدام بيانات من مدونة التقييم، فسيتم استبعادها. صمّم مدونتك لتكون محجوزة (held-out) منذ اليوم الأول. :::
إرشادات الحجم
| الحجم | ما الذي يتيحه |
|---|---|
| 50 مدخلًا | الحد الأدنى للتقييم القابل للتطبيق — يكفي للكشف عن فروق الجودة الكبيرة |
| 100–200 مدخل | ترتيب موثوق — يكفي لتحقيق دلالة إحصائية بين الطرق |
| 500+ مدخل | مستوى بحثي — درجات composite score متينة وفترات ثقة |
| 1,000+ مدخل | المعيار الذهبي — يعادل تغطية FLORES devtest |
ابدأ بحجم صغير. 50 مدخلًا تكفي لفتح مسار في لوحة المتصدرين. يمكنك التوسع لاحقًا.
المساهمة في Arena
- أنشئ مدونتك اللغوية بتنسيق JSON الموضح أعلاه
- رخّصها — يوصى برخصة CC BY-SA 4.0 للتقييم المفتوح؛ وبرخصة CC BY-NC-SA 4.0 للاستخدام المقيّد
- قدّم طلب سحب (PR) إلى مستودع eval harness مع مدونتك في
data/ - تُفتح لوحة المتصدرين تلقائيًا لزوجك اللغوي بمجرد دمج المدونة
لمجتمعات اللغات الأصلانية
إنشاء المدونة اللغوية هو فعل من أفعال السيادة اللغوية. مدونتك، وفق شروطك:
- أنت من يقرر الرخصة وشروط الوصول
- يمكنك المساهمة بـمجموعة تطوير عامة (لتطوير الطرق) مع الاحتفاظ بـمجموعة اختبار سرية (للتقييم الرسمي) تحت سيطرة المجتمع
- يحمي إطار السيادة بياناتك على كل المستويات
حتى المدونة الصغيرة هي أصل استراتيجي — فهي المعيار الذي يحدد ما يعنيه "الجيد بما فيه الكفاية" للغتك.
تتكامل جيدًا مع
- الترجمة الجزئية — إنشاء المدونة هو بحد ذاته خطوة الترجمة البشرية
- الترجمة العكسية — البيانات الاصطناعية تكمّل المدونات التي أنشأها البشر
- كل دليل عملي آخر — جميعها تحتاج إلى مدونة لغوية للتقييم
انظر أيضًا
- مجموعات بيانات التقييم — المدونات اللغوية الموجودة (EDTeKLA, FLORES+)
- سيادة البيانات — الملكية والتحكم
- للمجتمعات اللغوية — إشراك المجتمع
- ادعم لغة منخفضة الموارد — الصورة الكبرى