بروتوكول التحقق بواسطة المتحدثين
الغرض. تحدد هذه الوثيقة بدقة ما نحتاجه من المتحدثين ثنائيي اللغة بالكري والإنجليزية للتحقق من صحة مقاييس التقييم LYSS. بدون هذا التحقق، تبقى درجاتنا الآلية تقديرات هندسية، وليست قياسات جودة مثبتة. هذه هي الفجوة الأهم على الإطلاق في المشروع.
الجمهور. الشركاء المجتمعيون، والمتعاونون المحتملون، ومراجعو المنح، وفريق المشروع.
آخر تحديث: 2026-06-07
1. لماذا نحتاج إلى المتحدثين
يحسب إطار التقييم LYSS (أي Linguistically-informed Yield & Structural Scoring) درجات جودة آلية لترجمات الإنجليزية ← كري السهول. ويستخدم ثلاث إشارات أساسية:
- LYSS-fst: هل يحتوي الناتج على كلمات كري صحيحة؟ (يتم التحقق بواسطة محوّل الحالات المنتهية GiellaLT)
- LYSS-eq: هل الناتج صيغة مقبولة من الترجمة المرجعية؟ (يتم التحقق بواسطة فئات التكافؤ في أداة الفحص اللغوي)
- LYSS-sem: هل يحافظ الناتج على معنى المصدر؟ (يتم التحقق بواسطة المدقق الدلالي)
تنتج هذه المقاييس أرقامًا. لكننا لا نعرف ما إذا كانت هذه الأرقام تعني شيئًا. فقد يرفض محوّل FST كلمات صحيحة لا يتعرف عليها (الكلمات المستعارة، والمستحدثات اللغوية، وأسماء الأعلام). وقد تفوّت أداة الفحص اللغوي تكافؤات صحيحة أو تقبل تكافؤات غير صحيحة. وقد يخطئ المدقق الدلالي في الحكم على المعنى. وإلى أن يخبرنا المتحدثون ثنائيو اللغة عما إذا كانت درجاتنا الآلية تتطابق مع حكمهم البشري على جودة الترجمة، فإننا نخمّن فحسب.
كل مقياس رئيسي لتقييم الترجمة الآلية (BLEU وCOMET وchrF++) جرى التحقق من صحته بمقارنة الدرجات الآلية مع آلاف تقييمات الجودة البشرية. نحن بحاجة إلى الأمر نفسه — بنطاق أصغر لأن مواردنا محدودة، ولكن بالصرامة نفسها.
2. ما نحتاجه: ثلاث مهام
المهمة أ: تقييم جودة الترجمة (المهمة الأساسية — حوالي 8 ساعات إجمالًا)
ما المطلوب: تقييم 200 ترجمة مولّدة آليًا من الإنجليزية ← الكري على مقياسين.
من المطلوب: 3 متحدثين أو أكثر ثنائيي اللغة بكري السهول والإنجليزية، يتمتعون بطلاقة في القراءة بنظام SRO (الكتابة الرومانية المعيارية).
كيف تتم العملية:
-
نوفر جدول بيانات أو نموذجًا عبر الويب يحتوي على 200 صف. كل صف يتضمن:
- الجملة المصدر بالإنجليزية
- ترجمة بالكري مولّدة آليًا
- (اختياريًا) ترجمة مرجعية بالكري للمقارنة
-
لكل ترجمة، يقيّم المتحدث أمرين:
الكفاية (هل تقول الشيء الصحيح؟):
الدرجة التسمية المعنى 1 لا شيء لا علاقة للترجمة بالمصدر 2 قليل بضع كلمات متطابقة لكن المعنى العام خاطئ 3 كثير المعنى الأساسي موجود لكن أجزاء مهمة مفقودة أو خاطئة 4 معظمه كل شيء تقريبًا صحيح، مع فجوات طفيفة في المعنى 5 الكل الترجمة تنقل معنى المصدر بالكامل الطلاقة (هل تبدو كلغة كري حقيقية؟):
الدرجة التسمية المعنى 1 غير مفهومة هذه ليست لغة كري 2 غير سلسة قد تكون الكلمات المفردة بالكري لكن الجملة مكسورة 3 غير أصلية مفهومة لكنها بوضوح ليست الطريقة التي يعبّر بها متحدث الكري 4 جيدة تبدو طبيعية مع بعض الركاكة الطفيفة 5 متقنة كان يمكن لمتحدث كري أن يكتب هذا -
اختياريًا، يمكن للمتحدث إضافة ملاحظة نصية حرة توضح تقييمه (مثلًا: "خطأ في توافق الحي/غير الحي في الفعل"، "هذه لهجة th لكنني أقيّم استنادًا إلى لهجة y").
تقدير الوقت: حوالي 2.5 دقيقة لكل ترجمة × 200 ترجمة = حوالي 8 ساعات. يمكن تقسيمها على جلسات متعددة (مثلًا: 4 جلسات × ساعتين على مدى أسبوعين).
التعويض: 50–65 دولارًا كنديًا/الساعة (بما يتوافق مع معدلات تعويض المتحدثين في BENCHMARK_SPEC §10.3). الإجمالي لكل متحدث: 400–520 دولارًا كنديًا. لثلاثة متحدثين: 1,200–1,560 دولارًا كنديًا.
ماذا نفعل بالنتائج: نحسب معامل الارتباط بين درجات LYSS الآلية وتقييمات المتحدثين. إذا ارتبط LYSS-fst مع تقييمات الطلاقة وارتبط LYSS-sem مع تقييمات الكفاية، فإن المقاييس تكون قد جرى التحقق من صحتها. وإذا لم يحدث ذلك، فسنعرف أين نصلحها.
المهمة ب: التحقق من تكافؤات أداة الفحص اللغوي (حوالي ساعتين)
ما المطلوب: مراجعة 50 زوجًا من ترجمات الكري التي تصنفها أداة الفحص اللغوي على أنها "متكافئة" وإخبارنا عما إذا كانت تعني الشيء نفسه فعلًا.
من المطلوب: 1–2 من المتحدثين ثنائيي اللغة (يمكن أن يكونوا المتحدثين أنفسهم في المهمة أ).
كيف تتم العملية:
-
نوفر 50 زوجًا. كل زوج يتضمن:
- المصدر بالإنجليزية
- الترجمة أ (المرجعية)
- الترجمة ب (صيغة تقول أداة الفحص اللغوي إنها متكافئة)
- سبب التكافؤ (مثلًا: "تبديل ترتيب الكلمات"، "صيغة إملائية بديلة"، "حذف أداة اختيارية")
-
لكل زوج، يجيب المتحدث عن:
- هل المعنى نفسه؟ نعم / لا / يعتمد على السياق
- هل كلاهما طبيعي؟ نعم / أ أفضل / ب أفضل / لا أحدهما طبيعي
- ملاحظات (نص حر اختياري)
تقدير الوقت: حوالي دقيقتين لكل زوج × 50 زوجًا = حوالي ساعتين.
التعويض: 50–65 دولارًا كنديًا/الساعة × ساعتين = 100–130 دولارًا كنديًا لكل متحدث.
ماذا نفعل بالنتائج: نحسب دقة كل فئة من فئات التكافؤ. إذا قال المتحدثون إن 90% من تكافؤات "ترتيب الكلمات" متكافئة بالفعل، فإن تلك الفئة تكون قد جرى التحقق من صحتها. وإذا قالوا إن 40% من تكافؤات "مرادفات الجذر المعجمي" خاطئة، فسنعرف أنه يجب إصلاح تلك الفئة أو إزالتها.
المهمة ج: مراجعة الرفض الخاطئ في FST (حوالي ساعة ونصف)
ما المطلوب: مراجعة 100 كلمة بالكري يرفضها محلل FST (أي يقول إنها ليست كلمات كري صحيحة) وإخبارنا عما إذا كانت صحيحة فعلًا.
من المطلوب: متحدث واحد ثنائي اللغة يتمتع بمعرفة قوية بمفردات الكري.
كيف تتم العملية:
- نشغّل محلل FST على مدونتنا المعيارية الذهبية EDTeKLA المكونة من 436 مدخلًا ونجمع كل كلمة يرفضها.
- نعرض على المتحدث ما يصل إلى 100 كلمة مرفوضة مع سياقها في الجملة.
- لكل كلمة، يجيب المتحدث عن:
- هل هذه كلمة كري صحيحة؟ نعم / لا / غير متأكد
- إذا كانت الإجابة نعم، فما نوعها؟ كلمة راسخة / كلمة مستعارة / اسم / صيغة لهجية / مستحدثة لغوية / أخرى
- ملاحظات (اختياري)
تقدير الوقت: حوالي دقيقة لكل كلمة × 100 كلمة = حوالي ساعة ونصف.
التعويض: 50–65 دولارًا كنديًا/الساعة × 1.5 ساعة = 75–100 دولار كندي.
ماذا نفعل بالنتائج: نحسب معدل الرفض الخاطئ لمحوّل FST. إذا رفض FST خمسين كلمة وقال المتحدثون إن 30 منها صحيحة، فإن معدل الرفض الخاطئ يبلغ 60% — وهو مرتفع بشكل غير مقبول ويستلزم قائمة سماح للكلمات المستعارة/الاستثناءات. وإذا قال المتحدثون إن 5 كلمات فقط صحيحة، فإن معدل الرفض الخاطئ يبلغ 10% — والمقياس موثوق.
3. إجمالي التزام المتحدثين
| المهمة | عدد المتحدثين المطلوب | الساعات لكل متحدث | التكلفة لكل متحدث | التكلفة الإجمالية |
|---|---|---|---|---|
| أ: تقييم الجودة | 3 | حوالي 8 ساعات | $400–520 | $1,200–1,560 |
| ب: التحقق من أداة الفحص اللغوي | 2 | حوالي ساعتين | $100–130 | $200–260 |
| ج: مراجعة FST | 1 | حوالي ساعة ونصف | $75–100 | $75–100 |
| الإجمالي | 3 متحدثين | حوالي 11.5 ساعة (الحد الأقصى لكل متحدث) | $575–750 (حد أقصى) | $1,475–1,920 |
إذا أدى المتحدثون الثلاثة أنفسهم جميع المهام: حوالي 11.5 ساعة لكل منهم على مدى 2–4 أسابيع، بمبلغ 575–750 دولارًا لكل منهم.
أما المتحدث الواحد الذي يؤدي المهمة أ فقط فسيلتزم بـ حوالي 8 ساعات على مدى أسبوعين مقابل 400–520 دولارًا.
4. مؤهلات المتحدثين
مطلوب:
- ثنائية اللغة بكري السهول والإنجليزية
- طلاقة في القراءة بنظام SRO (الكتابة الرومانية المعيارية)
- الارتياح لتقييم الترجمات على مقياس منظم
مفضّل:
- خبرة بلهجة y (اللهجة المستخدمة في مدونتنا المرجعية من EDTeKLA)
- خبرة في التدريس أو الترجمة (توفر حكمًا معايَرًا على الجودة)
- الإلمام بمستويات الخطاب المختلفة (الرسمي، التعليمي، المحادثي)
غير مطلوب:
- معرفة تقنية أو معرفة بمعالجة اللغات الطبيعية (نوفر جميع الأدوات والسياق)
- مهارات حاسوبية (ستكون واجهة التقييم جدول بيانات بسيطًا أو نموذجًا عبر الويب)
- مشاركة سابقة في مشروع Champollion
5. حوكمة البيانات
تخضع جميع مساهمات المتحدثين لسياسات بيانات المشروع المتوافقة مع مبادئ ®OCAP:
- الملكية: تبقى تقييمات الجودة التي يقدمها المتحدثون مساهمتهم الفكرية. ويُنسب الفضل إليهم بالاسم (أو بشكل مجهول، حسب اختيارهم) في أي منشور.
- التحكم: يمكن للمتحدثين سحب تقييماتهم في أي وقت. ويؤدي السحب إلى إزالة بياناتهم من جميع التحليلات.
- الوصول: تُخزَّن بيانات التقييم على بنية تحتية تتحكم بها منظمة الحوكمة المجتمعية (عند تأسيسها) أو على المنصة التي يفضلها المتحدث.
- الحيازة: لا تُنشر بيانات التقييم الخام أبدًا. ولا تظهر في المنشورات سوى الإحصاءات المجمّعة (معاملات الارتباط، والاتفاق بين المقيّمين).
- التعويض: يُدفع للمتحدثين مقابل وقتهم بغض النظر عما إذا كنا سنستخدم تقييماتهم. والدفع غير مشروط بالنتائج.
6. ما يحصل عليه المتحدثون
إلى جانب التعويض:
- المشاركة في التأليف في أي منشور يستخدم تقييماتهم (إذا رغبوا في ذلك)
- الإقرار بالفضل في جميع وثائق المشروع
- الوصول المبكر إلى أدوات التقييم ونتائجه
- إبداء الرأي في كيفية استخدام المقاييس — إذا قال متحدث "أداة الفحص اللغوي لديكم مخطئة بشأن X"، فإننا نصلحها
- حق النقض على نشر النتائج التي يرونها إشكالية
7. كيف تبدأ
إذا كنت متحدثًا ثنائي اللغة بالكري والإنجليزية ومهتمًا بالمشاركة، أو إذا كنت تعرف شخصًا قد يكون كذلك:
- تواصل معنا على [project email/contact] — لا التزام مطلوب، مجرد محادثة
- نشرح المهام بلغة بسيطة (بدون مصطلحات تقنية)
- تختار المهام التي تهمك (أ، ب، ج، أو أي مجموعة منها)
- نضع جدولًا زمنيًا يناسبك (فترات من ساعتين، بتوقيت مرن)
- تقيّم الترجمات عبر جدول بيانات أو نموذج ويب — من أي مكان، وفي وقتك الخاص
- ندفع بسرعة — في غضون أسبوعين من إكمال كل مجموعة مهام
8. ما يحدث بعد ذلك
ببيانات التحقق من المتحدثين، يمكننا:
- نشر معاملات الارتباط للمقاييس — لإثبات (أو دحض) أن درجات LYSS تعكس الحكم البشري
- إعادة معايرة المقاييس — بتعديل الأوزان والعتبات وفئات التكافؤ بناءً على ملاحظات المتحدثين
- إصلاح أداة الفحص اللغوي — بإزالة التكافؤات الخاطئة وإضافة الناقصة
- إصلاح قائمة السماح في FST — بإضافة الكلمات الصحيحة التي يرفضها FST خطأً
- التقديم إلى جهة نشر أكاديمية — مع المتحدثين كمؤلفين مشاركين، مما يرسّخ LYSS كمقياس مُتحقَّق من صحته لتقييم الترجمة الآلية للغات متعددة التركيب
بدون التحقق بواسطة المتحدثين، يبقى LYSS أداة هندسية. ومعه، يصبح LYSS مقياس تقييم قائمًا على أسس علمية. وهذا هو الفرق بين "بنينا شيئًا" و"أثبتنا أنه يعمل".