تقييم الترجمة الآلية
ملخص تنفيذي. تحدد هذه الصفحة معايير تقديم الطلبات إلى لوحة المتصدرين، ومقاييس التقييم (chrF++، وقبول FST، والتطابق التام، والتطابق المكافئ، والدرجة الدلالية)، وسياسات مكافحة التلاعب، ومستويات التحقق، وسير عمل التقديم. تُستبعد الطرق التي تعرّضت لبيانات التقييم.
يتضمن champollion إطار عمل لتقييم الترجمة الآلية مصمماً من أجل قياس أداء قابل لإعادة الإنتاج لطرق الترجمة — خاصةً للغات منخفضة الموارد ولغات الشعوب الأصلية حيث لا توجد معايير قياسية للترجمة الآلية ويصعب التحقق من ادعاءات الجودة.
لوحة المتصدرين
العنصر المحوري هو لوحة متصدري الطرق — لوحة نتائج مباشرة مدعومة بـ Supabase حيث يقدّم الباحثون وأفراد المجتمع طرق الترجمة ويقارنونها بتقييم موثّق بالبصمة وقابل لإعادة الإنتاج.
يتضمن كل تقديم:
- خط أنابيب موثّق بالبصمة — مرتبط بـ commit محدد في Git وبصمة تجزئة (hash) لملف الإعدادات، بحيث يمكن تتبع النتائج إلى الشيفرة الدقيقة التي أنتجتها
- مجموعة بيانات مُرقّمة الإصدارات — موثّقة بتجزئة المحتوى ومُرقّمة الإصدارات؛ الدرجات قابلة للمقارنة فقط ضمن إصدار مجموعة البيانات نفسه
- مقاييس موحّدة — تُحسب جميع الدرجات بواسطة منظومة التقييم المشتركة، مما يزيل الاختلافات في التنفيذ
- مستويات الثقة — قياس ذاتي، أو GDS Verified، أو Community Validated
- تتبع التكلفة — تكلفة واجهة برمجة التطبيقات لكل تقديم، بحيث تكون المفاضلات بين التكلفة والجودة شفافة
تتتبع لوحة المتصدرين حالياً خمسة مقاييس. ثلاثة منها تعمل لأي لغة؛ ومقياسان متاحان للغة Plains Cree وسيتم تعميمهما مع التوسع:
| المقياس | النوع | ما الذي يقيسه |
|---|---|---|
| chrF++ | درجة F للـ n-gram الحرفية | مقياس الجودة الأساسي — يرتبط ارتباطاً جيداً بالحكم البشري، خاصةً للغات الغنية صرفياً |
| Exact Match | نسبة التطابقات التامة | الدقة الصارمة — كم مرة تطابق الترجمة المعيار الذهبي بالضبط؟ |
| FST Acceptance | معدل اجتياز البوابة الصرفية | للطرق المزوّدة بتحقق المحوّلات محدودة الحالات (finite-state transducer) — ما نسبة المخرجات الصحيحة صرفياً؟ |
| Equivalent Match | معدل المتغيرات المقبولة | نسبة التطابق مع المرجع أو متغير مقبول (ترتيب الكلمات، الاصطلاح الإملائي). حالياً CRK؛ قيد التعميم. |
| Semantic Score | الأمانة الدلالية | الحفاظ على المعنى — هل تلتقط الترجمة المعنى المقصود بصرف النظر عن الشكل السطحي؟ حالياً CRK؛ قيد التعميم. |
:::info Full Metric Suite تحدد مواصفات التقييم القائمة الكاملة المكونة من 19 مقياساً عبر 5 فئات، وصيغة composite score، وجداول الأوزان، وعتبات مستويات الجودة. :::
مجموعات البيانات المتاحة
EDTeKLA Development Set v1
أول مجموعة بيانات للتقييم، بُنيت لترجمة الإنجليزية ← Plains Cree (SRO). أنشأتها مجموعة EdTeKLA البحثية في جامعة ألبرتا.
| الخاصية | القيمة |
|---|---|
| المعرّف | edtekla-dev-v1 |
| زوج اللغات | EN ← CRK (Plains Cree، إملائية SRO) |
| عدد المدخلات | 404 (master_corpus.json: 62 ذهبية + 342 من الكتب الدراسية)؛ 548 متاحة إجمالاً |
| الترخيص | CC BY-NC-SA 4.0 |
| المصدر | gold_standard (تم التحقق منها من قبل متحدثين)، textbook (مواد تعليمية منشورة) |
FLORES+ Devtest — للاستخدام التطويري فقط
[!WARNING] FLORES+ متاحة للتطوير وتصحيح الأخطاء لكنها لا تُستخدم للتقييم الرسمي على لوحة المتصدرين. إن FLORES+ (المعروفة أصلاً باسم Meta FLORES-200) هي مجموعة بيانات معيارية عامة واسعة الانتشار من شبه المؤكد أن النماذج اللغوية الكبيرة الرائدة قد دُرّبت عليها. الدرجات المحسوبة مقابل FLORES+ لا تعكس بموثوقية جودة الترجمة الفعلية للطرق المعتمدة على النماذج اللغوية الكبيرة. أما الطرق غير المعتمدة عليها (FST، والطرق القائمة على القواعد، ونماذج NMT المضبوطة بدقة) فهي أقل تأثراً، لكن درجات FLORES+ لا تُنشر مع ذلك على لوحة المتصدرين.
تظل بيانات FLORES+ التجريبية متاحة في test/benchmark/fixtures/ لاختبارات التحقق السريع لخط الأنابيب، والتحقق عبر اللغات، والاستخدام التطويري. يستخدم التقييم الرسمي مدوّنات نصية مخصصة مبنية من نصوص بشرية التأليف غير متاحة علناً في شكل متوازٍ.
راجع مجموعات بيانات التقييم للاطلاع على المخطط الكامل لمجموعة البيانات، ومستويات الصعوبة، وكيفية إنشاء مجموعتك الخاصة.
:::danger DO NOT TRAIN on evaluation data
هذه المجموعات مخصصة للتقييم فقط. الطرق التي دُرّبت أو ضُبطت بدقة أو زُوّدت بأمثلة few-shot أو تعرّضت بأي شكل آخر لبيانات التقييم ستنتج درجات مضخّمة بشكل مصطنع وسيتم استبعادها من لوحة المتصدرين.
هذا ليس مجرد اقتراح — إنه أهم قاعدة على الإطلاق لنزاهة التقييم. استخدم مدوّنات منفصلة للتدريب. يجب أن تبقى مجموعات التقييم غير مرئية لنموذجك أثناء التطوير.
إذا كنت تستخدم بيانات توجيهية أو أمثلة few-shot، فيجب أن تأتي من مصادر منفصلة تماماً. وعند الشك، لا تُدرجها. :::
:::warning LLM non-determinism
مخرجات النماذج اللغوية الكبيرة غير حتمية. تمثل الدرجات قياسات لحظية في ظل إصدارات نماذج وإعدادات واجهات برمجة تطبيقات محددة. قد يحدّث مزودو النماذج الأوزان أو استراتيجيات فك التشفير أو مرشحات الأمان في أي وقت، مما قد يسبب انحرافاً في الدرجات بين عمليات التشغيل. تسجل لوحة المتصدرين المعرّف الدقيق للنموذج والطابع الزمني لكل تقديم. :::
ما الذي يجعل الطريقة جيدة
ليست كل الطرق متساوية. إليك ما يميز العمل الدقيق عن الدرجات المضخّمة.
خصائص الطريقة القوية
- فصل واضح بين بيانات التدريب وبيانات التقييم — لم تتعرض طريقتك مطلقاً لمجموعة التقييم أثناء التطوير أو الضبط أو هندسة الموجّهات أو اختيار أمثلة few-shot
- قابلة لإعادة الإنتاج — يمكن لشخص آخر استنساخ مستودعك وتشغيل منظومة التقييم والحصول على الدرجات نفسها (ضمن حدود عدم حتمية النماذج اللغوية الكبيرة)
- موثّقة — تصف بطاقة الطريقة الخاصة بك ما تفعله طريقتك، والأدوات التي تستخدمها، وحدودها
- صادقة بشأن النطاق — إذا كانت طريقتك تعمل لزوج لغات واحد فقط، فصرّح بذلك؛ وإذا كان أداؤها يتراجع مع أنماط صرفية معينة، فوثّق ذلك
- واعية بالمجتمع — بالنسبة للغات الشعوب الأصلية، تحترم طريقتك سيادة البيانات. وقد تشاورت مع مجتمعات اللغة أو استخدمت بيانات مرخّصة بشكل مفتوح فقط
إشارات الخطر (ما يؤدي إلى الاستبعاد)
| إشارة الخطر | لماذا تمثل مشكلة |
|---|---|
| التدريب على بيانات التقييم | يُبطل الغرض من التقييم بالكامل. الدرجات المضخّمة تضلل الجميع. |
| الانتقاء الانتهازي للنتائج | تشغيل التقييم 10 مرات وتقديم أفضل نتيجة دون الإفصاح عن البقية |
| معالجة لاحقة غير مُفصح عنها | إصلاح المخرجات يدوياً قبل حساب الدرجات |
| بيانات توجيهية ملوّثة | استخدام أمثلة من مجموعة التقييم كموجّهات few-shot أو كمدخلات معجمية |
| الادعاء بالجاهزية التجارية دون توثيق المصدر | إذا كانت طريقتك تستخدم بيانات بترخيص CC BY-NC-SA، فهي غير جاهزة تجارياً |
مستويات التحقق
تصف مستويات التحقق من قام بالتحقق من النتيجة — وهي منفصلة عن مستويات الجودة (Baseline ← Fluent) المحددة في مواصفات التقييم، §5، والتي تصف ما تعنيه درجة composite score المحسوبة آلياً.
| المستوى | المعنى | كيفية الحصول عليه |
|---|---|---|
| Self-benchmarked | قمت بتشغيل منظومة التقييم بنفسك وقدّمت النتائج | افتح طلب سحب (PR) مع بطاقة التشغيل الخاصة بك |
| GDS Verified | أعاد القائمون على champollion إنتاج نتائجك | قدّم طريقتك كإضافة قابلة للتثبيت |
| Community Validated | شغّلت منظمة الحوكمة التقييم مقابل المعيار الذهبي مع مراجعة مجتمعية | قدّم شيفرة طريقتك إلى منظمة الحوكمة |
كيفية التقديم
- ابنِ طريقتك — راجع بناء طريقة للاطلاع على واجهة الطريقة
- شغّل منظومة التقييم — راجع Eval Harness للإعداد والاستخدام
- أنشئ بطاقة تشغيل — تنتج منظومة التقييم بطاقة تشغيل بصيغة JSON تتضمن درجاتك وبصمتك وبياناتك الوصفية
- افتح طلب سحب (PR) — قدّم بطاقة التشغيل الخاصة بك إلى مستودع eval harness
- اظهر على لوحة المتصدرين — بمجرد الدمج، تظهر نتائجك على لوحة متصدري الطرق
التوجهات المستقبلية
- تشغيلات شاملة لمقارنة النماذج — تقييم منهجي للنماذج الرائدة (GPT-4o، وClaude، وGemini، وغيرها) عبر لغات champollion باستخدام مدوّنات تقييم مخصصة (وليس معايير عامة)
- المزيد من أزواج اللغات — Quechua، وInuktitut، ولغات أخرى منخفضة الموارد مع توفر مجموعات بيانات موثّقة مجتمعياً
- استيراد مجموعات البيانات — أدوات لتحويل مجموعات بيانات التقييم الخارجية (WMT، وTatoeba، وغيرها) إلى صيغة تقييم champollion
- إعادة التشغيل الآلية — اكتشاف تغييرات إصدارات النماذج وإعادة تشغيل القياسات لتتبع انحراف الدرجات
انظر أيضاً
- لوحة متصدري الطرق — الدرجات والتقديمات المباشرة
- Eval Harness — كيفية تشغيل التقييمات
- مجموعات بيانات التقييم — صيغة مجموعات البيانات والمجموعات المتاحة
- بناء طريقة — مواصفات واجهة الطريقة
- مواصفات بطاقة التشغيل — مخطط JSON لبطاقة التشغيل
- مواصفات القياس المعياري — بروتوكول التقييم، وصيغة المدوّنة، والسيادة
- مواصفات التقييم — المصدر الموحد للحقيقة (SSOT) للمقاييس، وأوزان composite، ومستويات الجودة