تقييم الترجمة الآلية

ملخص تنفيذي. تحدد هذه الصفحة معايير تقديم الطلبات إلى لوحة المتصدرين، ومقاييس التقييم (chrF++، وقبول FST، والتطابق التام، والتطابق المكافئ، والدرجة الدلالية)، وسياسات مكافحة التلاعب، ومستويات التحقق، وسير عمل التقديم. تُستبعد الطرق التي تعرّضت لبيانات التقييم.

يتضمن champollion إطار عمل لتقييم الترجمة الآلية مصمماً من أجل قياس أداء قابل لإعادة الإنتاج لطرق الترجمة — خاصةً للغات منخفضة الموارد ولغات الشعوب الأصلية حيث لا توجد معايير قياسية للترجمة الآلية ويصعب التحقق من ادعاءات الجودة.

لوحة المتصدرين

العنصر المحوري هو لوحة متصدري الطرق — لوحة نتائج مباشرة مدعومة بـ Supabase حيث يقدّم الباحثون وأفراد المجتمع طرق الترجمة ويقارنونها بتقييم موثّق بالبصمة وقابل لإعادة الإنتاج.

يتضمن كل تقديم:

خط أنابيب موثّق بالبصمة — مرتبط بـ commit محدد في Git وبصمة تجزئة (hash) لملف الإعدادات، بحيث يمكن تتبع النتائج إلى الشيفرة الدقيقة التي أنتجتها
مجموعة بيانات مُرقّمة الإصدارات — موثّقة بتجزئة المحتوى ومُرقّمة الإصدارات؛ الدرجات قابلة للمقارنة فقط ضمن إصدار مجموعة البيانات نفسه
مقاييس موحّدة — تُحسب جميع الدرجات بواسطة منظومة التقييم المشتركة، مما يزيل الاختلافات في التنفيذ
مستويات الثقة — قياس ذاتي، أو GDS Verified، أو Community Validated
تتبع التكلفة — تكلفة واجهة برمجة التطبيقات لكل تقديم، بحيث تكون المفاضلات بين التكلفة والجودة شفافة

تتتبع لوحة المتصدرين حالياً خمسة مقاييس. ثلاثة منها تعمل لأي لغة؛ ومقياسان متاحان للغة Plains Cree وسيتم تعميمهما مع التوسع:

المقياس	النوع	ما الذي يقيسه
chrF++	درجة F للـ n-gram الحرفية	مقياس الجودة الأساسي — يرتبط ارتباطاً جيداً بالحكم البشري، خاصةً للغات الغنية صرفياً
Exact Match	نسبة التطابقات التامة	الدقة الصارمة — كم مرة تطابق الترجمة المعيار الذهبي بالضبط؟
FST Acceptance	معدل اجتياز البوابة الصرفية	للطرق المزوّدة بتحقق المحوّلات محدودة الحالات (finite-state transducer) — ما نسبة المخرجات الصحيحة صرفياً؟
Equivalent Match	معدل المتغيرات المقبولة	نسبة التطابق مع المرجع أو متغير مقبول (ترتيب الكلمات، الاصطلاح الإملائي). حالياً CRK؛ قيد التعميم.
Semantic Score	الأمانة الدلالية	الحفاظ على المعنى — هل تلتقط الترجمة المعنى المقصود بصرف النظر عن الشكل السطحي؟ حالياً CRK؛ قيد التعميم.

:::info Full Metric Suite تحدد مواصفات التقييم القائمة الكاملة المكونة من 19 مقياساً عبر 5 فئات، وصيغة composite score، وجداول الأوزان، وعتبات مستويات الجودة. :::

← عرض لوحة المتصدرين

مجموعات البيانات المتاحة

EDTeKLA Development Set v1

أول مجموعة بيانات للتقييم، بُنيت لترجمة الإنجليزية ← Plains Cree (SRO). أنشأتها مجموعة EdTeKLA البحثية في جامعة ألبرتا.

الخاصية	القيمة
المعرّف	`edtekla-dev-v1`
زوج اللغات	EN ← CRK (Plains Cree، إملائية SRO)
عدد المدخلات	404 (`master_corpus.json`: 62 ذهبية + 342 من الكتب الدراسية)؛ 548 متاحة إجمالاً
الترخيص	CC BY-NC-SA 4.0
المصدر	`gold_standard` (تم التحقق منها من قبل متحدثين)، `textbook` (مواد تعليمية منشورة)

FLORES+ Devtest — للاستخدام التطويري فقط

[!WARNING] FLORES+ متاحة للتطوير وتصحيح الأخطاء لكنها لا تُستخدم للتقييم الرسمي على لوحة المتصدرين. إن FLORES+ (المعروفة أصلاً باسم Meta FLORES-200) هي مجموعة بيانات معيارية عامة واسعة الانتشار من شبه المؤكد أن النماذج اللغوية الكبيرة الرائدة قد دُرّبت عليها. الدرجات المحسوبة مقابل FLORES+ لا تعكس بموثوقية جودة الترجمة الفعلية للطرق المعتمدة على النماذج اللغوية الكبيرة. أما الطرق غير المعتمدة عليها (FST، والطرق القائمة على القواعد، ونماذج NMT المضبوطة بدقة) فهي أقل تأثراً، لكن درجات FLORES+ لا تُنشر مع ذلك على لوحة المتصدرين.

تظل بيانات FLORES+ التجريبية متاحة في test/benchmark/fixtures/ لاختبارات التحقق السريع لخط الأنابيب، والتحقق عبر اللغات، والاستخدام التطويري. يستخدم التقييم الرسمي مدوّنات نصية مخصصة مبنية من نصوص بشرية التأليف غير متاحة علناً في شكل متوازٍ.

راجع مجموعات بيانات التقييم للاطلاع على المخطط الكامل لمجموعة البيانات، ومستويات الصعوبة، وكيفية إنشاء مجموعتك الخاصة.

:::danger DO NOT TRAIN on evaluation data

هذه المجموعات مخصصة للتقييم فقط. الطرق التي دُرّبت أو ضُبطت بدقة أو زُوّدت بأمثلة few-shot أو تعرّضت بأي شكل آخر لبيانات التقييم ستنتج درجات مضخّمة بشكل مصطنع وسيتم استبعادها من لوحة المتصدرين.

هذا ليس مجرد اقتراح — إنه أهم قاعدة على الإطلاق لنزاهة التقييم. استخدم مدوّنات منفصلة للتدريب. يجب أن تبقى مجموعات التقييم غير مرئية لنموذجك أثناء التطوير.

إذا كنت تستخدم بيانات توجيهية أو أمثلة few-shot، فيجب أن تأتي من مصادر منفصلة تماماً. وعند الشك، لا تُدرجها. :::

:::warning LLM non-determinism

مخرجات النماذج اللغوية الكبيرة غير حتمية. تمثل الدرجات قياسات لحظية في ظل إصدارات نماذج وإعدادات واجهات برمجة تطبيقات محددة. قد يحدّث مزودو النماذج الأوزان أو استراتيجيات فك التشفير أو مرشحات الأمان في أي وقت، مما قد يسبب انحرافاً في الدرجات بين عمليات التشغيل. تسجل لوحة المتصدرين المعرّف الدقيق للنموذج والطابع الزمني لكل تقديم. :::

ما الذي يجعل الطريقة جيدة

ليست كل الطرق متساوية. إليك ما يميز العمل الدقيق عن الدرجات المضخّمة.

خصائص الطريقة القوية

فصل واضح بين بيانات التدريب وبيانات التقييم — لم تتعرض طريقتك مطلقاً لمجموعة التقييم أثناء التطوير أو الضبط أو هندسة الموجّهات أو اختيار أمثلة few-shot
قابلة لإعادة الإنتاج — يمكن لشخص آخر استنساخ مستودعك وتشغيل منظومة التقييم والحصول على الدرجات نفسها (ضمن حدود عدم حتمية النماذج اللغوية الكبيرة)
موثّقة — تصف بطاقة الطريقة الخاصة بك ما تفعله طريقتك، والأدوات التي تستخدمها، وحدودها
صادقة بشأن النطاق — إذا كانت طريقتك تعمل لزوج لغات واحد فقط، فصرّح بذلك؛ وإذا كان أداؤها يتراجع مع أنماط صرفية معينة، فوثّق ذلك
واعية بالمجتمع — بالنسبة للغات الشعوب الأصلية، تحترم طريقتك سيادة البيانات. وقد تشاورت مع مجتمعات اللغة أو استخدمت بيانات مرخّصة بشكل مفتوح فقط

إشارات الخطر (ما يؤدي إلى الاستبعاد)

إشارة الخطر	لماذا تمثل مشكلة
التدريب على بيانات التقييم	يُبطل الغرض من التقييم بالكامل. الدرجات المضخّمة تضلل الجميع.
الانتقاء الانتهازي للنتائج	تشغيل التقييم 10 مرات وتقديم أفضل نتيجة دون الإفصاح عن البقية
معالجة لاحقة غير مُفصح عنها	إصلاح المخرجات يدوياً قبل حساب الدرجات
بيانات توجيهية ملوّثة	استخدام أمثلة من مجموعة التقييم كموجّهات few-shot أو كمدخلات معجمية
الادعاء بالجاهزية التجارية دون توثيق المصدر	إذا كانت طريقتك تستخدم بيانات بترخيص CC BY-NC-SA، فهي غير جاهزة تجارياً

مستويات التحقق

تصف مستويات التحقق من قام بالتحقق من النتيجة — وهي منفصلة عن مستويات الجودة (Baseline ← Fluent) المحددة في مواصفات التقييم، §5، والتي تصف ما تعنيه درجة composite score المحسوبة آلياً.

المستوى	المعنى	كيفية الحصول عليه
Self-benchmarked	قمت بتشغيل منظومة التقييم بنفسك وقدّمت النتائج	افتح طلب سحب (PR) مع بطاقة التشغيل الخاصة بك
GDS Verified	أعاد القائمون على champollion إنتاج نتائجك	قدّم طريقتك كإضافة قابلة للتثبيت
Community Validated	شغّلت منظمة الحوكمة التقييم مقابل المعيار الذهبي مع مراجعة مجتمعية	قدّم شيفرة طريقتك إلى منظمة الحوكمة

كيفية التقديم

ابنِ طريقتك — راجع بناء طريقة للاطلاع على واجهة الطريقة
شغّل منظومة التقييم — راجع Eval Harness للإعداد والاستخدام
أنشئ بطاقة تشغيل — تنتج منظومة التقييم بطاقة تشغيل بصيغة JSON تتضمن درجاتك وبصمتك وبياناتك الوصفية
افتح طلب سحب (PR) — قدّم بطاقة التشغيل الخاصة بك إلى مستودع eval harness
اظهر على لوحة المتصدرين — بمجرد الدمج، تظهر نتائجك على لوحة متصدري الطرق

التوجهات المستقبلية

تشغيلات شاملة لمقارنة النماذج — تقييم منهجي للنماذج الرائدة (GPT-4o، وClaude، وGemini، وغيرها) عبر لغات champollion باستخدام مدوّنات تقييم مخصصة (وليس معايير عامة)
المزيد من أزواج اللغات — Quechua، وInuktitut، ولغات أخرى منخفضة الموارد مع توفر مجموعات بيانات موثّقة مجتمعياً
استيراد مجموعات البيانات — أدوات لتحويل مجموعات بيانات التقييم الخارجية (WMT، وTatoeba، وغيرها) إلى صيغة تقييم champollion
إعادة التشغيل الآلية — اكتشاف تغييرات إصدارات النماذج وإعادة تشغيل القياسات لتتبع انحراف الدرجات

انظر أيضاً

لوحة متصدري الطرق — الدرجات والتقديمات المباشرة
Eval Harness — كيفية تشغيل التقييمات
مجموعات بيانات التقييم — صيغة مجموعات البيانات والمجموعات المتاحة
بناء طريقة — مواصفات واجهة الطريقة
مواصفات بطاقة التشغيل — مخطط JSON لبطاقة التشغيل
مواصفات القياس المعياري — بروتوكول التقييم، وصيغة المدوّنة، والسيادة
مواصفات التقييم — المصدر الموحد للحقيقة (SSOT) للمقاييس، وأوزان composite، ومستويات الجودة

لوحة المتصدرين​

مجموعات البيانات المتاحة​

EDTeKLA Development Set v1​

FLORES+ Devtest — للاستخدام التطويري فقط​

ما الذي يجعل الطريقة جيدة​

خصائص الطريقة القوية​

إشارات الخطر (ما يؤدي إلى الاستبعاد)​

مستويات التحقق​

كيفية التقديم​

التوجهات المستقبلية​

انظر أيضاً​