الانتقال إلى المحتوى الرئيسي

تقييم الترجمة الآلية

ملخص تنفيذي. تحدد هذه الصفحة معايير تقديم الطلبات إلى لوحة المتصدرين، ومقاييس التقييم (chrF++، وقبول FST، والتطابق التام، والتطابق المكافئ، والدرجة الدلالية)، وسياسات مكافحة التلاعب، ومستويات التحقق، وسير عمل التقديم. تُستبعد الطرق التي تعرّضت لبيانات التقييم.

يتضمن champollion إطار عمل لتقييم الترجمة الآلية مصمماً من أجل قياس أداء قابل لإعادة الإنتاج لطرق الترجمة — خاصةً للغات منخفضة الموارد ولغات الشعوب الأصلية حيث لا توجد معايير قياسية للترجمة الآلية ويصعب التحقق من ادعاءات الجودة.


لوحة المتصدرين

العنصر المحوري هو لوحة متصدري الطرق — لوحة نتائج مباشرة مدعومة بـ Supabase حيث يقدّم الباحثون وأفراد المجتمع طرق الترجمة ويقارنونها بتقييم موثّق بالبصمة وقابل لإعادة الإنتاج.

يتضمن كل تقديم:

  • خط أنابيب موثّق بالبصمة — مرتبط بـ commit محدد في Git وبصمة تجزئة (hash) لملف الإعدادات، بحيث يمكن تتبع النتائج إلى الشيفرة الدقيقة التي أنتجتها
  • مجموعة بيانات مُرقّمة الإصدارات — موثّقة بتجزئة المحتوى ومُرقّمة الإصدارات؛ الدرجات قابلة للمقارنة فقط ضمن إصدار مجموعة البيانات نفسه
  • مقاييس موحّدة — تُحسب جميع الدرجات بواسطة منظومة التقييم المشتركة، مما يزيل الاختلافات في التنفيذ
  • مستويات الثقة — قياس ذاتي، أو GDS Verified، أو Community Validated
  • تتبع التكلفة — تكلفة واجهة برمجة التطبيقات لكل تقديم، بحيث تكون المفاضلات بين التكلفة والجودة شفافة

تتتبع لوحة المتصدرين حالياً خمسة مقاييس. ثلاثة منها تعمل لأي لغة؛ ومقياسان متاحان للغة Plains Cree وسيتم تعميمهما مع التوسع:

المقياسالنوعما الذي يقيسه
chrF++درجة F للـ n-gram الحرفيةمقياس الجودة الأساسي — يرتبط ارتباطاً جيداً بالحكم البشري، خاصةً للغات الغنية صرفياً
Exact Matchنسبة التطابقات التامةالدقة الصارمة — كم مرة تطابق الترجمة المعيار الذهبي بالضبط؟
FST Acceptanceمعدل اجتياز البوابة الصرفيةللطرق المزوّدة بتحقق المحوّلات محدودة الحالات (finite-state transducer) — ما نسبة المخرجات الصحيحة صرفياً؟
Equivalent Matchمعدل المتغيرات المقبولةنسبة التطابق مع المرجع أو متغير مقبول (ترتيب الكلمات، الاصطلاح الإملائي). حالياً CRK؛ قيد التعميم.
Semantic Scoreالأمانة الدلاليةالحفاظ على المعنى — هل تلتقط الترجمة المعنى المقصود بصرف النظر عن الشكل السطحي؟ حالياً CRK؛ قيد التعميم.

:::info Full Metric Suite تحدد مواصفات التقييم القائمة الكاملة المكونة من 19 مقياساً عبر 5 فئات، وصيغة composite score، وجداول الأوزان، وعتبات مستويات الجودة. :::

← عرض لوحة المتصدرين


مجموعات البيانات المتاحة

EDTeKLA Development Set v1

أول مجموعة بيانات للتقييم، بُنيت لترجمة الإنجليزية ← Plains Cree (SRO). أنشأتها مجموعة EdTeKLA البحثية في جامعة ألبرتا.

الخاصيةالقيمة
المعرّفedtekla-dev-v1
زوج اللغاتEN ← CRK (Plains Cree، إملائية SRO)
عدد المدخلات404 (master_corpus.json: 62 ذهبية + 342 من الكتب الدراسية)؛ 548 متاحة إجمالاً
الترخيصCC BY-NC-SA 4.0
المصدرgold_standard (تم التحقق منها من قبل متحدثين)، textbook (مواد تعليمية منشورة)

FLORES+ Devtest — للاستخدام التطويري فقط

[!WARNING] FLORES+ متاحة للتطوير وتصحيح الأخطاء لكنها لا تُستخدم للتقييم الرسمي على لوحة المتصدرين. إن FLORES+ (المعروفة أصلاً باسم Meta FLORES-200) هي مجموعة بيانات معيارية عامة واسعة الانتشار من شبه المؤكد أن النماذج اللغوية الكبيرة الرائدة قد دُرّبت عليها. الدرجات المحسوبة مقابل FLORES+ لا تعكس بموثوقية جودة الترجمة الفعلية للطرق المعتمدة على النماذج اللغوية الكبيرة. أما الطرق غير المعتمدة عليها (FST، والطرق القائمة على القواعد، ونماذج NMT المضبوطة بدقة) فهي أقل تأثراً، لكن درجات FLORES+ لا تُنشر مع ذلك على لوحة المتصدرين.

تظل بيانات FLORES+ التجريبية متاحة في test/benchmark/fixtures/ لاختبارات التحقق السريع لخط الأنابيب، والتحقق عبر اللغات، والاستخدام التطويري. يستخدم التقييم الرسمي مدوّنات نصية مخصصة مبنية من نصوص بشرية التأليف غير متاحة علناً في شكل متوازٍ.

راجع مجموعات بيانات التقييم للاطلاع على المخطط الكامل لمجموعة البيانات، ومستويات الصعوبة، وكيفية إنشاء مجموعتك الخاصة.

:::danger DO NOT TRAIN on evaluation data

هذه المجموعات مخصصة للتقييم فقط. الطرق التي دُرّبت أو ضُبطت بدقة أو زُوّدت بأمثلة few-shot أو تعرّضت بأي شكل آخر لبيانات التقييم ستنتج درجات مضخّمة بشكل مصطنع وسيتم استبعادها من لوحة المتصدرين.

هذا ليس مجرد اقتراح — إنه أهم قاعدة على الإطلاق لنزاهة التقييم. استخدم مدوّنات منفصلة للتدريب. يجب أن تبقى مجموعات التقييم غير مرئية لنموذجك أثناء التطوير.

إذا كنت تستخدم بيانات توجيهية أو أمثلة few-shot، فيجب أن تأتي من مصادر منفصلة تماماً. وعند الشك، لا تُدرجها. :::

:::warning LLM non-determinism

مخرجات النماذج اللغوية الكبيرة غير حتمية. تمثل الدرجات قياسات لحظية في ظل إصدارات نماذج وإعدادات واجهات برمجة تطبيقات محددة. قد يحدّث مزودو النماذج الأوزان أو استراتيجيات فك التشفير أو مرشحات الأمان في أي وقت، مما قد يسبب انحرافاً في الدرجات بين عمليات التشغيل. تسجل لوحة المتصدرين المعرّف الدقيق للنموذج والطابع الزمني لكل تقديم. :::


ما الذي يجعل الطريقة جيدة

ليست كل الطرق متساوية. إليك ما يميز العمل الدقيق عن الدرجات المضخّمة.

خصائص الطريقة القوية

  • فصل واضح بين بيانات التدريب وبيانات التقييم — لم تتعرض طريقتك مطلقاً لمجموعة التقييم أثناء التطوير أو الضبط أو هندسة الموجّهات أو اختيار أمثلة few-shot
  • قابلة لإعادة الإنتاج — يمكن لشخص آخر استنساخ مستودعك وتشغيل منظومة التقييم والحصول على الدرجات نفسها (ضمن حدود عدم حتمية النماذج اللغوية الكبيرة)
  • موثّقة — تصف بطاقة الطريقة الخاصة بك ما تفعله طريقتك، والأدوات التي تستخدمها، وحدودها
  • صادقة بشأن النطاق — إذا كانت طريقتك تعمل لزوج لغات واحد فقط، فصرّح بذلك؛ وإذا كان أداؤها يتراجع مع أنماط صرفية معينة، فوثّق ذلك
  • واعية بالمجتمع — بالنسبة للغات الشعوب الأصلية، تحترم طريقتك سيادة البيانات. وقد تشاورت مع مجتمعات اللغة أو استخدمت بيانات مرخّصة بشكل مفتوح فقط

إشارات الخطر (ما يؤدي إلى الاستبعاد)

إشارة الخطرلماذا تمثل مشكلة
التدريب على بيانات التقييميُبطل الغرض من التقييم بالكامل. الدرجات المضخّمة تضلل الجميع.
الانتقاء الانتهازي للنتائجتشغيل التقييم 10 مرات وتقديم أفضل نتيجة دون الإفصاح عن البقية
معالجة لاحقة غير مُفصح عنهاإصلاح المخرجات يدوياً قبل حساب الدرجات
بيانات توجيهية ملوّثةاستخدام أمثلة من مجموعة التقييم كموجّهات few-shot أو كمدخلات معجمية
الادعاء بالجاهزية التجارية دون توثيق المصدرإذا كانت طريقتك تستخدم بيانات بترخيص CC BY-NC-SA، فهي غير جاهزة تجارياً

مستويات التحقق

تصف مستويات التحقق من قام بالتحقق من النتيجة — وهي منفصلة عن مستويات الجودة (Baseline ← Fluent) المحددة في مواصفات التقييم، §5، والتي تصف ما تعنيه درجة composite score المحسوبة آلياً.

المستوىالمعنىكيفية الحصول عليه
Self-benchmarkedقمت بتشغيل منظومة التقييم بنفسك وقدّمت النتائجافتح طلب سحب (PR) مع بطاقة التشغيل الخاصة بك
GDS Verifiedأعاد القائمون على champollion إنتاج نتائجكقدّم طريقتك كإضافة قابلة للتثبيت
Community Validatedشغّلت منظمة الحوكمة التقييم مقابل المعيار الذهبي مع مراجعة مجتمعيةقدّم شيفرة طريقتك إلى منظمة الحوكمة

كيفية التقديم

  1. ابنِ طريقتك — راجع بناء طريقة للاطلاع على واجهة الطريقة
  2. شغّل منظومة التقييم — راجع Eval Harness للإعداد والاستخدام
  3. أنشئ بطاقة تشغيل — تنتج منظومة التقييم بطاقة تشغيل بصيغة JSON تتضمن درجاتك وبصمتك وبياناتك الوصفية
  4. افتح طلب سحب (PR) — قدّم بطاقة التشغيل الخاصة بك إلى مستودع eval harness
  5. اظهر على لوحة المتصدرين — بمجرد الدمج، تظهر نتائجك على لوحة متصدري الطرق

التوجهات المستقبلية

  • تشغيلات شاملة لمقارنة النماذج — تقييم منهجي للنماذج الرائدة (GPT-4o، وClaude، وGemini، وغيرها) عبر لغات champollion باستخدام مدوّنات تقييم مخصصة (وليس معايير عامة)
  • المزيد من أزواج اللغات — Quechua، وInuktitut، ولغات أخرى منخفضة الموارد مع توفر مجموعات بيانات موثّقة مجتمعياً
  • استيراد مجموعات البيانات — أدوات لتحويل مجموعات بيانات التقييم الخارجية (WMT، وTatoeba، وغيرها) إلى صيغة تقييم champollion
  • إعادة التشغيل الآلية — اكتشاف تغييرات إصدارات النماذج وإعادة تشغيل القياسات لتتبع انحراف الدرجات

انظر أيضاً