الانتقال إلى المحتوى الرئيسي

مواصفات التقييم والتسجيل

ملخص تنفيذي. هذه الوثيقة هي المصدر الوحيد الموثوق لجميع مقاييس التقييم، والتسجيل المركّب، ومستويات الجودة، وتحليل التكلفة في منظومة تقييم الترجمة الآلية لمشروع Champollion. تحمل مقاييس التقييم الخاصة باللغة — صلاحية FST الصرفية، وفئات التكافؤ في أداة الفحص (linter)، والتحقق الدلالي الحتمي — اسمًا جماعيًا هو LYSS (Linguistically-informed Yield & Structural Scoring). كل مقياس يحسبه نظام التقييم، وكل وزن في الصيغة المركّبة، وكل عتبة مستوى معرّفة هنا — وهنا فقط. تُشتق الشيفرة البرمجية والوثائق ومخططات قواعد البيانات من هذه الوثيقة. وعند حدوث تعارض، تكون هذه الوثيقة هي المرجع الحاسم.

النطاق. تحدد هذه الوثيقة ما نقيسه وكيف نسجّله. وهي لا تحدد مخطط بطاقة التشغيل (انظر BENCHMARK_SPEC §3)، ولا بروتوكول القياس المعياري (BENCHMARK_SPEC §6)، ولا قواعد لوحة المتصدرين (انظر وثائق arena). فتلك الوثائق تستند إلى هذه الوثيقة في تعريفات المقاييس ومنطق التسجيل.

آخر تحديث: 2026-06-07


1. فلسفة التسجيل

1.1 فلسفة التقييم الدقيق (Microeval)

«إذا ركّزنا فقط على ما يُعمَّم، فسننسى حتمًا المواضع التي لا ينطبق فيها — ونخسر هذه اللغات وكل ما تحمله من معرفة وحكمة.»

يتبنى هذا المشروع نهج التطوير القائم على التقييم الدقيق (microeval): أي بناء مقاييس تقييم مصممة خصيصًا للغات بعينها باستخدام أفضل الأدوات اللغوية المتاحة — محوّلات الحالات المنتهية، والقواميس ثنائية اللغة، والمحلّلات الصرفية، وقواعد التكافؤ المنسّقة من قبل لغويين. وهذا عكس النموذج السائد في تقييم الترجمة الآلية، الذي يسعى إلى مقاييس عالمية تعمل عبر جميع اللغات. المقاييس العالمية قيّمة، لكنها تكون في أضعف حالاتها تحديدًا حيث تشتد الحاجة إليها: في اللغات ذات الصرف المعقّد، وبيانات التدريب المحدودة، والتي لا تمثيل لها في مجموعات تدريب المقاييس العصبية.

نحن لا نحرز تقدمًا في الترجمة الآلية للعديد من لغات العالم ليس فقط لأننا نفتقر إلى المدوّنات اللغوية، بل لأننا لا نعرف حتى كيف يبدو التقدم — إذ نفتقر إلى أدوات التقييم الآلي لقياس ما إذا كان نظام الترجمة يتحسّن. LYSS هو محاولتنا لبناء تلك الأدوات، لغةً بلغة، باستخدام أي موارد لغوية متوفرة.

1.2 المقاييس الآلية مجرد مؤشرات تقريبية

كل مقياس معرّف هنا يُحسب آليًا. وهذه المقاييس مفيدة للتكرار السريع، والمقارنة المنهجية، واكتشاف التراجعات. لكنها ليست بديلًا عن الحكم البشري. مستويات الجودة في §5 هي تصنيفات استدلالية — فالمراجعة البشرية وحدها يمكنها تأكيد قابلية الاستخدام الفعلية.

1.3 تصميم متعدد الإشارات

لا يوجد مقياس واحد يلتقط جودة الترجمة. فقد تحقق ترجمة ما تطابقًا تامًا في chrF++ لكنها تفشل في التحقق الصرفي. وقد تجتاز فحوصات FST لكنها تحمل المعنى الخاطئ. وقد تكون دقيقة دلاليًا لكنها غريبة أسلوبيًا عن اللغة الهدف. تجمع الدرجة المركّبة في §4 عدة إشارات مستقلة، يلتقط كل منها بُعدًا مختلفًا من أبعاد الجودة.

1.4 القابلية للتوسعة

قائمة المقاييس هذه ليست مغلقة. فاللغات الجديدة تجلب متطلبات جديدة: دقة النغمات للغات النغمية، ودقة علامات التشكيل للنصوص السامية، وصحة المقاطع الكتابية للغة الكري. صُممت البنية المعمارية (بروتوكول MetricPlugin، والمركّب الموزون مع إعادة التطبيع) بحيث يمكن إضافة مقاييس دون كسر الدرجات القائمة. تُعلن المقاييس الخاصة باللغة (مثل أداة الفحص والمدقق الدلالي للغة CRK) في بطاقات اللغة ضمن evalMetrics وتُحمَّل من eval_standards/ — إذ يأتي نظام التقييم مزودًا بالمقاييس السلوكية العامة فقط (التبديل اللغوي، والهلوسة، والمصطلحات).

1.5 أبعاد التقييم الثلاثة

تقيس كل بطاقة تشغيل ثلاثة أبعاد مستقلة:

Quality — How good is the translation? (composite score, §4)
Cost — How much does it cost? (cost metrics, §6)
Speed — How fast does it run? (speed metrics, §7)

هذه محاور مستقلة. فقد تكون طريقة ما عالية الجودة لكنها مكلفة، أو سريعة لكنها غير دقيقة، أو أي توليفة أخرى. تتيح لوحة المتصدرين الترتيب حسب أي بُعد. والدرجة المعدّلة حسب التكلفة (§6.3) هي المقياس الوحيد الذي يجمع بين الأبعاد.

1.6 حالة التحقق من الصحة

لكل مقياس في هذه المواصفات حالة تحقق من الصحة منفصلة عن حالة التنفيذ (§3). فحالة التنفيذ تتتبع ما إذا كانت الشيفرة موجودة. أما حالة التحقق فتتتبع ما إذا ثبت ارتباط المقياس بأحكام الجودة البشرية.

مستوى التحققالمعنىالمقاييس الحالية
✅ تم التحقق منه خارجيًاتوجد دراسات منشورة للارتباط بالأحكام البشرية (WMT، أوراق أكاديمية)chrf_plus_plus، bleu، comet_score
⚡ تم التحقق منه كمؤشر تقريبيتم التحقق منه للغات وفيرة الموارد؛ غير محقق للغاتنا المستهدفة محدودة المواردcomet_score (تم التحقق منه للأزواج الأوروبية، لا للغة CRK)
🔶 استدلال هندسيصُمم انطلاقًا من مبادئ لغوية أو أنماط فشل ملحوظة؛ لا توجد بيانات ارتباط بشريfst_acceptance_rate، equivalent_match_rate، semantic_score، code_switching_rate، hallucination_rate، terminology_adherence
🔲 غير محققلم يُختبر بعد على أي بياناتmorphological_accuracy، orthographic_accuracy، consistency_score

ماذا يعني هذا عمليًا. تجمع الدرجة المركّبة (§4) مقاييس من جميع مستويات التحقق. وهذا خيار تصميمي صريح: نعتقد أن الاستدلال الهندسي المؤسَّس بنيويًا (قبول FST) أكثر دلالة للغات متعددة التركيب من مقياس عصبي تم التحقق منه فقط على الأزواج الأوروبية (COMET). لكننا لم نُثبت ذلك. ينبغي اعتبار الدرجة المركّبة تقديرًا هندسيًا، لا قياسًا محققًا للجودة، حتى تكتمل دراسات الارتباط بالأحكام البشرية لكل لغة مستهدفة.

تجارب التحقق المطلوبة (انظر mt-evaluation-landscape.md §6 وspeaker-validation.md):

  1. دراسة ارتباط بالحكم البشري: أكثر من 200 زوج من الجمل يقيّمها 3 متحدثين ثنائيي اللغة أو أكثر
  2. قياس معدل الرفض الخاطئ لـ FST على مدوّنة تمثيلية
  3. نقل التجربة إلى لغة ثانية (North Sámi) لاختبار قابلية التعميم
  4. مقارنة مباشرة مع COMET على البيانات نفسها

2. قائمة المقاييس

تُنظَّم المقاييس في أربع فئات. لكل مقياس حالة تنفيذ، ومقياس قيم، ومستوى (لكل إدخال، أو على مستوى المدوّنة، أو كليهما).

2.1 المقاييس السطحية

تقارن المقاييس السطحية الترجمة المتوقعة بالترجمة المرجعية على مستوى السلسلة النصية. ولا تتطلب أدوات لغوية — مجرد مقارنة سلاسل نصية.

المعرّفالمقياسالحالةالنطاقالمستوىالتنفيذ
exact_match_rateالتطابق التام✅ منفّذ0.0–1.0كلاهماثنائي: هل المتوقع == المرجع؟ معدل المدوّنة = التطابقات / الإجمالي.
equivalent_match_rateالتطابق المكافئ⚡ جزئي0.0–1.0كلاهماهل يطابق الناتج المتوقع أي صيغة مقبولة؟ بالنسبة للغة CRK: منفّذ عبر CrkLinterMetric من معيار تقييم CRK (في eval_standards/crk/) باستخدام قواعد حتمية لفئات الصيغ (ترتيب الكلمات، الإملاء، الأداة الاختيارية، مرادف الجذر المعجمي، التباس الصيغة المستمرة). يُحمَّل تلقائيًا عبر إعلان evalMetrics في بطاقة لغة CRK. يتطلب التنفيذ العام عبر اللغات وجود variants[] لكل إدخال في المدوّنة.
chrf_plus_pluschrF++✅ منفّذ0–100كلاهمادرجة F للوحدات النونية على مستوى الأحرف (sacrebleu). متين أمام التباين الصرفي. المقياس السطحي الأساسي للغات الإلصاقية/متعددة التركيب. يستخدم مستوى الإدخال sentence_chrf؛ ومستوى المدوّنة corpus_chrf.
bleuBLEU✅ منفّذ0–100المدوّنةدقة الوحدات النونية على مستوى الكلمات (sacrebleu). مستبعد من المركّب — التسجيل على مستوى الكلمات يعاقب التباين الصرفي بشكل غير عادل. يُحسب ويُبلَّغ عنه للتوافق مع أدبيات الترجمة الآلية.
terمعدل تحرير الترجمة✅ منفّذ0–∞ (الأقل أفضل)كلاهماالحد الأدنى لمسافة التحرير بين المتوقع والمرجع، مُطبَّعًا بطول المرجع (sacrebleu corpus_ter). يُحسب إلى جانب chrF++ وBLEU. مستبعد من المركّب — لأنه يرتبط بـ chrF++ ولذا فإن تضمين كليهما يعني احتساب التشابه السطحي مرتين.
length_ratioنسبة الطول✅ منفّذ0–∞ (المثالي 1.0)كلاهماlen(predicted) / len(reference) بالأحرف. يكتشف الاقتطاع (<0.5) والتضخم/الهلوسة (>2.0). يُحسب متوسطه عبر الإدخالات على مستوى المدوّنة.

2.2 المقاييس البنيوية

تتحقق المقاييس البنيوية من سلامة التكوين اللغوي للترجمة. وهي تتطلب أدوات خاصة باللغة (محلّلات FST، محلّلات صرفية) وتشكّل أقوى الإشارات للغات الغنية صرفيًا.

المعرّفالمقياسالحالةالنطاقالمستوىالتنفيذ
fst_acceptance_rateقبول FST✅ منفّذ0.0–1.0كلاهمانسبة كلمات الناتج التي يقبلها محوّل الحالات المنتهية (GiellaLT). تُعد الكلمة «صحيحة» إذا أعاد FST تحليلًا صرفيًا واحدًا على الأقل. متاح لأي لغة لديها محلّل GiellaLT .hfstol.
morphological_accuracyالدقة الصرفية🔲 مخطط0.0–1.0كلاهماقد تكون الكلمة صحيحة وفق FST لكن بتصريف خاطئ (جذر صحيح، لاحقة خاطئة). يقارن هذا المقياس تحليل FST للكلمة المتوقعة بالسمات الصرفية المنتظرة. يتطلب تعليقات صرفية لكل إدخال في المدوّنة.
orthographic_accuracyالدقة الإملائية🔲 مخطط0.0–1.0كلاهمايتحقق من الصحة الخاصة بنظام الكتابة: استخدام علامتي الماكرون والقبّعة في SRO للغة الكري، وعلامات التشكيل للإينُكتيتوت، وعلامات طول الحركات للأوجيبوي. مجموعات قواعد لكل لغة.

لماذا تهم المقاييس البنيوية. نظام OMT-1600 من Meta — أكبر نظام ترجمة آلية نُشر على الإطلاق (1,600 لغة) — يُقيَّم باستخدام ChrF++ وxCOMET وMetricX وBLASER 3. لا يتحقق أي منها من الصحة الصرفية. يقيس ChrF++ تداخل الوحدات النونية على مستوى الأحرف: فهو يكافئ السلاسل التي تبدو مثل اللغة الهدف. وبالنسبة للغات متعددة التركيب، يعني هذا أن كلمة غير صحيحة صرفيًا تشترك في كثير من الأحرف مع المرجع تحصل على درجة جيدة. أما مقياس قبول FST لدينا فهو اختبار بنيوي ثنائي: الكلمة إما صيغة صحيحة في اللغة، أو ليست كذلك. لا يوفر أي إطار آخر لتقييم الترجمة الآلية هذا على نطاق واسع.

2.3 المقاييس الدلالية

تقيس المقاييس الدلالية الحفاظ على المعنى باستخدام التضمينات (embeddings) أو النماذج المتعلَّمة. وهي تلتقط الترجمات المختلفة سطحيًا والمتكافئة في المعنى، وتُعلّم الترجمات المتشابهة سطحيًا لكنها خاطئة دلاليًا.

المعرّفالمقياسالحالةالنطاقالمستوىالتنفيذ
semantic_scoreالتشابه الدلالي⚡ جزئي0.0–1.0كلاهماللغة CRK: درجة موزونة بالأحكام من CrkSemanticMetric في معيار تقييم CRK (في eval_standards/crk/، كمؤشر تقريبي). عالميًا: تشابه جيب التمام لتضمينات الجمل (المصدر + المتوقع مقابل المصدر + المرجع). النموذج لم يُحدَّد بعد — يجب أن يدعم اللغات محدودة الموارد، مما يستبعد معظم نماذج التضمين المتمحورة حول الإنجليزية.
comet_scoreCOMET✅ منفّذ~0.0–1.0كلاهمامقياس متعلَّم لتقييم الترجمة الآلية (Unbabel). مدرَّب على أحكام الجودة البشرية. مستبعد من المركّب — بيانات التدريب منحازة نحو اللغات الأوروبية وفيرة الموارد؛ والدرجات للغات محدودة الموارد غير موثوقة. يُحسب عند تثبيت unbabel-comet. يُبلَّغ عنه مع علامة تحذير خاصة باللغات محدودة الموارد. بالنسبة لـ 35 لغة أفريقية، يختار نظام التقييم تلقائيًا AfriCOMET (masakhane/africomet-mtl) عبر resolve_comet_model()، الذي يتمتع بارتباط أفضل بالأحكام البشرية لتلك اللغات.

لماذا استُبعد COMET من المركّب. دُرّب COMET على بيانات التقييم البشري من WMT، وهي في غالبيتها الساحقة أزواج لغوية أوروبية وفيرة الموارد. وعند تطبيقه على لغة Plains Cree أو غيرها من اللغات محدودة الموارد، فإن التمثيلات الداخلية للنموذج لم تتعرض لتلك اللغات — فهو يستقرئ من لغات ذات أنظمة صرفية مختلفة جوهريًا. لا تزال الدرجات مفيدة من حيث الاتجاه (COMET أعلى ≈ ناتج يبدو أكثر سلاسة عمومًا) لكن القيم المطلقة غير معايَرة. نُبلّغ عن COMET للشفافية لكننا لا ندعه يؤثر في الدرجة المركّبة حتى نتمكن من التحقق منه مقابل الأحكام البشرية لكل لغة مستهدفة.

AfriCOMET للغات الأفريقية. تحتوي كل بطاقة لغة على حقل metricModelSupport (انظر مواصفات بطاقة اللغة §9) يُعلن نماذج COMET المتخصصة المدرَّبة لتلك اللغة. بالنسبة لـ 35 لغة أفريقية (yor، hau، ibo، amh، swa، وغيرها)، تُعلن البطاقة AfriCOMET (masakhane/africomet-mtl) — وهو نموذج COMET مضبوط بدقة على أحكام بشرية لترجمة آلية للغات أفريقية من قبل مجتمع Masakhane. يختار نظام التقييم تلقائيًا النموذج الموصى به عبر resolve_comet_model() الذي يقرأ من بطاقات اللغة، لكن يمكن تجاوز ذلك بـ --comet-model. تتم إضافة ارتباطات جديدة بين اللغات والنماذج عبر إثراء بطاقة اللغة (وليس بتحرير شيفرة Python).

2.4 المقاييس السلوكية

تكتشف المقاييس السلوكية أنماط فشل محددة في ناتج الترجمة. وهي لا تقيس الجودة مباشرة — بل تكتشف المشكلات.

المعرّفالمقياسالحالةالنطاقالمستوىالتنفيذ
code_switching_rateمعدل التبديل اللغوي✅ منفّذ0.0–1.0 (الأقل أفضل)كلاهمانسبة كلمات الناتج المكتوبة باللغة المصدر (الإنجليزية عادةً). يُكتشف عبر تحليل نظام الكتابة في Unicode و/أو قائمة كلمات للغة المصدر. نمط فشل شائع جدًا في النماذج اللغوية الكبيرة: يُدرج النموذج كلمات إنجليزية عندما لا يعرف المكافئ في اللغة الهدف.
hallucination_rateمعدل الهلوسة✅ منفّذ0.0–1.0 (الأقل أفضل)كلاهمانسبة محتوى الناتج الذي لا يقابله محتوى في المصدر. يُكتشف عبر محاذاة الكلمات أو تداخل التضمينات عبر اللغات. يلتقط توليد النموذج لترجمات تبدو معقولة لكنها مختلَقة.
terminology_adherenceالالتزام بالمصطلحات✅ منفّذ0.0–1.0كلاهماللطرق الموجَّهة: نسبة المصطلحات المقررة التي تظهر في الناتج. يتطلب بيانات قاموس التوجيه. يقيس مدى احترام النموذج للمفردات المقدَّمة من الخبراء.
consistency_scoreالاتساق عبر الإدخالات🔲 مخطط0.0–1.0المدوّنة فقطهل يترجم النموذج المصطلح المصدري نفسه بالطريقة نفسها عبر الإدخالات؟ يشير الاتساق المنخفض إلى أن النموذج يخمّن بدلًا من تطبيق أنماط متعلَّمة. يتطلب تكرار المصطلحات عبر إدخالات المدوّنة.

2.5 مقاييس الامتثال

تتحقق مقاييس الامتثال من حفاظ الترجمات على السلامة البنيوية — العناصر النائبة، والتنسيق، وأعراف الطباعة. وهي فحوصات لبوابات الجودة، وليست درجات جودة.

المعرّفالمقياسالحالةالنطاقالمستوىالتنفيذ
compliance_indexامتثال المرور المزدوج✅ منفّذ0.0–1.0كلاهمامركّب موزون: 60% سلامة المتغيرات (هل حُفظت متغيرات {placeholder}؟) + 20% امتثال علامات الاقتباس (أحرف اقتباس صحيحة وفق بطاقة اللغة) + 20% امتثال حالة الأحرف (لا تسرب لأحرف لاتينية في اللغات عديمة حالة الأحرف). يُحسب على الناتج الخام والمعالَج لاحقًا. عبر DoublePassCompliancePlugin.
repair_effectivenessفعالية الإصلاح✅ منفّذ0.0–1.0المدوّنةنسبة انتهاكات الامتثال التي أُصلحت آليًا بواسطة خطافات ما بعد الترجمة. يقيس مدى تحسين بوابة الجودة للناتج الخام.

لماذا الامتثال ليس في المركّب. تقيس مقاييس الامتثال الحفاظ البنيوي (العناصر النائبة، علامات الاقتباس)، لا جودة الترجمة. فقد تكون الترجمة مثالية لغويًا لكنها تفشل في الامتثال لأنها أسقطت متغير {name}. هذه بوابات جودة — تمنع شحن المخرجات السيئة، لكنها لا ترتّب جودة الترجمة.


3. مستويات حالة المقاييس

يندرج كل مقياس في §2 ضمن أحد مستويات التنفيذ الأربعة:

المستوىالمعنىالسلوك في بطاقة التشغيل
✅ منفّذالشيفرة موجودة ومُختبَرة وتنتج قيمًا في بطاقات التشغيل حاليًاقيمة رقمية في بطاقة التشغيل
⚡ جزئييوجد مؤشر تقريبي خاص بلغة معينة (مثل CRK) لكن التنفيذ العام لا يزال معلقًاقيمة رقمية عند انطباق المؤشر التقريبي، وnull في غير ذلك
🔲 مخططمحدد المواصفات لكنه غير منفّذ بعدnull في بطاقة التشغيل (الحقل موجود، القيمة غائبة)
💡 مقترحقيد النقاش، لم تُحدد مواصفاته بعدغير موجود في بطاقة التشغيل

ينتقل المقياس من مخطط → جزئي عندما:

  1. يُدمج تنفيذ خاص بلغة معينة ويُختبر
  2. ينتج قيمًا لزوج لغوي واحد على الأقل
  3. يبقى التنفيذ العام معلقًا (موثقًا في هذه المواصفات)

ينتقل المقياس من جزئي → منفّذ عندما:

  1. يُدمج تنفيذ محايد لغويًا ويُختبر
  2. ينتج قيمًا لأي زوج لغوي دون إضافات خاصة باللغة
  3. تُحدَّث هذه الوثيقة لتعكس الحالة ✅

ينتقل المقياس من مخطط → منفّذ عندما:

  1. يُدمج التنفيذ ويُختبر
  2. يتم التحقق منه على عملية تقييم حقيقية واحدة على الأقل
  3. تُحدَّث هذه الوثيقة بتفاصيل تنفيذه

ينتقل المقياس من مقترح → مخطط عندما:

  1. يُتفق على تعريفه ونطاقه وطريقة حسابه
  2. يُضاف إلى هذه الوثيقة بحالة 🔲 Planned
  3. يُضاف عنصر نائب فارغ إلى مخطط بطاقة التشغيل

4. الدرجة المركّبة

4.1 الصيغة

الدرجة المركّبة هي متوسط موزون لجميع المقاييس المتاحة، مع إعادة تطبيعها بحيث يساوي مجموع أوزان المقاييس المتاحة 1.0:

composite = Σ (weight_i × value_i) for all available metrics
─────────────────────
Σ weight_i (re-normalization denominator)

يُعد المقياس «متاحًا» إذا كانت قيمته في بطاقة التشغيل رقمًا (وليس null). وعندما يكون المقياس غير متاح — لأن اللغة لا تملك FST، أو لأن المقياس لم يُنفَّذ بعد — يُعاد توزيع وزنه تناسبيًا على المقاييس المتبقية.

هذا يعني أن المركّب قابل للمقارنة دائمًا ضمن العملية الواحدة: فهو يستخدم أي مقاييس متاحة ويُطبّع وفقًا لذلك. وتكون المقارنة بين العمليات صحيحة عندما تستخدم العمليات مجموعة المقاييس المتاحة نفسها.

[!WARNING] القابلية للمقارنة بين العمليات. عند مقارنة عمليات تختلف في توفر المقاييس (مثلًا، عملية بها درجات FST وأخرى بدونها)، فإن الدرجات المركّبة غير قابلة للمقارنة المباشرة. فدرجة مركّبة قدرها 0.72 محسوبة من 5 مقاييس تحمل معلومات أكثر من درجة مركّبة قدرها 0.72 محسوبة من مقياسين. تعرض لوحة المتصدرين تحذيرًا عند اختلاف تغطية المقاييس بين العمليات المقارَنة. للمقارنة الدقيقة، استخدم اختبارات الدلالة الإحصائية بإعادة المعاينة التمهيدية (bootstrap) المزدوجة (§8.2) على المقاييس المشتركة فقط.

4.2 تطبيع المدخلات

قبل الدخول في الصيغة المركّبة، يجب أن تكون جميع المقاييس على مقياس 0.0–1.0 حيث 1.0 = مثالي:

المقياسالمقياس الأصليالتطبيع
exact_match_rate0.0–1.0لا شيء (مُطبَّع بالفعل)
equivalent_match_rate0.0–1.0لا شيء
fst_acceptance_rate0.0–1.0لا شيء
morphological_accuracy0.0–1.0لا شيء
chrf_plus_plus0–100القسمة على 100
semantic_score0.0–1.0لا شيء
code_switching_rate0.0–1.0 (الأقل = أفضل)1.0 - value (عكس: 0% تبديل لغوي = 1.0)
hallucination_rate0.0–1.0 (الأقل = أفضل)1.0 - value (عكس)
terminology_adherence0.0–1.0لا شيء

المقاييس المستبعدة من المركّب (bleu، comet_score، ter، length_ratio، consistency_score) لا تخضع للتطبيع لهذا الغرض.

4.3 جداول الأوزان

الملف A: اللغات التي تتمتع بتغطية FST

للغات التي يتوفر لها محوّل حالات منتهية من GiellaLT. تحمل المقاييس البنيوية 40% من المركّب (FST بوزن 0.25 + الدقة الصرفية بوزن 0.15)، مما يعكس أولوية الصحة الصرفية للغات متعددة التركيب/الإلصاقية.

المقياسالوزن المستهدفالمبرر
fst_acceptance_rate0.25الوزن الأعلى. إذا رفض FST كلمة، فهي ليست صيغة صحيحة في اللغة — بغض النظر عما تقوله المقاييس الأخرى. ثنائي ومؤسَّس بنيويًا.
morphological_accuracy0.15قد تكون الكلمة صحيحة وفق FST لكنها خاطئة صرفيًا (جذر صحيح، تصريف خاطئ). مع FST، تحمل المقاييس البنيوية 40%.
chrf_plus_plus0.15تداخل الوحدات النونية على مستوى الأحرف: أفضل مؤشر تقريبي سطحي للغات متعددة التركيب. يتعامل مع الصرف الإلصاقي أفضل من المقاييس القائمة على الكلمات.
semantic_score0.15الحفاظ على المعنى عند اختلاف الصيغة السطحية. يلتقط الترجمات الخاطئة دلاليًا التي تجتاز الفحوصات البنيوية.
equivalent_match_rate0.10يكافئ الصيغ المقبولة، وليس الترجمة المرجعية الواحدة فقط. مهم للغات ذات ترتيب الكلمات المرن.
code_switching_rate0.05يعاقب تسرب اللغة المصدر. معكوس: 0% تبديل لغوي = 1.0.
terminology_adherence0.05يكافئ الطرق الموجَّهة التي تحترم المفردات المقررة. نشط فقط عند وجود بيانات التوجيه.
hallucination_rate0.05يعاقب المحتوى المختلَق. معكوس: 0% هلوسة = 1.0.
exact_match_rate0.05الوزن الأدنى. صارم جدًا للغات متعددة التركيب — إذ توجد ترجمات صحيحة متعددة. يُحتفظ به كفحص للحد الأعلى.

المجموع: 1.00. عند عدم توفر مقاييس، يُعاد توزيع أوزانها تناسبيًا على المقاييس المتاحة. حاليًا، morphological_accuracy (بوزن 0.15) هو مقياس الملف A الوحيد الذي لم يُحسب بعد — فهو يتطلب تعليقات صرفية معيارية لكل إدخال. ومع غياب هذا المقياس، تُضرب المقاييس الثمانية المتبقية (مجموع أوزانها 0.85) كلٌّ في 1/0.85 ≈ 1.176. على سبيل المثال:

  • FST: ‏0.25/0.85 = 0.294
  • chrF++: ‏0.15/0.85 = 0.176
  • semantic: ‏0.15/0.85 = 0.176

الملف B: اللغات بدون تغطية FST

للغات التي لا تملك أدوات تحقق صرفي. تحمل المقاييس الدلالية والسطحية وزنًا متساويًا.

المقياسالوزن المستهدفالمبرر
semantic_score0.25بدون تحقق بنيوي، يكون الحفاظ على المعنى أقوى إشارة متاحة.
chrf_plus_plus0.25بدون FST، يصبح التداخل على مستوى الأحرف الفحص السطحي الأساسي.
equivalent_match_rate0.15يوفر تطابق الصيغ تقييم جودة منظمًا دون الحاجة إلى أدوات صرفية.
exact_match_rate0.10بدون FST، يحمل التطابق التام وزنًا أكبر بوصفه المؤشر التقريبي الوحيد للتحقق البنيوي.
code_switching_rate0.10يصبح تسرب اللغة المصدر أكثر أهمية عندما لا يوجد FST لالتقاط المخرجات السيئة.
terminology_adherence0.05الامتثال للمفردات الموجَّهة.
hallucination_rate0.05اكتشاف المحتوى المختلَق.
orthographic_accuracy0.05تسد الصحة الخاصة بنظام الكتابة جزءًا من الفجوة الناجمة عن غياب FST.

المجموع: 1.00. orthographic_accuracy (بوزن 0.05) مخطط لكنه غير محسوب بعد. ومع غيابه، تُضرب المقاييس السبعة المتبقية (مجموع أوزانها 0.95) في 1/0.95 ≈ 1.053 — وهو تأثير لا يُذكر على المركّب.

ملاحظة حول تطور الأوزان. هذه الأوزان مؤقتة وستُعاد معايرتها مع تراكم بيانات التحقق البشري. والهدف بعيد المدى هو اشتقاق الأوزان تجريبيًا: أي المقاييس الآلية يتنبأ بأحكام الجودة البشرية على نحو أفضل لكل عائلة لغوية؟

4.4 إضافة مقياس جديد إلى المركّب

لإضافة مقياس جديد إلى المركّب:

  1. عرّفه في §2 بحالة 🔲 Planned، شاملًا النطاق والمستوى وطريقة الحساب.
  2. نفّذه كـ MetricPlugin (أو في tester.py للمقاييس الأساسية).
  3. أضف عنصرًا نائبًا فارغًا في كتلة الدرجات في بطاقة التشغيل.
  4. عيّن له وزنًا مستهدفًا في §4.3 بتعديل الأوزان القائمة نزولًا. يجب أن يساوي مجموع الأوزان 1.00.
  5. حدّث BENCHMARK_SPEC.md §3 إذا تغيّر مخطط بطاقة التشغيل.
  6. حدّث جداول الأوزان في scoring.py (يجب أن تعكس الشيفرة هذه الوثيقة).
  7. شغّل قياسًا معياريًا للتحقق لتأكيد أن المقياس ينتج قيمًا منطقية على بيانات حقيقية.
  8. حدّث هذه الوثيقة لتغيير الحالة من 🔲 إلى .

5. مستويات الجودة

هذه المستويات تصنيفات استدلالية للدرجات المركّبة الآلية. وهي تصف ما تعنيه الدرجات عادةً في الممارسة العملية، استنادًا إلى مراجعة بشرية للمخرجات عند كل مستوى. وهي ليست أحكام جودة محققة — فالمراجعة البشرية وحدها يمكنها تأكيد قابلية الاستخدام الفعلية.

[!IMPORTANT] المستويات الآلية مؤقتة. هذه التصنيفات ترشيحات للمراجعة، وليست إعلانات جودة. فالطريقة التي تصل إلى «قابل للنشر» وفق المقاييس الآلية هي مرشحة للتقييم المجتمعي — وليست منتجًا جاهزًا للشحن. المراجعة البشرية من قبل متحدثين ثنائيي اللغة وحدها يمكنها تأكيد قابلية الاستخدام الفعلية (انظر BENCHMARK_SPEC §7). لا يمكن لأي طريقة ادعاء «قابل للنشر» أو أعلى دون مراجعة مجتمعية تؤكد اتفاق المتحدثين على أن الناتج قابل للاستخدام. وقد تختلف حدود المستويات بين اللغات مع تراكم بيانات التحقق البشري.

المستوىنطاق المركّبما يراه المتحدث عادةً
أساسي (Baseline)0.00–0.30ناتج خام من نموذج لغوي كبير دون أي دعم خاص باللغة. الصرف في معظمه مُهلوَس.
ناشئ (Emerging)0.30–0.50بعض الأنماط الصحيحة بدأت تظهر. التوجيه يساعد، لكن الناتج غير موثوق.
وظيفي (Functional)0.50–0.70الناتج يمكن للمتحدث تمييزه. الفئات النحوية الرئيسية صحيحة عادةً. أخطاء صرفية متكررة.
قابل للنشر (Deployable)0.70–0.85مناسب للترجمة المسوّدة مع مراجعة بشرية. معظم الصرف صحيح.
سلس (Fluent)0.85–1.00يقترب من ترجمة بشرية كفؤة. الأخطاء نادرة وطفيفة.

هذه المستويات مؤقتة. وستُعاد معايرتها مع تراكم بيانات التحقق البشري ومعرفة أين تقع فعليًا عتبة «المتحدث يجد هذا مفيدًا» لكل لغة. لا يمكن لأي طريقة ادعاء قابل للنشر أو أعلى دون مراجعة مجتمعية تؤكد اتفاق المتحدثين ثنائيي اللغة على أن الناتج قابل للاستخدام.

5.1 عتبات المستويات (قابلة للقراءة آليًا)

لتنفيذات الشيفرة، العتبات هي (تُقيَّم من الأعلى إلى الأسفل، وأول تطابق يفوز):

composite >= 0.85 → "fluent"
composite >= 0.70 → "deployable"
composite >= 0.50 → "functional"
composite >= 0.30 → "emerging"
composite >= 0.00 → "baseline"
composite is null → "unscored"

6. مقاييس التكلفة

تقيس مقاييس التكلفة الكفاءة المالية لطريقة الترجمة. ويُبلَّغ عنها بشكل منفصل عن الجودة — فالتكلفة لا تؤثر في الدرجة المركّبة (باستثناء الترتيب الثانوي المعدَّل حسب التكلفة).

6.1 مقاييس الرموز (Tokens)

المعرّفالمقياسالحساب
prompt_tokensإجمالي رموز الإدخالمجموع usage.prompt_tokens عبر جميع استدعاءات API
completion_tokensإجمالي رموز الإخراجمجموع usage.completion_tokens
reasoning_tokensرموز سلسلة التفكيرمجموع usage.completion_tokens_details.reasoning_tokens (0 لمعظم النماذج)
cached_tokensالرموز المخزّنة مؤقتًا لدى المزوّدمجموع usage.prompt_tokens_details.cached_tokens
total_tokensإجمالي الرموز المستهلكةprompt_tokens + completion_tokens
tokens_per_entryمتوسط الرموز لكل ترجمةtotal_tokens / entry_count

6.2 مقاييس التكلفة

المعرّفالمقياسالحسابحالة الاستخدام
total_cost_usdتكلفة العملية الإجماليةالتسعير المبلَّغ عنه من المزوّد × عدد الرموز«كم كلّف هذا القياس المعياري؟»
cost_per_entry_usdالتكلفة لكل إدخال في المدوّنةtotal_cost_usd / entry_countمقارنة الطرق على المدوّنة نفسها
cost_per_1k_tokensالتكلفة لكل 1,000 رمزtotal_cost_usd / total_tokens × 1000كفاءة عامة للنماذج اللغوية الكبيرة — قابلة للمقارنة عبر المدوّنات
cost_per_source_charالتكلفة لكل حرف مصدريtotal_cost_usd / total_source_charsقابلة للمقارنة عبر اللغات ذات أنظمة الترميز المختلفة

لماذا مقاييس تكلفة متعددة؟ يتفاوت «الإدخال» في طوله — فعبارة من 3 كلمات تكلف أقل من فقرة. cost_per_entry_usd مفيد لمقارنة الطرق على المدوّنة نفسها (نفس الإدخالات = نفس الأطوال = مقارنة عادلة). cost_per_1k_tokens هو مقياس كفاءة النماذج اللغوية الكبيرة القياسي، وهو قابل للمقارنة عبر المدوّنات. cost_per_source_char يُطبّع لاختلافات الترميز — فالجملة نفسها قد تُرمَّز إلى أعداد مختلفة من الرموز بحسب مفردات النموذج.

6.3 الدرجة المعدَّلة حسب التكلفة

للطرق التي تستخدم واجهات API مدفوعة، نحسب ترتيبًا ثانويًا:

cost_adjusted = composite / log2(1 + cost_per_entry_usd × 1000)

هذا يكافئ الطرق التي تحقق درجات جيدة بكفاءة. ويستخدم cost_per_entry_usd (وليس لكل رمز) لأن الدرجة المعدَّلة حسب التكلفة تُحسب دائمًا ضمن قياس معياري واحد (مدوّنة واحدة)، مما يجعل المقارنة لكل إدخال عادلة.

الدرجة المعدَّلة حسب التكلفة هي ترتيب ثانوي — فلوحة المتصدرين الأساسية ترتّب حسب الدرجة المركّبة. وهي تجيب عن سؤال مختلف: «في حدود ميزانية معينة، أي طريقة تعطي أفضل النتائج؟»


7. مقاييس السرعة

تقيس مقاييس السرعة زمن الاستجابة والإنتاجية لطريقة الترجمة. ومثل التكلفة، لا تؤثر السرعة في الدرجة المركّبة.

المعرّفالمقياسالحسابالمستوى
elapsed_secondsمدة العملية بالوقت الفعليtime_end - time_startالعملية
avg_latency_secondsمتوسط زمن الاستجابة لكل إدخالΣ latency_s / n_entriesالمدوّنة
median_latency_secondsوسيط زمن الاستجابة لكل إدخالالمئين الخمسون من latency_sالمدوّنة
p95_latency_secondsزمن الاستجابة عند المئين 95المئين الخامس والتسعون من latency_sالمدوّنة
tokens_per_secondالإنتاجيةtotal_tokens / elapsed_secondsالعملية
entries_per_minuteمعدل الترجمةentry_count / (elapsed_seconds / 60)العملية

8. الثقة والدلالة الإحصائية

8.1 فترات الثقة بإعادة المعاينة التمهيدية (Bootstrap)

تدعم جميع المقاييس الرئيسية فترات الثقة بطريقة إعادة المعاينة التمهيدية (طريقة المئينات، n=1000 إعادة معاينة، α=0.05):

المقياسفترة الثقة المبلَّغ عنها
chrf_plus_pluschrf_ci_lower، chrf_ci_upper
exact_match_rateexact_match_ci_lower، exact_match_ci_upper
fst_acceptance_ratefst_ci_lower، fst_ci_upper (تُحسب فقط عند وجود بيانات FST)
comet_scorecomet_ci_lower، comet_ci_upper (بإعادة المعاينة التمهيدية من درجات مخزّنة مؤقتًا لكل إدخال — دون استدلال عصبي زائد)
compositecomposite_ci_lower، composite_ci_upper (تُحسب عند توفر chrF++ وexact_match)
فترات الثقة لكل مستوىconfidence_intervals_by_tier — فترات ثقة chrF++ وexact_match لكل مستوى صعوبة (المستويات 1-5)

8.2 اختبارات الدلالة الإحصائية بإعادة المعاينة التمهيدية المزدوجة

لمقارنة طريقتين، يحسب نظام التقييم اختبارات إعادة معاينة تمهيدية مزدوجة:

H₀: The two methods perform equally on this corpus.
H₁: One method is significantly better.

إذا كانت القيمة الاحتمالية (p-value) < 0.05 واستبعدت فترة الثقة للفرق الصفر، يكون الفرق دالًا إحصائيًا عند مستوى 95%.


9. مخطط درجات بطاقة التشغيل

يحدد هذا القسم البنية الهرمية لكتلة scores في بطاقة التشغيل. هذا المخطط مشتق من المقاييس المعرّفة في §2–§7 ويجب إبقاؤه متزامنًا.

{
"scores": {
// §2.1 Surface metrics
"exact_match_rate": 0.6613, // 0.0–1.0
"exact_matches": 41, // count
"equivalent_match_rate": 0.7258, // ⚡ partial (CRK: eval_standards/crk CrkLinterMetric)
"equivalent_matches": 45, // ⚡ partial (CRK: eval_standards/crk CrkLinterMetric)
"chrf_plus_plus": 80.65, // 0–100 (sacrebleu native scale)
"bleu": 54.78, // 0–100, NOT in composite
"ter": 42.3, // ✅ implemented, 0–∞ (lower=better)
"length_ratio": 1.03, // ✅ implemented, ideal=1.0

// §2.2 Structural metrics
"fst_acceptance_rate": 1.0, // 0.0–1.0
"fst_accepted": 74, // count
"morphological_accuracy": null, // 🔲 planned
"orthographic_accuracy": null, // 🔲 planned

// §2.3 Semantic metrics
"semantic_score": 0.6842, // ⚡ partial (CRK: eval_standards/crk CrkSemanticMetric)
"comet_score": null, // nullable, NOT in composite
"comet_model": "", // model ID used for COMET

// §2.4 Behavioral metrics
"code_switching_rate": 0.03, // ✅ implemented (lower=better)
"hallucination_rate": 0.01, // ✅ implemented (lower=better)
"terminology_adherence": null, // ✅ implemented (null when no glossary)
"consistency_score": null, // 🔲 planned

// §4 Composite
"composite": 0.8988, // 0.0–1.0
"quality_tier": "fluent", // §5 tier label
"cost_adjusted": null, // §6.3 secondary ranking

// §7 Speed metrics (merged into scores block)
"tokens_per_second": 4462.5, // ✅ total_tokens / elapsed
"entries_per_minute": 82.30, // ✅ entry_count / (elapsed/60)
"avg_latency_seconds": 0.234,
"median_latency_seconds": 0.190,
"p95_latency_seconds": 0.415,

// §8.1 Confidence intervals
"confidence_intervals": {
"chrf_plus_plus": { "ci_lower": 78.2, "ci_upper": 83.1 },
"exact_match_rate": { "ci_lower": 0.54, "ci_upper": 0.78 },
"corpus_comet": { "ci_lower": 0.71, "ci_upper": 0.76 }
},
"confidence_intervals_by_tier": {
"1": { "corpus_chrf": { "ci_lower": 68.1, "ci_upper": 76.5 } },
"3": { "corpus_chrf": { "ci_lower": 36.2, "ci_upper": 47.0 } }
},

// Breakdowns
"by_difficulty": {}, // scores grouped by difficulty tier
"by_provenance": {}, // scores grouped by entry provenance

// Counts
"total": 62,
"evaluated": 62,
"errors": 0
},

"totals": {
// §6.1 Token metrics
"prompt_tokens": 13985,
"completion_tokens": 187822,
"reasoning_tokens": 175726,
"cached_tokens": 0,
// §6.2 Cost metrics
"total_cost_usd": 1.7114,
"cost_per_entry_usd": 0.027603,
"cost_per_source_char": null // 🔲 needs source char counting
}
}

تاريخ المخطط. اقترحت مسودات المواصفات السابقة كتلًا منفصلة لـ cost وspeed وtokens. دُمجت هذه في scores وtotals على التوالي تبسيطًا. تقع مقاييس السرعة (tokens_per_second، entries_per_minute، أزمنة الاستجابة) في scores؛ وتقع أعداد الرموز وأرقام التكلفة في totals.

9.1 الربط بين المخطط وقاعدة البيانات

يُخزَّن ملف JSON لبطاقة التشغيل بالكامل كعمود jsonb في Supabase. كما تُفكَّك المقاييس الرئيسية إلى أعمدة في المستوى الأعلى لتحسين أداء الفرز/التصفية:

حقل بطاقة التشغيلعمود Supabaseالنوعالفهرس
scores.compositecomposite_scorerealidx_composite
scores.quality_tierquality_tiertext
scores.chrf_plus_pluschrf_plus_plusrealidx_leaderboard
scores.exact_match_rateexact_match_ratereal
scores.fst_acceptance_ratefst_acceptance_ratereal
scores.bleucorpus_bleureal
scores.comet_scorecomet_scorereal
totals.total_cost_usdtotal_cost_usdreal
totals.cost_per_entry_usdcost_per_entry_usdreal
totals.cost_per_source_charcost_per_source_charreal
scores.avg_latency_secondsavg_latency_secondsreal
model_slugmodel_slugtextidx_model
conditionconditiontext
dataset.iddataset_idtextidx_leaderboard
dataset.language_pairlanguage_pairtext
fingerprint.hashfingerprint_hashtextidx_fingerprint
scores.equivalent_match_rateequivalent_match_ratereal
scores.semantic_scoresemantic_scorereal
scores.terterreal
scores.length_ratiolength_ratioreal
scores.code_switching_ratecode_switching_ratereal
scores.hallucination_ratehallucination_ratereal
scores.terminology_adherenceterminology_adherencereal
scores.tokens_per_secondtokens_per_secondreal
scores.entries_per_minuteentries_per_minutereal
elapsed_secondselapsed_secondsreal
(البطاقة الكاملة)run_cardjsonb

عند تنفيذ مقاييس جديدة، ينبغي إضافة العمود المقابل عبر ترحيل مرقّم في arena/migrations/.


10. التزامن بين الشيفرة والمواصفات

10.1 المصدر الموثوق

هذه الوثيقة (arena/website/docs/specifications/scoring.md) هي المصدر الموثوق لـ:

  • تعريفات المقاييس (§2)
  • جداول الأوزان المركّبة (§4.3)
  • عتبات مستويات الجودة (§5.1)
  • صيغ مقاييس التكلفة (§6.2)
  • مخطط درجات بطاقة التشغيل (§9)

10.2 المرآة البرمجية

يعكس الملف arena/mt_eval_harness/scoring.py جداول الأوزان وعتبات المستويات من هذه الوثيقة. وهو التنفيذ البرمجي لـ §4.3 و§5.1. عند تحديث هذه الوثيقة:

  1. حدّث scoring.py ليطابقها
  2. شغّل pytest tests/test_scoring_ssot.py للتحقق من التوافق
  3. حدّث الأسئلة الشائعة ووثائق الموقع التي تلخّص الأوزان

10.3 الوثائق التي تشير إلى هذه المواصفات

الوثيقةما تشير إليهكيفية الحفاظ على التزامن
arena/website/docs/specifications/benchmark-spec.md §4–§5الصيغة المركّبة، جداول الأوزان، عتبات المستوياتالإحالة إلى هذه الوثيقة؛ لا تكرار للجداول
website/docs/getting-started/faq.mdملخص مبسّط للأوزانيجب أن يطابق §4.3؛ مع رابط يعود إلى هذه الوثيقة
arena/website/docs/how-it-works.mdعتبة «قابل للنشر»يجب أن تطابق §5
publish.py عبر scoring.pyقواميس الأوزان + دالة المستوياتاختبار آلي يتحقق من التطابق

الملحق A: المقاييس غير المضمَّنة في المركّب (والأسباب)

المقياسسبب الاستبعاد
BLEUالتسجيل على مستوى الكلمات يعاقب التباين الصرفي في اللغات متعددة التركيب. فاختلاف تصريفي طفيف (معنى صحيح، لاحقة مختلفة قليلًا) يُحتسب إخفاقًا كاملًا. يتعامل chrF++ مع ذلك أفضل على مستوى الأحرف.
COMETمدرَّب على بيانات WMT (أزواج أوروبية وفيرة الموارد). الدرجات للغات محدودة الموارد غير موثوقة — فالنموذج يستقرئ من لغات ذات أنظمة صرفية مختلفة. يُبلَّغ عنه للشفافية، لا للتسجيل.
TERترتبط مسافة التحرير بـ chrF++ في معظم حالات الاستخدام. وتضمين كليهما يعني احتساب التشابه السطحي مرتين. يُبلَّغ عن TER للمرجعية.
نسبة الطولأداة تشخيصية، لا إشارة جودة. فنسبة 1.02 ونسبة 0.98 كلتاهما مقبولتان. القيم المتطرفة فقط تشير إلى مشكلات.
درجة الاتساقعلى مستوى المدوّنة فقط — لا قيمة لكل إدخال يمكن تجميعها. كما أن بعض عدم الاتساق مشروع (الكلمة الإنجليزية نفسها → ترجمات مختلفة في اللغة الهدف بحسب السياق).
مؤشر الامتثالبوابة جودة، لا إشارة جودة. يقيس الحفاظ البنيوي (العناصر النائبة، علامات الاقتباس)، لا دقة الترجمة.

الملحق B: LYSS — تنفيذات المقاييس الخاصة باللغة

يوفر إطار LYSS ‏(Linguistically-informed Yield & Structural Scoring) مقاييس خاصة باللغة تتجاوز مقارنة السلاسل النصية السطحية. يتكون LYSS من ثلاثة مكونات أساسية:

  • LYSS-fst — الصلاحية الصرفية (fst_acceptance_rate): هل كل كلمة صيغة صحيحة في اللغة الهدف؟
  • LYSS-eq — التكافؤ اللغوي (equivalent_match_rate): هل الناتج صيغة مقبولة من المرجع؟
  • LYSS-sem — التحقق الدلالي (semantic_score): هل يحافظ الناتج على معنى المصدر؟

حالة التحقق: 🔶 استدلال هندسي. لم يتم التحقق من مقاييس LYSS مقابل أحكام الجودة البشرية. وهي مصممة انطلاقًا من مبادئ لغوية (محوّلات FST، والقواميس، وقواعد النحو التي بناها لغويون في UAlberta ALTLab)، لكن الارتباط بين درجات LYSS وجودة الترجمة الفعلية لم يُقَس. انظر بروتوكول التحقق من المتحدثين للاطلاع على تجارب التحقق المطلوبة.

اللغةالإضافةالموقعمكوّن LYSSمفتاح المقياسملاحظات
CRK (Plains Cree)CrkLinterMetriceval_standards/crk/metrics.pyLYSS-eqequivalent_match_rateقواعد حتمية لفئات الصيغ: ترتيب الكلمات، الإملاء، الأداة الاختيارية، مرادف الجذر المعجمي، التباس الصيغة المستمرة، صيغة الشمول/الاستثناء. ينتج lint_verdict لكل إدخال (EXACT/EQUIVALENT/MISS/NO_OUTPUT).
CRKCrkSemanticMetriceval_standards/crk/metrics.pyLYSS-semsemantic_scoreحتمي: استخراج الجذور المعجمية بـ FST + شروح القاموس + تداخل كلمات المحتوى عبر spaCy. ينتج أحكامًا (EXACT_MATCH/VALID/GRAMMAR_ISSUES/PARTIAL/INCOMPLETE/WRONG/NO_OUTPUT).
لغات GiellaLTGiellaLTFSTMetricplugins/giellalt_fst.pyLYSS-fstfst_acceptance_rateعام: يعمل للغات CRK وSME وSMA وSMJ وSMN وSMS وFIN وNOB وIKU — أي لغة لديها محلّل .hfstol.

ملاحظة معمارية (يونيو 2026). تُعلن مقاييس LYSS الخاصة باللغة الآن في بطاقة اللغة ضمن evalMetrics وتُحمَّل من eval_standards/<lang>/ بواسطة plugin_discovery.py. وهي معايير تقييم (حَكَم)، وليست مقاييس إضافات طرق (متسابق). وهذا يعني أن أي طريقة ترجمة تستهدف CRK تُسجَّل تلقائيًا بواسطة LYSS — دون حاجة إلى تكوين خاص بالطريقة. أُزيل CrkFSTMetric؛ ووظيفته مغطاة بالكامل بواسطة GiellaLTFSTMetric العام.

الملحق C: مقاييس قيد الدراسة

هذه أفكار يجري تقييمها لكنها لم تُحدد مواصفاتها بما يكفي لإدراجها في §2:

الفكرةما الذي ستقيسهالعوائق
السلاسة (حيرة النموذج اللغوي)هل الناتج نثر سليم التكوين في اللغة الهدف؟يتطلب نموذجًا لغويًا للغة الهدف. لا توجد نماذج جيدة لمعظم اللغات محدودة الموارد.
تطابق السجل اللغويهل تطابق الترجمة مستوى الرسمية المتوقع؟يتطلب مصنّفات اجتماعية لغوية. مشكلة بحثية.
الملاءمة الثقافيةهل تُعالَج الإشارات الثقافية بشكل صحيح؟لا يمكن أتمتته — يتطلب بطبيعته مراجعة بشرية.
الاتساق الخطابيهل تشكّل الترجمات المتتالية مقطعًا متماسكًا؟يتطلب تقييمًا على مستوى المستند، لا على مستوى الجملة.

المراجع

الأوراق الأكاديمية والأدوات والموارد اللغوية المُستشهد بها في هذه المواصفات.

المقاييس السطحية

  1. Popović, M. (2017). "chrF++: words helping character n-grams." Proceedings of the Second Conference on Machine Translation (WMT 2017), pp. 612–618. Copenhagen, Denmark.

  2. Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). "BLEU: a method for automatic evaluation of machine translation." Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002), pp. 311–318. Philadelphia, PA.

  3. Post, M. (2018). "A Call for Clarity in Reporting BLEU Scores." Proceedings of the Third Conference on Machine Translation (WMT 2018), pp. 186–191. Belgium, Brussels. التنفيذ المرجعي: sacrebleu.

  4. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). "A Study of Translation Edit Rate with Targeted Human Annotation." Proceedings of the 7th Conference of the Association for Machine Translation in the Americas (AMTA 2006), pp. 223–231. Cambridge, MA.

المقاييس العصبية

  1. Rei, R., Stewart, C., Farinha, A. C., & Lavie, A. (2020). "COMET: A Neural Framework for MT Evaluation." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020), pp. 2685–2702. Online.

  2. Juraska, J., Finkelstein, M., Deutsch, D., Siddhant, A., Miber, D., & Markl, A. (2023). "MetricX-23: The Google Submission to the WMT 2023 Metrics Shared Task." Proceedings of the Eighth Conference on Machine Translation (WMT 2023). Singapore.

  3. Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). "BERTScore: Evaluating Text Generation with BERT." Proceedings of the Eighth International Conference on Learning Representations (ICLR 2020). Addis Ababa, Ethiopia.

  4. Sellam, T., Das, D., & Parikh, A. (2020). "BLEURT: Learning Robust Metrics for Text Generation." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), pp. 7881–7892. Online.

الأدوات الصرفية واللغوية

  1. Lindén, K., Silfverberg, M., Axelson, E., Hardwick, S., & Pirinen, T. (2011). "HFST—Framework for Compiling and Applying Morphologies." Systems and Frameworks for Computational Morphology (SFCM 2011), Communications in Computer and Information Science, vol. 100, pp. 67–85. Springer, Berlin, Heidelberg.

  2. Sánchez-Cartagena, V. M., & Toral, A. (2024). "MorphEval: Automatic Evaluation of Morphological Capabilities of Machine Translation Systems." Machine Translation, vol. 38, pp. 1–28.

تصنيف الأخطاء والتقييم التشخيصي

  1. Popović, M. (2011). "Hjerson: An Open Source Tool for Automatic Error Classification of Machine Translation Output." The Prague Bulletin of Mathematical Linguistics, no. 96, pp. 59–68.

  2. Dreyer, M. & Marcu, D. (2012). "HyTER: Meaning-Equivalent Semantics for Translation Evaluation." Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL 2012), pp. 162–171. Montréal, Canada.

  3. Reiter, E. & Belz, A. (2009). "An Investigation into the Validity of Some Metrics for Automatically Evaluating Natural Language Generation Systems." Computational Linguistics, vol. 35, no. 4, pp. 529–558. (أعمال ذات صلة بمقاييس التقييم القائمة على السمات، بما فيها FUSE.)

اكتشاف الهلوسة

  1. Raunak, V., Menezes, A., & Junczys-Dowmunt, M. (2021). "The Curious Case of Hallucinations in Neural Machine Translation." Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL 2021), pp. 1172–1183. Online.

  2. Guerreiro, N. M., Voita, E., & Martins, A. F. T. (2023). "Looking for a Needle in a Haystack: A Comprehensive Study of Hallucinations in Neural Machine Translation." Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023), pp. 1059–1075. Dubrovnik, Croatia.

موارد لغة الكري

  1. Wolfart, H. C. (1973). "Plains Cree: A Grammatical Study." Transactions of the American Philosophical Society, vol. 63, no. 5, pp. 1–90.

  2. Wolvengrey, A. (2001). nêhiyawêwin: itwêwina / Cree: Words. Canadian Plains Research Center, University of Regina.

حوكمة البيانات

  1. First Nations Information Governance Centre. "The First Nations Principles of OCAP®." https://fnigc.ca/ocap-training/. ‏(OCAP® علامة تجارية مسجلة لمركز First Nations Information Governance Centre.)

  2. Carroll, S. R., Garba, I., Figueroa-Rodríguez, O. L., Holbrook, J., Lovett, R., Materechera, S., Parsons, M., Raseroka, K., Rodriguez-Lonebear, D., Rowe, R., Sara, R., Walker, J. D., Anderson, J., & Hudson, M. (2020). "The CARE Principles for Indigenous Data Governance." Data Science Journal, vol. 19, no. 1, p. 43.