مواصفات التقييم والتسجيل

ملخص تنفيذي. هذه الوثيقة هي المصدر الوحيد الموثوق لجميع مقاييس التقييم، والتسجيل المركّب، ومستويات الجودة، وتحليل التكلفة في منظومة تقييم الترجمة الآلية لمشروع Champollion. تحمل مقاييس التقييم الخاصة باللغة — صلاحية FST الصرفية، وفئات التكافؤ في أداة الفحص (linter)، والتحقق الدلالي الحتمي — اسمًا جماعيًا هو LYSS (Linguistically-informed Yield & Structural Scoring). كل مقياس يحسبه نظام التقييم، وكل وزن في الصيغة المركّبة، وكل عتبة مستوى معرّفة هنا — وهنا فقط. تُشتق الشيفرة البرمجية والوثائق ومخططات قواعد البيانات من هذه الوثيقة. وعند حدوث تعارض، تكون هذه الوثيقة هي المرجع الحاسم.

النطاق. تحدد هذه الوثيقة ما نقيسه وكيف نسجّله. وهي لا تحدد مخطط بطاقة التشغيل (انظر BENCHMARK_SPEC §3)، ولا بروتوكول القياس المعياري (BENCHMARK_SPEC §6)، ولا قواعد لوحة المتصدرين (انظر وثائق arena). فتلك الوثائق تستند إلى هذه الوثيقة في تعريفات المقاييس ومنطق التسجيل.

آخر تحديث: 2026-06-07

1. فلسفة التسجيل

1.1 فلسفة التقييم الدقيق (Microeval)

«إذا ركّزنا فقط على ما يُعمَّم، فسننسى حتمًا المواضع التي لا ينطبق فيها — ونخسر هذه اللغات وكل ما تحمله من معرفة وحكمة.»

يتبنى هذا المشروع نهج التطوير القائم على التقييم الدقيق (microeval): أي بناء مقاييس تقييم مصممة خصيصًا للغات بعينها باستخدام أفضل الأدوات اللغوية المتاحة — محوّلات الحالات المنتهية، والقواميس ثنائية اللغة، والمحلّلات الصرفية، وقواعد التكافؤ المنسّقة من قبل لغويين. وهذا عكس النموذج السائد في تقييم الترجمة الآلية، الذي يسعى إلى مقاييس عالمية تعمل عبر جميع اللغات. المقاييس العالمية قيّمة، لكنها تكون في أضعف حالاتها تحديدًا حيث تشتد الحاجة إليها: في اللغات ذات الصرف المعقّد، وبيانات التدريب المحدودة، والتي لا تمثيل لها في مجموعات تدريب المقاييس العصبية.

نحن لا نحرز تقدمًا في الترجمة الآلية للعديد من لغات العالم ليس فقط لأننا نفتقر إلى المدوّنات اللغوية، بل لأننا لا نعرف حتى كيف يبدو التقدم — إذ نفتقر إلى أدوات التقييم الآلي لقياس ما إذا كان نظام الترجمة يتحسّن. LYSS هو محاولتنا لبناء تلك الأدوات، لغةً بلغة، باستخدام أي موارد لغوية متوفرة.

1.2 المقاييس الآلية مجرد مؤشرات تقريبية

كل مقياس معرّف هنا يُحسب آليًا. وهذه المقاييس مفيدة للتكرار السريع، والمقارنة المنهجية، واكتشاف التراجعات. لكنها ليست بديلًا عن الحكم البشري. مستويات الجودة في §5 هي تصنيفات استدلالية — فالمراجعة البشرية وحدها يمكنها تأكيد قابلية الاستخدام الفعلية.

1.3 تصميم متعدد الإشارات

لا يوجد مقياس واحد يلتقط جودة الترجمة. فقد تحقق ترجمة ما تطابقًا تامًا في chrF++ لكنها تفشل في التحقق الصرفي. وقد تجتاز فحوصات FST لكنها تحمل المعنى الخاطئ. وقد تكون دقيقة دلاليًا لكنها غريبة أسلوبيًا عن اللغة الهدف. تجمع الدرجة المركّبة في §4 عدة إشارات مستقلة، يلتقط كل منها بُعدًا مختلفًا من أبعاد الجودة.

1.4 القابلية للتوسعة

قائمة المقاييس هذه ليست مغلقة. فاللغات الجديدة تجلب متطلبات جديدة: دقة النغمات للغات النغمية، ودقة علامات التشكيل للنصوص السامية، وصحة المقاطع الكتابية للغة الكري. صُممت البنية المعمارية (بروتوكول MetricPlugin، والمركّب الموزون مع إعادة التطبيع) بحيث يمكن إضافة مقاييس دون كسر الدرجات القائمة. تُعلن المقاييس الخاصة باللغة (مثل أداة الفحص والمدقق الدلالي للغة CRK) في بطاقات اللغة ضمن evalMetrics وتُحمَّل من eval_standards/ — إذ يأتي نظام التقييم مزودًا بالمقاييس السلوكية العامة فقط (التبديل اللغوي، والهلوسة، والمصطلحات).

1.5 أبعاد التقييم الثلاثة

تقيس كل بطاقة تشغيل ثلاثة أبعاد مستقلة:

Quality   — How good is the translation?   (composite score, §4)
Cost      — How much does it cost?          (cost metrics, §6)
Speed     — How fast does it run?           (speed metrics, §7)

هذه محاور مستقلة. فقد تكون طريقة ما عالية الجودة لكنها مكلفة، أو سريعة لكنها غير دقيقة، أو أي توليفة أخرى. تتيح لوحة المتصدرين الترتيب حسب أي بُعد. والدرجة المعدّلة حسب التكلفة (§6.3) هي المقياس الوحيد الذي يجمع بين الأبعاد.

1.6 حالة التحقق من الصحة

لكل مقياس في هذه المواصفات حالة تحقق من الصحة منفصلة عن حالة التنفيذ (§3). فحالة التنفيذ تتتبع ما إذا كانت الشيفرة موجودة. أما حالة التحقق فتتتبع ما إذا ثبت ارتباط المقياس بأحكام الجودة البشرية.

مستوى التحقق	المعنى	المقاييس الحالية
✅ تم التحقق منه خارجيًا	توجد دراسات منشورة للارتباط بالأحكام البشرية (WMT، أوراق أكاديمية)	`chrf_plus_plus`، `bleu`، `comet_score`
⚡ تم التحقق منه كمؤشر تقريبي	تم التحقق منه للغات وفيرة الموارد؛ غير محقق للغاتنا المستهدفة محدودة الموارد	`comet_score` (تم التحقق منه للأزواج الأوروبية، لا للغة CRK)
🔶 استدلال هندسي	صُمم انطلاقًا من مبادئ لغوية أو أنماط فشل ملحوظة؛ لا توجد بيانات ارتباط بشري	`fst_acceptance_rate`، `equivalent_match_rate`، `semantic_score`، `code_switching_rate`، `hallucination_rate`، `terminology_adherence`
🔲 غير محقق	لم يُختبر بعد على أي بيانات	`morphological_accuracy`، `orthographic_accuracy`، `consistency_score`

ماذا يعني هذا عمليًا. تجمع الدرجة المركّبة (§4) مقاييس من جميع مستويات التحقق. وهذا خيار تصميمي صريح: نعتقد أن الاستدلال الهندسي المؤسَّس بنيويًا (قبول FST) أكثر دلالة للغات متعددة التركيب من مقياس عصبي تم التحقق منه فقط على الأزواج الأوروبية (COMET). لكننا لم نُثبت ذلك. ينبغي اعتبار الدرجة المركّبة تقديرًا هندسيًا، لا قياسًا محققًا للجودة، حتى تكتمل دراسات الارتباط بالأحكام البشرية لكل لغة مستهدفة.

تجارب التحقق المطلوبة (انظر mt-evaluation-landscape.md §6 وspeaker-validation.md):

دراسة ارتباط بالحكم البشري: أكثر من 200 زوج من الجمل يقيّمها 3 متحدثين ثنائيي اللغة أو أكثر

قياس معدل الرفض الخاطئ لـ FST على مدوّنة تمثيلية

نقل التجربة إلى لغة ثانية (North Sámi) لاختبار قابلية التعميم

مقارنة مباشرة مع COMET على البيانات نفسها

2. قائمة المقاييس

تُنظَّم المقاييس في أربع فئات. لكل مقياس حالة تنفيذ، ومقياس قيم، ومستوى (لكل إدخال، أو على مستوى المدوّنة، أو كليهما).

2.1 المقاييس السطحية

تقارن المقاييس السطحية الترجمة المتوقعة بالترجمة المرجعية على مستوى السلسلة النصية. ولا تتطلب أدوات لغوية — مجرد مقارنة سلاسل نصية.

المعرّف	المقياس	الحالة	النطاق	المستوى	التنفيذ
`exact_match_rate`	التطابق التام	✅ منفّذ	0.0–1.0	كلاهما	ثنائي: هل المتوقع == المرجع؟ معدل المدوّنة = التطابقات / الإجمالي.
`equivalent_match_rate`	التطابق المكافئ	⚡ جزئي	0.0–1.0	كلاهما	هل يطابق الناتج المتوقع أي صيغة مقبولة؟ بالنسبة للغة CRK: منفّذ عبر `CrkLinterMetric` من معيار تقييم CRK (في `eval_standards/crk/`) باستخدام قواعد حتمية لفئات الصيغ (ترتيب الكلمات، الإملاء، الأداة الاختيارية، مرادف الجذر المعجمي، التباس الصيغة المستمرة). يُحمَّل تلقائيًا عبر إعلان `evalMetrics` في بطاقة لغة CRK. يتطلب التنفيذ العام عبر اللغات وجود `variants[]` لكل إدخال في المدوّنة.
`chrf_plus_plus`	chrF++	✅ منفّذ	0–100	كلاهما	درجة F للوحدات النونية على مستوى الأحرف (sacrebleu). متين أمام التباين الصرفي. المقياس السطحي الأساسي للغات الإلصاقية/متعددة التركيب. يستخدم مستوى الإدخال `sentence_chrf`؛ ومستوى المدوّنة `corpus_chrf`.
`bleu`	BLEU	✅ منفّذ	0–100	المدوّنة	دقة الوحدات النونية على مستوى الكلمات (sacrebleu). مستبعد من المركّب — التسجيل على مستوى الكلمات يعاقب التباين الصرفي بشكل غير عادل. يُحسب ويُبلَّغ عنه للتوافق مع أدبيات الترجمة الآلية.
`ter`	معدل تحرير الترجمة	✅ منفّذ	0–∞ (الأقل أفضل)	كلاهما	الحد الأدنى لمسافة التحرير بين المتوقع والمرجع، مُطبَّعًا بطول المرجع (sacrebleu `corpus_ter`). يُحسب إلى جانب chrF++ وBLEU. مستبعد من المركّب — لأنه يرتبط بـ chrF++ ولذا فإن تضمين كليهما يعني احتساب التشابه السطحي مرتين.
`length_ratio`	نسبة الطول	✅ منفّذ	0–∞ (المثالي 1.0)	كلاهما	`len(predicted) / len(reference)` بالأحرف. يكتشف الاقتطاع (<0.5) والتضخم/الهلوسة (>2.0). يُحسب متوسطه عبر الإدخالات على مستوى المدوّنة.

2.2 المقاييس البنيوية

تتحقق المقاييس البنيوية من سلامة التكوين اللغوي للترجمة. وهي تتطلب أدوات خاصة باللغة (محلّلات FST، محلّلات صرفية) وتشكّل أقوى الإشارات للغات الغنية صرفيًا.

المعرّف	المقياس	الحالة	النطاق	المستوى	التنفيذ
`fst_acceptance_rate`	قبول FST	✅ منفّذ	0.0–1.0	كلاهما	نسبة كلمات الناتج التي يقبلها محوّل الحالات المنتهية (GiellaLT). تُعد الكلمة «صحيحة» إذا أعاد FST تحليلًا صرفيًا واحدًا على الأقل. متاح لأي لغة لديها محلّل GiellaLT `.hfstol`.
`morphological_accuracy`	الدقة الصرفية	🔲 مخطط	0.0–1.0	كلاهما	قد تكون الكلمة صحيحة وفق FST لكن بتصريف خاطئ (جذر صحيح، لاحقة خاطئة). يقارن هذا المقياس تحليل FST للكلمة المتوقعة بالسمات الصرفية المنتظرة. يتطلب تعليقات صرفية لكل إدخال في المدوّنة.
`orthographic_accuracy`	الدقة الإملائية	🔲 مخطط	0.0–1.0	كلاهما	يتحقق من الصحة الخاصة بنظام الكتابة: استخدام علامتي الماكرون والقبّعة في SRO للغة الكري، وعلامات التشكيل للإينُكتيتوت، وعلامات طول الحركات للأوجيبوي. مجموعات قواعد لكل لغة.

لماذا تهم المقاييس البنيوية. نظام OMT-1600 من Meta — أكبر نظام ترجمة آلية نُشر على الإطلاق (1,600 لغة) — يُقيَّم باستخدام ChrF++ وxCOMET وMetricX وBLASER 3. لا يتحقق أي منها من الصحة الصرفية. يقيس ChrF++ تداخل الوحدات النونية على مستوى الأحرف: فهو يكافئ السلاسل التي تبدو مثل اللغة الهدف. وبالنسبة للغات متعددة التركيب، يعني هذا أن كلمة غير صحيحة صرفيًا تشترك في كثير من الأحرف مع المرجع تحصل على درجة جيدة. أما مقياس قبول FST لدينا فهو اختبار بنيوي ثنائي: الكلمة إما صيغة صحيحة في اللغة، أو ليست كذلك. لا يوفر أي إطار آخر لتقييم الترجمة الآلية هذا على نطاق واسع.

2.3 المقاييس الدلالية

تقيس المقاييس الدلالية الحفاظ على المعنى باستخدام التضمينات (embeddings) أو النماذج المتعلَّمة. وهي تلتقط الترجمات المختلفة سطحيًا والمتكافئة في المعنى، وتُعلّم الترجمات المتشابهة سطحيًا لكنها خاطئة دلاليًا.

المعرّف	المقياس	الحالة	النطاق	المستوى	التنفيذ
`semantic_score`	التشابه الدلالي	⚡ جزئي	0.0–1.0	كلاهما	للغة CRK: درجة موزونة بالأحكام من `CrkSemanticMetric` في معيار تقييم CRK (في `eval_standards/crk/`، كمؤشر تقريبي). عالميًا: تشابه جيب التمام لتضمينات الجمل (المصدر + المتوقع مقابل المصدر + المرجع). النموذج لم يُحدَّد بعد — يجب أن يدعم اللغات محدودة الموارد، مما يستبعد معظم نماذج التضمين المتمحورة حول الإنجليزية.
`comet_score`	COMET	✅ منفّذ	~0.0–1.0	كلاهما	مقياس متعلَّم لتقييم الترجمة الآلية (Unbabel). مدرَّب على أحكام الجودة البشرية. مستبعد من المركّب — بيانات التدريب منحازة نحو اللغات الأوروبية وفيرة الموارد؛ والدرجات للغات محدودة الموارد غير موثوقة. يُحسب عند تثبيت `unbabel-comet`. يُبلَّغ عنه مع علامة تحذير خاصة باللغات محدودة الموارد. بالنسبة لـ 35 لغة أفريقية، يختار نظام التقييم تلقائيًا AfriCOMET (`masakhane/africomet-mtl`) عبر `resolve_comet_model()`، الذي يتمتع بارتباط أفضل بالأحكام البشرية لتلك اللغات.

لماذا استُبعد COMET من المركّب. دُرّب COMET على بيانات التقييم البشري من WMT، وهي في غالبيتها الساحقة أزواج لغوية أوروبية وفيرة الموارد. وعند تطبيقه على لغة Plains Cree أو غيرها من اللغات محدودة الموارد، فإن التمثيلات الداخلية للنموذج لم تتعرض لتلك اللغات — فهو يستقرئ من لغات ذات أنظمة صرفية مختلفة جوهريًا. لا تزال الدرجات مفيدة من حيث الاتجاه (COMET أعلى ≈ ناتج يبدو أكثر سلاسة عمومًا) لكن القيم المطلقة غير معايَرة. نُبلّغ عن COMET للشفافية لكننا لا ندعه يؤثر في الدرجة المركّبة حتى نتمكن من التحقق منه مقابل الأحكام البشرية لكل لغة مستهدفة.

AfriCOMET للغات الأفريقية. تحتوي كل بطاقة لغة على حقل metricModelSupport (انظر مواصفات بطاقة اللغة §9) يُعلن نماذج COMET المتخصصة المدرَّبة لتلك اللغة. بالنسبة لـ 35 لغة أفريقية (yor، hau، ibo، amh، swa، وغيرها)، تُعلن البطاقة AfriCOMET (masakhane/africomet-mtl) — وهو نموذج COMET مضبوط بدقة على أحكام بشرية لترجمة آلية للغات أفريقية من قبل مجتمع Masakhane. يختار نظام التقييم تلقائيًا النموذج الموصى به عبر resolve_comet_model() الذي يقرأ من بطاقات اللغة، لكن يمكن تجاوز ذلك بـ --comet-model. تتم إضافة ارتباطات جديدة بين اللغات والنماذج عبر إثراء بطاقة اللغة (وليس بتحرير شيفرة Python).

2.4 المقاييس السلوكية

تكتشف المقاييس السلوكية أنماط فشل محددة في ناتج الترجمة. وهي لا تقيس الجودة مباشرة — بل تكتشف المشكلات.

المعرّف	المقياس	الحالة	النطاق	المستوى	التنفيذ
`code_switching_rate`	معدل التبديل اللغوي	✅ منفّذ	0.0–1.0 (الأقل أفضل)	كلاهما	نسبة كلمات الناتج المكتوبة باللغة المصدر (الإنجليزية عادةً). يُكتشف عبر تحليل نظام الكتابة في Unicode و/أو قائمة كلمات للغة المصدر. نمط فشل شائع جدًا في النماذج اللغوية الكبيرة: يُدرج النموذج كلمات إنجليزية عندما لا يعرف المكافئ في اللغة الهدف.
`hallucination_rate`	معدل الهلوسة	✅ منفّذ	0.0–1.0 (الأقل أفضل)	كلاهما	نسبة محتوى الناتج الذي لا يقابله محتوى في المصدر. يُكتشف عبر محاذاة الكلمات أو تداخل التضمينات عبر اللغات. يلتقط توليد النموذج لترجمات تبدو معقولة لكنها مختلَقة.
`terminology_adherence`	الالتزام بالمصطلحات	✅ منفّذ	0.0–1.0	كلاهما	للطرق الموجَّهة: نسبة المصطلحات المقررة التي تظهر في الناتج. يتطلب بيانات قاموس التوجيه. يقيس مدى احترام النموذج للمفردات المقدَّمة من الخبراء.
`consistency_score`	الاتساق عبر الإدخالات	🔲 مخطط	0.0–1.0	المدوّنة فقط	هل يترجم النموذج المصطلح المصدري نفسه بالطريقة نفسها عبر الإدخالات؟ يشير الاتساق المنخفض إلى أن النموذج يخمّن بدلًا من تطبيق أنماط متعلَّمة. يتطلب تكرار المصطلحات عبر إدخالات المدوّنة.

2.5 مقاييس الامتثال

تتحقق مقاييس الامتثال من حفاظ الترجمات على السلامة البنيوية — العناصر النائبة، والتنسيق، وأعراف الطباعة. وهي فحوصات لبوابات الجودة، وليست درجات جودة.

المعرّف	المقياس	الحالة	النطاق	المستوى	التنفيذ
`compliance_index`	امتثال المرور المزدوج	✅ منفّذ	0.0–1.0	كلاهما	مركّب موزون: 60% سلامة المتغيرات (هل حُفظت متغيرات `{placeholder}`؟) + 20% امتثال علامات الاقتباس (أحرف اقتباس صحيحة وفق بطاقة اللغة) + 20% امتثال حالة الأحرف (لا تسرب لأحرف لاتينية في اللغات عديمة حالة الأحرف). يُحسب على الناتج الخام والمعالَج لاحقًا. عبر `DoublePassCompliancePlugin`.
`repair_effectiveness`	فعالية الإصلاح	✅ منفّذ	0.0–1.0	المدوّنة	نسبة انتهاكات الامتثال التي أُصلحت آليًا بواسطة خطافات ما بعد الترجمة. يقيس مدى تحسين بوابة الجودة للناتج الخام.

لماذا الامتثال ليس في المركّب. تقيس مقاييس الامتثال الحفاظ البنيوي (العناصر النائبة، علامات الاقتباس)، لا جودة الترجمة. فقد تكون الترجمة مثالية لغويًا لكنها تفشل في الامتثال لأنها أسقطت متغير {name}. هذه بوابات جودة — تمنع شحن المخرجات السيئة، لكنها لا ترتّب جودة الترجمة.

3. مستويات حالة المقاييس

يندرج كل مقياس في §2 ضمن أحد مستويات التنفيذ الأربعة:

المستوى	المعنى	السلوك في بطاقة التشغيل
✅ منفّذ	الشيفرة موجودة ومُختبَرة وتنتج قيمًا في بطاقات التشغيل حاليًا	قيمة رقمية في بطاقة التشغيل
⚡ جزئي	يوجد مؤشر تقريبي خاص بلغة معينة (مثل CRK) لكن التنفيذ العام لا يزال معلقًا	قيمة رقمية عند انطباق المؤشر التقريبي، و`null` في غير ذلك
🔲 مخطط	محدد المواصفات لكنه غير منفّذ بعد	`null` في بطاقة التشغيل (الحقل موجود، القيمة غائبة)
💡 مقترح	قيد النقاش، لم تُحدد مواصفاته بعد	غير موجود في بطاقة التشغيل

ينتقل المقياس من مخطط → جزئي عندما:

يُدمج تنفيذ خاص بلغة معينة ويُختبر
ينتج قيمًا لزوج لغوي واحد على الأقل
يبقى التنفيذ العام معلقًا (موثقًا في هذه المواصفات)

ينتقل المقياس من جزئي → منفّذ عندما:

يُدمج تنفيذ محايد لغويًا ويُختبر
ينتج قيمًا لأي زوج لغوي دون إضافات خاصة باللغة
تُحدَّث هذه الوثيقة لتعكس الحالة ✅

ينتقل المقياس من مخطط → منفّذ عندما:

يُدمج التنفيذ ويُختبر
يتم التحقق منه على عملية تقييم حقيقية واحدة على الأقل
تُحدَّث هذه الوثيقة بتفاصيل تنفيذه

ينتقل المقياس من مقترح → مخطط عندما:

يُتفق على تعريفه ونطاقه وطريقة حسابه
يُضاف إلى هذه الوثيقة بحالة 🔲 Planned
يُضاف عنصر نائب فارغ إلى مخطط بطاقة التشغيل

4. الدرجة المركّبة

4.1 الصيغة

الدرجة المركّبة هي متوسط موزون لجميع المقاييس المتاحة، مع إعادة تطبيعها بحيث يساوي مجموع أوزان المقاييس المتاحة 1.0:

composite = Σ (weight_i × value_i)    for all available metrics
             ─────────────────────
             Σ weight_i               (re-normalization denominator)

يُعد المقياس «متاحًا» إذا كانت قيمته في بطاقة التشغيل رقمًا (وليس null). وعندما يكون المقياس غير متاح — لأن اللغة لا تملك FST، أو لأن المقياس لم يُنفَّذ بعد — يُعاد توزيع وزنه تناسبيًا على المقاييس المتبقية.

هذا يعني أن المركّب قابل للمقارنة دائمًا ضمن العملية الواحدة: فهو يستخدم أي مقاييس متاحة ويُطبّع وفقًا لذلك. وتكون المقارنة بين العمليات صحيحة عندما تستخدم العمليات مجموعة المقاييس المتاحة نفسها.

[!WARNING] القابلية للمقارنة بين العمليات. عند مقارنة عمليات تختلف في توفر المقاييس (مثلًا، عملية بها درجات FST وأخرى بدونها)، فإن الدرجات المركّبة غير قابلة للمقارنة المباشرة. فدرجة مركّبة قدرها 0.72 محسوبة من 5 مقاييس تحمل معلومات أكثر من درجة مركّبة قدرها 0.72 محسوبة من مقياسين. تعرض لوحة المتصدرين تحذيرًا عند اختلاف تغطية المقاييس بين العمليات المقارَنة. للمقارنة الدقيقة، استخدم اختبارات الدلالة الإحصائية بإعادة المعاينة التمهيدية (bootstrap) المزدوجة (§8.2) على المقاييس المشتركة فقط.

4.2 تطبيع المدخلات

قبل الدخول في الصيغة المركّبة، يجب أن تكون جميع المقاييس على مقياس 0.0–1.0 حيث 1.0 = مثالي:

المقياس	المقياس الأصلي	التطبيع
`exact_match_rate`	0.0–1.0	لا شيء (مُطبَّع بالفعل)
`equivalent_match_rate`	0.0–1.0	لا شيء
`fst_acceptance_rate`	0.0–1.0	لا شيء
`morphological_accuracy`	0.0–1.0	لا شيء
`chrf_plus_plus`	0–100	القسمة على 100
`semantic_score`	0.0–1.0	لا شيء
`code_switching_rate`	0.0–1.0 (الأقل = أفضل)	`1.0 - value` (عكس: 0% تبديل لغوي = 1.0)
`hallucination_rate`	0.0–1.0 (الأقل = أفضل)	`1.0 - value` (عكس)
`terminology_adherence`	0.0–1.0	لا شيء

المقاييس المستبعدة من المركّب (bleu، comet_score، ter، length_ratio، consistency_score) لا تخضع للتطبيع لهذا الغرض.

4.3 جداول الأوزان

الملف A: اللغات التي تتمتع بتغطية FST

للغات التي يتوفر لها محوّل حالات منتهية من GiellaLT. تحمل المقاييس البنيوية 40% من المركّب (FST بوزن 0.25 + الدقة الصرفية بوزن 0.15)، مما يعكس أولوية الصحة الصرفية للغات متعددة التركيب/الإلصاقية.

المقياس	الوزن المستهدف	المبرر
`fst_acceptance_rate`	0.25	الوزن الأعلى. إذا رفض FST كلمة، فهي ليست صيغة صحيحة في اللغة — بغض النظر عما تقوله المقاييس الأخرى. ثنائي ومؤسَّس بنيويًا.
`morphological_accuracy`	0.15	قد تكون الكلمة صحيحة وفق FST لكنها خاطئة صرفيًا (جذر صحيح، تصريف خاطئ). مع FST، تحمل المقاييس البنيوية 40%.
`chrf_plus_plus`	0.15	تداخل الوحدات النونية على مستوى الأحرف: أفضل مؤشر تقريبي سطحي للغات متعددة التركيب. يتعامل مع الصرف الإلصاقي أفضل من المقاييس القائمة على الكلمات.
`semantic_score`	0.15	الحفاظ على المعنى عند اختلاف الصيغة السطحية. يلتقط الترجمات الخاطئة دلاليًا التي تجتاز الفحوصات البنيوية.
`equivalent_match_rate`	0.10	يكافئ الصيغ المقبولة، وليس الترجمة المرجعية الواحدة فقط. مهم للغات ذات ترتيب الكلمات المرن.
`code_switching_rate`	0.05	يعاقب تسرب اللغة المصدر. معكوس: 0% تبديل لغوي = 1.0.
`terminology_adherence`	0.05	يكافئ الطرق الموجَّهة التي تحترم المفردات المقررة. نشط فقط عند وجود بيانات التوجيه.
`hallucination_rate`	0.05	يعاقب المحتوى المختلَق. معكوس: 0% هلوسة = 1.0.
`exact_match_rate`	0.05	الوزن الأدنى. صارم جدًا للغات متعددة التركيب — إذ توجد ترجمات صحيحة متعددة. يُحتفظ به كفحص للحد الأعلى.

المجموع: 1.00. عند عدم توفر مقاييس، يُعاد توزيع أوزانها تناسبيًا على المقاييس المتاحة. حاليًا، morphological_accuracy (بوزن 0.15) هو مقياس الملف A الوحيد الذي لم يُحسب بعد — فهو يتطلب تعليقات صرفية معيارية لكل إدخال. ومع غياب هذا المقياس، تُضرب المقاييس الثمانية المتبقية (مجموع أوزانها 0.85) كلٌّ في 1/0.85 ≈ 1.176. على سبيل المثال:

FST: ‏0.25/0.85 = 0.294

chrF++: ‏0.15/0.85 = 0.176

semantic: ‏0.15/0.85 = 0.176

الملف B: اللغات بدون تغطية FST

للغات التي لا تملك أدوات تحقق صرفي. تحمل المقاييس الدلالية والسطحية وزنًا متساويًا.

المقياس	الوزن المستهدف	المبرر
`semantic_score`	0.25	بدون تحقق بنيوي، يكون الحفاظ على المعنى أقوى إشارة متاحة.
`chrf_plus_plus`	0.25	بدون FST، يصبح التداخل على مستوى الأحرف الفحص السطحي الأساسي.
`equivalent_match_rate`	0.15	يوفر تطابق الصيغ تقييم جودة منظمًا دون الحاجة إلى أدوات صرفية.
`exact_match_rate`	0.10	بدون FST، يحمل التطابق التام وزنًا أكبر بوصفه المؤشر التقريبي الوحيد للتحقق البنيوي.
`code_switching_rate`	0.10	يصبح تسرب اللغة المصدر أكثر أهمية عندما لا يوجد FST لالتقاط المخرجات السيئة.
`terminology_adherence`	0.05	الامتثال للمفردات الموجَّهة.
`hallucination_rate`	0.05	اكتشاف المحتوى المختلَق.
`orthographic_accuracy`	0.05	تسد الصحة الخاصة بنظام الكتابة جزءًا من الفجوة الناجمة عن غياب FST.

المجموع: 1.00. orthographic_accuracy (بوزن 0.05) مخطط لكنه غير محسوب بعد. ومع غيابه، تُضرب المقاييس السبعة المتبقية (مجموع أوزانها 0.95) في 1/0.95 ≈ 1.053 — وهو تأثير لا يُذكر على المركّب.

ملاحظة حول تطور الأوزان. هذه الأوزان مؤقتة وستُعاد معايرتها مع تراكم بيانات التحقق البشري. والهدف بعيد المدى هو اشتقاق الأوزان تجريبيًا: أي المقاييس الآلية يتنبأ بأحكام الجودة البشرية على نحو أفضل لكل عائلة لغوية؟

4.4 إضافة مقياس جديد إلى المركّب

لإضافة مقياس جديد إلى المركّب:

عرّفه في §2 بحالة 🔲 Planned، شاملًا النطاق والمستوى وطريقة الحساب.
نفّذه كـ MetricPlugin (أو في tester.py للمقاييس الأساسية).
أضف عنصرًا نائبًا فارغًا في كتلة الدرجات في بطاقة التشغيل.
عيّن له وزنًا مستهدفًا في §4.3 بتعديل الأوزان القائمة نزولًا. يجب أن يساوي مجموع الأوزان 1.00.
حدّث BENCHMARK_SPEC.md §3 إذا تغيّر مخطط بطاقة التشغيل.
حدّث جداول الأوزان في scoring.py (يجب أن تعكس الشيفرة هذه الوثيقة).
شغّل قياسًا معياريًا للتحقق لتأكيد أن المقياس ينتج قيمًا منطقية على بيانات حقيقية.
حدّث هذه الوثيقة لتغيير الحالة من 🔲 إلى ✅.

5. مستويات الجودة

هذه المستويات تصنيفات استدلالية للدرجات المركّبة الآلية. وهي تصف ما تعنيه الدرجات عادةً في الممارسة العملية، استنادًا إلى مراجعة بشرية للمخرجات عند كل مستوى. وهي ليست أحكام جودة محققة — فالمراجعة البشرية وحدها يمكنها تأكيد قابلية الاستخدام الفعلية.

[!IMPORTANT] المستويات الآلية مؤقتة. هذه التصنيفات ترشيحات للمراجعة، وليست إعلانات جودة. فالطريقة التي تصل إلى «قابل للنشر» وفق المقاييس الآلية هي مرشحة للتقييم المجتمعي — وليست منتجًا جاهزًا للشحن. المراجعة البشرية من قبل متحدثين ثنائيي اللغة وحدها يمكنها تأكيد قابلية الاستخدام الفعلية (انظر BENCHMARK_SPEC §7). لا يمكن لأي طريقة ادعاء «قابل للنشر» أو أعلى دون مراجعة مجتمعية تؤكد اتفاق المتحدثين على أن الناتج قابل للاستخدام. وقد تختلف حدود المستويات بين اللغات مع تراكم بيانات التحقق البشري.

المستوى	نطاق المركّب	ما يراه المتحدث عادةً
أساسي (Baseline)	0.00–0.30	ناتج خام من نموذج لغوي كبير دون أي دعم خاص باللغة. الصرف في معظمه مُهلوَس.
ناشئ (Emerging)	0.30–0.50	بعض الأنماط الصحيحة بدأت تظهر. التوجيه يساعد، لكن الناتج غير موثوق.
وظيفي (Functional)	0.50–0.70	الناتج يمكن للمتحدث تمييزه. الفئات النحوية الرئيسية صحيحة عادةً. أخطاء صرفية متكررة.
قابل للنشر (Deployable)	0.70–0.85	مناسب للترجمة المسوّدة مع مراجعة بشرية. معظم الصرف صحيح.
سلس (Fluent)	0.85–1.00	يقترب من ترجمة بشرية كفؤة. الأخطاء نادرة وطفيفة.

هذه المستويات مؤقتة. وستُعاد معايرتها مع تراكم بيانات التحقق البشري ومعرفة أين تقع فعليًا عتبة «المتحدث يجد هذا مفيدًا» لكل لغة. لا يمكن لأي طريقة ادعاء قابل للنشر أو أعلى دون مراجعة مجتمعية تؤكد اتفاق المتحدثين ثنائيي اللغة على أن الناتج قابل للاستخدام.

5.1 عتبات المستويات (قابلة للقراءة آليًا)

لتنفيذات الشيفرة، العتبات هي (تُقيَّم من الأعلى إلى الأسفل، وأول تطابق يفوز):

composite >= 0.85  →  "fluent"
composite >= 0.70  →  "deployable"
composite >= 0.50  →  "functional"
composite >= 0.30  →  "emerging"
composite >= 0.00  →  "baseline"
composite is null  →  "unscored"

6. مقاييس التكلفة

تقيس مقاييس التكلفة الكفاءة المالية لطريقة الترجمة. ويُبلَّغ عنها بشكل منفصل عن الجودة — فالتكلفة لا تؤثر في الدرجة المركّبة (باستثناء الترتيب الثانوي المعدَّل حسب التكلفة).

6.1 مقاييس الرموز (Tokens)

المعرّف	المقياس	الحساب
`prompt_tokens`	إجمالي رموز الإدخال	مجموع `usage.prompt_tokens` عبر جميع استدعاءات API
`completion_tokens`	إجمالي رموز الإخراج	مجموع `usage.completion_tokens`
`reasoning_tokens`	رموز سلسلة التفكير	مجموع `usage.completion_tokens_details.reasoning_tokens` (0 لمعظم النماذج)
`cached_tokens`	الرموز المخزّنة مؤقتًا لدى المزوّد	مجموع `usage.prompt_tokens_details.cached_tokens`
`total_tokens`	إجمالي الرموز المستهلكة	`prompt_tokens + completion_tokens`
`tokens_per_entry`	متوسط الرموز لكل ترجمة	✅ `total_tokens / entry_count`

6.2 مقاييس التكلفة

المعرّف	المقياس	الحساب	حالة الاستخدام
`total_cost_usd`	تكلفة العملية الإجمالية	التسعير المبلَّغ عنه من المزوّد × عدد الرموز	«كم كلّف هذا القياس المعياري؟»
`cost_per_entry_usd`	التكلفة لكل إدخال في المدوّنة	`total_cost_usd / entry_count`	مقارنة الطرق على المدوّنة نفسها
`cost_per_1k_tokens`	التكلفة لكل 1,000 رمز	✅ `total_cost_usd / total_tokens × 1000`	كفاءة عامة للنماذج اللغوية الكبيرة — قابلة للمقارنة عبر المدوّنات
`cost_per_source_char`	التكلفة لكل حرف مصدري	`total_cost_usd / total_source_chars`	قابلة للمقارنة عبر اللغات ذات أنظمة الترميز المختلفة

لماذا مقاييس تكلفة متعددة؟ يتفاوت «الإدخال» في طوله — فعبارة من 3 كلمات تكلف أقل من فقرة. cost_per_entry_usd مفيد لمقارنة الطرق على المدوّنة نفسها (نفس الإدخالات = نفس الأطوال = مقارنة عادلة). cost_per_1k_tokens هو مقياس كفاءة النماذج اللغوية الكبيرة القياسي، وهو قابل للمقارنة عبر المدوّنات. cost_per_source_char يُطبّع لاختلافات الترميز — فالجملة نفسها قد تُرمَّز إلى أعداد مختلفة من الرموز بحسب مفردات النموذج.

6.3 الدرجة المعدَّلة حسب التكلفة

للطرق التي تستخدم واجهات API مدفوعة، نحسب ترتيبًا ثانويًا:

cost_adjusted = composite / log2(1 + cost_per_entry_usd × 1000)

هذا يكافئ الطرق التي تحقق درجات جيدة بكفاءة. ويستخدم cost_per_entry_usd (وليس لكل رمز) لأن الدرجة المعدَّلة حسب التكلفة تُحسب دائمًا ضمن قياس معياري واحد (مدوّنة واحدة)، مما يجعل المقارنة لكل إدخال عادلة.

الدرجة المعدَّلة حسب التكلفة هي ترتيب ثانوي — فلوحة المتصدرين الأساسية ترتّب حسب الدرجة المركّبة. وهي تجيب عن سؤال مختلف: «في حدود ميزانية معينة، أي طريقة تعطي أفضل النتائج؟»

7. مقاييس السرعة

تقيس مقاييس السرعة زمن الاستجابة والإنتاجية لطريقة الترجمة. ومثل التكلفة، لا تؤثر السرعة في الدرجة المركّبة.

المعرّف	المقياس	الحساب	المستوى
`elapsed_seconds`	مدة العملية بالوقت الفعلي	`time_end - time_start`	العملية
`avg_latency_seconds`	متوسط زمن الاستجابة لكل إدخال	`Σ latency_s / n_entries`	المدوّنة
`median_latency_seconds`	وسيط زمن الاستجابة لكل إدخال	المئين الخمسون من `latency_s`	المدوّنة
`p95_latency_seconds`	زمن الاستجابة عند المئين 95	المئين الخامس والتسعون من `latency_s`	المدوّنة
`tokens_per_second`	الإنتاجية	`total_tokens / elapsed_seconds`	العملية
`entries_per_minute`	معدل الترجمة	`entry_count / (elapsed_seconds / 60)`	العملية

8. الثقة والدلالة الإحصائية

8.1 فترات الثقة بإعادة المعاينة التمهيدية (Bootstrap)

تدعم جميع المقاييس الرئيسية فترات الثقة بطريقة إعادة المعاينة التمهيدية (طريقة المئينات، n=1000 إعادة معاينة، α=0.05):

المقياس	فترة الثقة المبلَّغ عنها
`chrf_plus_plus`	✅ `chrf_ci_lower`، `chrf_ci_upper`
`exact_match_rate`	✅ `exact_match_ci_lower`، `exact_match_ci_upper`
`fst_acceptance_rate`	✅ `fst_ci_lower`، `fst_ci_upper` (تُحسب فقط عند وجود بيانات FST)
`comet_score`	✅ `comet_ci_lower`، `comet_ci_upper` (بإعادة المعاينة التمهيدية من درجات مخزّنة مؤقتًا لكل إدخال — دون استدلال عصبي زائد)
`composite`	✅ `composite_ci_lower`، `composite_ci_upper` (تُحسب عند توفر chrF++ وexact_match)
فترات الثقة لكل مستوى	✅ `confidence_intervals_by_tier` — فترات ثقة chrF++ وexact_match لكل مستوى صعوبة (المستويات 1-5)

8.2 اختبارات الدلالة الإحصائية بإعادة المعاينة التمهيدية المزدوجة

لمقارنة طريقتين، يحسب نظام التقييم اختبارات إعادة معاينة تمهيدية مزدوجة:

H₀: The two methods perform equally on this corpus.
H₁: One method is significantly better.

إذا كانت القيمة الاحتمالية (p-value) < 0.05 واستبعدت فترة الثقة للفرق الصفر، يكون الفرق دالًا إحصائيًا عند مستوى 95%.

9. مخطط درجات بطاقة التشغيل

يحدد هذا القسم البنية الهرمية لكتلة scores في بطاقة التشغيل. هذا المخطط مشتق من المقاييس المعرّفة في §2–§7 ويجب إبقاؤه متزامنًا.

{
  "scores": {
    // §2.1 Surface metrics
    "exact_match_rate":       0.6613,       // 0.0–1.0
    "exact_matches":          41,           // count
    "equivalent_match_rate":  0.7258,       // ⚡ partial (CRK: eval_standards/crk CrkLinterMetric)
    "equivalent_matches":     45,           // ⚡ partial (CRK: eval_standards/crk CrkLinterMetric)
    "chrf_plus_plus":         80.65,        // 0–100 (sacrebleu native scale)
    "bleu":                   54.78,        // 0–100, NOT in composite
    "ter":                    42.3,         // ✅ implemented, 0–∞ (lower=better)
    "length_ratio":           1.03,         // ✅ implemented, ideal=1.0

    // §2.2 Structural metrics
    "fst_acceptance_rate":    1.0,          // 0.0–1.0
    "fst_accepted":           74,           // count
    "morphological_accuracy": null,         // 🔲 planned
    "orthographic_accuracy":  null,         // 🔲 planned

    // §2.3 Semantic metrics
    "semantic_score":         0.6842,       // ⚡ partial (CRK: eval_standards/crk CrkSemanticMetric)
    "comet_score":            null,         // nullable, NOT in composite
    "comet_model":            "",           // model ID used for COMET

    // §2.4 Behavioral metrics
    "code_switching_rate":    0.03,         // ✅ implemented (lower=better)
    "hallucination_rate":     0.01,         // ✅ implemented (lower=better)
    "terminology_adherence":  null,         // ✅ implemented (null when no glossary)
    "consistency_score":      null,         // 🔲 planned

    // §4 Composite
    "composite":              0.8988,       // 0.0–1.0
    "quality_tier":           "fluent",     // §5 tier label
    "cost_adjusted":          null,         // §6.3 secondary ranking

    // §7 Speed metrics (merged into scores block)
    "tokens_per_second":      4462.5,       // ✅ total_tokens / elapsed
    "entries_per_minute":     82.30,        // ✅ entry_count / (elapsed/60)
    "avg_latency_seconds":    0.234,
    "median_latency_seconds": 0.190,
    "p95_latency_seconds":    0.415,

    // §8.1 Confidence intervals
    "confidence_intervals": {
      "chrf_plus_plus":     { "ci_lower": 78.2, "ci_upper": 83.1 },
      "exact_match_rate":   { "ci_lower": 0.54, "ci_upper": 0.78 },
      "corpus_comet":       { "ci_lower": 0.71, "ci_upper": 0.76 }
    },
    "confidence_intervals_by_tier": {
      "1": { "corpus_chrf": { "ci_lower": 68.1, "ci_upper": 76.5 } },
      "3": { "corpus_chrf": { "ci_lower": 36.2, "ci_upper": 47.0 } }
    },

    // Breakdowns
    "by_difficulty":          {},           // scores grouped by difficulty tier
    "by_provenance":          {},           // scores grouped by entry provenance

    // Counts
    "total":                  62,
    "evaluated":              62,
    "errors":                 0
  },

  "totals": {
    // §6.1 Token metrics
    "prompt_tokens":          13985,
    "completion_tokens":      187822,
    "reasoning_tokens":       175726,
    "cached_tokens":          0,
    // §6.2 Cost metrics
    "total_cost_usd":         1.7114,
    "cost_per_entry_usd":     0.027603,
    "cost_per_source_char":   null          // 🔲 needs source char counting
  }
}

تاريخ المخطط. اقترحت مسودات المواصفات السابقة كتلًا منفصلة لـ cost وspeed وtokens. دُمجت هذه في scores وtotals على التوالي تبسيطًا. تقع مقاييس السرعة (tokens_per_second، entries_per_minute، أزمنة الاستجابة) في scores؛ وتقع أعداد الرموز وأرقام التكلفة في totals.

9.1 الربط بين المخطط وقاعدة البيانات

يُخزَّن ملف JSON لبطاقة التشغيل بالكامل كعمود jsonb في Supabase. كما تُفكَّك المقاييس الرئيسية إلى أعمدة في المستوى الأعلى لتحسين أداء الفرز/التصفية:

حقل بطاقة التشغيل	عمود Supabase	النوع	الفهرس
`scores.composite`	`composite_score`	`real`	`idx_composite`
`scores.quality_tier`	`quality_tier`	`text`	—
`scores.chrf_plus_plus`	`chrf_plus_plus`	`real`	`idx_leaderboard`
`scores.exact_match_rate`	`exact_match_rate`	`real`	—
`scores.fst_acceptance_rate`	`fst_acceptance_rate`	`real`	—
`scores.bleu`	`corpus_bleu`	`real`	—
`scores.comet_score`	`comet_score`	`real`	—
`totals.total_cost_usd`	`total_cost_usd`	`real`	—
`totals.cost_per_entry_usd`	`cost_per_entry_usd`	`real`	—
`totals.cost_per_source_char`	`cost_per_source_char`	`real`	—
`scores.avg_latency_seconds`	`avg_latency_seconds`	`real`	—
`model_slug`	`model_slug`	`text`	`idx_model`
`condition`	`condition`	`text`	—
`dataset.id`	`dataset_id`	`text`	`idx_leaderboard`
`dataset.language_pair`	`language_pair`	`text`	—
`fingerprint.hash`	`fingerprint_hash`	`text`	`idx_fingerprint`
`scores.equivalent_match_rate`	`equivalent_match_rate`	`real`	—
`scores.semantic_score`	`semantic_score`	`real`	—
`scores.ter`	`ter`	`real`	—
`scores.length_ratio`	`length_ratio`	`real`	—
`scores.code_switching_rate`	`code_switching_rate`	`real`	—
`scores.hallucination_rate`	`hallucination_rate`	`real`	—
`scores.terminology_adherence`	`terminology_adherence`	`real`	—
`scores.tokens_per_second`	`tokens_per_second`	`real`	—
`scores.entries_per_minute`	`entries_per_minute`	`real`	—
`elapsed_seconds`	`elapsed_seconds`	`real`	—
(البطاقة الكاملة)	`run_card`	`jsonb`	—

عند تنفيذ مقاييس جديدة، ينبغي إضافة العمود المقابل عبر ترحيل مرقّم في arena/migrations/.

10. التزامن بين الشيفرة والمواصفات

10.1 المصدر الموثوق

هذه الوثيقة (arena/website/docs/specifications/scoring.md) هي المصدر الموثوق لـ:

تعريفات المقاييس (§2)
جداول الأوزان المركّبة (§4.3)
عتبات مستويات الجودة (§5.1)
صيغ مقاييس التكلفة (§6.2)
مخطط درجات بطاقة التشغيل (§9)

10.2 المرآة البرمجية

يعكس الملف arena/mt_eval_harness/scoring.py جداول الأوزان وعتبات المستويات من هذه الوثيقة. وهو التنفيذ البرمجي لـ §4.3 و§5.1. عند تحديث هذه الوثيقة:

حدّث scoring.py ليطابقها
شغّل pytest tests/test_scoring_ssot.py للتحقق من التوافق
حدّث الأسئلة الشائعة ووثائق الموقع التي تلخّص الأوزان

10.3 الوثائق التي تشير إلى هذه المواصفات

الوثيقة	ما تشير إليه	كيفية الحفاظ على التزامن
`arena/website/docs/specifications/benchmark-spec.md` §4–§5	الصيغة المركّبة، جداول الأوزان، عتبات المستويات	الإحالة إلى هذه الوثيقة؛ لا تكرار للجداول
`website/docs/getting-started/faq.md`	ملخص مبسّط للأوزان	يجب أن يطابق §4.3؛ مع رابط يعود إلى هذه الوثيقة
`arena/website/docs/how-it-works.md`	عتبة «قابل للنشر»	يجب أن تطابق §5
`publish.py` عبر `scoring.py`	قواميس الأوزان + دالة المستويات	اختبار آلي يتحقق من التطابق

الملحق A: المقاييس غير المضمَّنة في المركّب (والأسباب)

المقياس	سبب الاستبعاد
BLEU	التسجيل على مستوى الكلمات يعاقب التباين الصرفي في اللغات متعددة التركيب. فاختلاف تصريفي طفيف (معنى صحيح، لاحقة مختلفة قليلًا) يُحتسب إخفاقًا كاملًا. يتعامل chrF++ مع ذلك أفضل على مستوى الأحرف.
COMET	مدرَّب على بيانات WMT (أزواج أوروبية وفيرة الموارد). الدرجات للغات محدودة الموارد غير موثوقة — فالنموذج يستقرئ من لغات ذات أنظمة صرفية مختلفة. يُبلَّغ عنه للشفافية، لا للتسجيل.
TER	ترتبط مسافة التحرير بـ chrF++ في معظم حالات الاستخدام. وتضمين كليهما يعني احتساب التشابه السطحي مرتين. يُبلَّغ عن TER للمرجعية.
نسبة الطول	أداة تشخيصية، لا إشارة جودة. فنسبة 1.02 ونسبة 0.98 كلتاهما مقبولتان. القيم المتطرفة فقط تشير إلى مشكلات.
درجة الاتساق	على مستوى المدوّنة فقط — لا قيمة لكل إدخال يمكن تجميعها. كما أن بعض عدم الاتساق مشروع (الكلمة الإنجليزية نفسها → ترجمات مختلفة في اللغة الهدف بحسب السياق).
مؤشر الامتثال	بوابة جودة، لا إشارة جودة. يقيس الحفاظ البنيوي (العناصر النائبة، علامات الاقتباس)، لا دقة الترجمة.

الملحق B: LYSS — تنفيذات المقاييس الخاصة باللغة

يوفر إطار LYSS ‏(Linguistically-informed Yield & Structural Scoring) مقاييس خاصة باللغة تتجاوز مقارنة السلاسل النصية السطحية. يتكون LYSS من ثلاثة مكونات أساسية:

LYSS-fst — الصلاحية الصرفية (fst_acceptance_rate): هل كل كلمة صيغة صحيحة في اللغة الهدف؟
LYSS-eq — التكافؤ اللغوي (equivalent_match_rate): هل الناتج صيغة مقبولة من المرجع؟
LYSS-sem — التحقق الدلالي (semantic_score): هل يحافظ الناتج على معنى المصدر؟

حالة التحقق: 🔶 استدلال هندسي. لم يتم التحقق من مقاييس LYSS مقابل أحكام الجودة البشرية. وهي مصممة انطلاقًا من مبادئ لغوية (محوّلات FST، والقواميس، وقواعد النحو التي بناها لغويون في UAlberta ALTLab)، لكن الارتباط بين درجات LYSS وجودة الترجمة الفعلية لم يُقَس. انظر بروتوكول التحقق من المتحدثين للاطلاع على تجارب التحقق المطلوبة.

اللغة	الإضافة	الموقع	مكوّن LYSS	مفتاح المقياس	ملاحظات
CRK (Plains Cree)	`CrkLinterMetric`	`eval_standards/crk/metrics.py`	LYSS-eq	`equivalent_match_rate`	قواعد حتمية لفئات الصيغ: ترتيب الكلمات، الإملاء، الأداة الاختيارية، مرادف الجذر المعجمي، التباس الصيغة المستمرة، صيغة الشمول/الاستثناء. ينتج `lint_verdict` لكل إدخال (EXACT/EQUIVALENT/MISS/NO_OUTPUT).
CRK	`CrkSemanticMetric`	`eval_standards/crk/metrics.py`	LYSS-sem	`semantic_score`	حتمي: استخراج الجذور المعجمية بـ FST + شروح القاموس + تداخل كلمات المحتوى عبر spaCy. ينتج أحكامًا (EXACT_MATCH/VALID/GRAMMAR_ISSUES/PARTIAL/INCOMPLETE/WRONG/NO_OUTPUT).
لغات GiellaLT	`GiellaLTFSTMetric`	`plugins/giellalt_fst.py`	LYSS-fst	`fst_acceptance_rate`	عام: يعمل للغات CRK وSME وSMA وSMJ وSMN وSMS وFIN وNOB وIKU — أي لغة لديها محلّل `.hfstol`.

ملاحظة معمارية (يونيو 2026). تُعلن مقاييس LYSS الخاصة باللغة الآن في بطاقة اللغة ضمن evalMetrics وتُحمَّل من eval_standards/<lang>/ بواسطة plugin_discovery.py. وهي معايير تقييم (حَكَم)، وليست مقاييس إضافات طرق (متسابق). وهذا يعني أن أي طريقة ترجمة تستهدف CRK تُسجَّل تلقائيًا بواسطة LYSS — دون حاجة إلى تكوين خاص بالطريقة. أُزيل CrkFSTMetric؛ ووظيفته مغطاة بالكامل بواسطة GiellaLTFSTMetric العام.

الملحق C: مقاييس قيد الدراسة

هذه أفكار يجري تقييمها لكنها لم تُحدد مواصفاتها بما يكفي لإدراجها في §2:

الفكرة	ما الذي ستقيسه	العوائق
السلاسة (حيرة النموذج اللغوي)	هل الناتج نثر سليم التكوين في اللغة الهدف؟	يتطلب نموذجًا لغويًا للغة الهدف. لا توجد نماذج جيدة لمعظم اللغات محدودة الموارد.
تطابق السجل اللغوي	هل تطابق الترجمة مستوى الرسمية المتوقع؟	يتطلب مصنّفات اجتماعية لغوية. مشكلة بحثية.
الملاءمة الثقافية	هل تُعالَج الإشارات الثقافية بشكل صحيح؟	لا يمكن أتمتته — يتطلب بطبيعته مراجعة بشرية.
الاتساق الخطابي	هل تشكّل الترجمات المتتالية مقطعًا متماسكًا؟	يتطلب تقييمًا على مستوى المستند، لا على مستوى الجملة.

المراجع

الأوراق الأكاديمية والأدوات والموارد اللغوية المُستشهد بها في هذه المواصفات.

المقاييس السطحية

Popović, M. (2017). "chrF++: words helping character n-grams." Proceedings of the Second Conference on Machine Translation (WMT 2017), pp. 612–618. Copenhagen, Denmark.
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). "BLEU: a method for automatic evaluation of machine translation." Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002), pp. 311–318. Philadelphia, PA.
Post, M. (2018). "A Call for Clarity in Reporting BLEU Scores." Proceedings of the Third Conference on Machine Translation (WMT 2018), pp. 186–191. Belgium, Brussels. التنفيذ المرجعي: sacrebleu.
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). "A Study of Translation Edit Rate with Targeted Human Annotation." Proceedings of the 7th Conference of the Association for Machine Translation in the Americas (AMTA 2006), pp. 223–231. Cambridge, MA.

المقاييس العصبية

Rei, R., Stewart, C., Farinha, A. C., & Lavie, A. (2020). "COMET: A Neural Framework for MT Evaluation." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020), pp. 2685–2702. Online.
Juraska, J., Finkelstein, M., Deutsch, D., Siddhant, A., Miber, D., & Markl, A. (2023). "MetricX-23: The Google Submission to the WMT 2023 Metrics Shared Task." Proceedings of the Eighth Conference on Machine Translation (WMT 2023). Singapore.
Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). "BERTScore: Evaluating Text Generation with BERT." Proceedings of the Eighth International Conference on Learning Representations (ICLR 2020). Addis Ababa, Ethiopia.
Sellam, T., Das, D., & Parikh, A. (2020). "BLEURT: Learning Robust Metrics for Text Generation." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), pp. 7881–7892. Online.

الأدوات الصرفية واللغوية

Lindén, K., Silfverberg, M., Axelson, E., Hardwick, S., & Pirinen, T. (2011). "HFST—Framework for Compiling and Applying Morphologies." Systems and Frameworks for Computational Morphology (SFCM 2011), Communications in Computer and Information Science, vol. 100, pp. 67–85. Springer, Berlin, Heidelberg.
Sánchez-Cartagena, V. M., & Toral, A. (2024). "MorphEval: Automatic Evaluation of Morphological Capabilities of Machine Translation Systems." Machine Translation, vol. 38, pp. 1–28.

تصنيف الأخطاء والتقييم التشخيصي

Popović, M. (2011). "Hjerson: An Open Source Tool for Automatic Error Classification of Machine Translation Output." The Prague Bulletin of Mathematical Linguistics, no. 96, pp. 59–68.
Dreyer, M. & Marcu, D. (2012). "HyTER: Meaning-Equivalent Semantics for Translation Evaluation." Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL 2012), pp. 162–171. Montréal, Canada.
Reiter, E. & Belz, A. (2009). "An Investigation into the Validity of Some Metrics for Automatically Evaluating Natural Language Generation Systems." Computational Linguistics, vol. 35, no. 4, pp. 529–558. (أعمال ذات صلة بمقاييس التقييم القائمة على السمات، بما فيها FUSE.)

اكتشاف الهلوسة

Raunak, V., Menezes, A., & Junczys-Dowmunt, M. (2021). "The Curious Case of Hallucinations in Neural Machine Translation." Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL 2021), pp. 1172–1183. Online.
Guerreiro, N. M., Voita, E., & Martins, A. F. T. (2023). "Looking for a Needle in a Haystack: A Comprehensive Study of Hallucinations in Neural Machine Translation." Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023), pp. 1059–1075. Dubrovnik, Croatia.

موارد لغة الكري

Wolfart, H. C. (1973). "Plains Cree: A Grammatical Study." Transactions of the American Philosophical Society, vol. 63, no. 5, pp. 1–90.
Wolvengrey, A. (2001). nêhiyawêwin: itwêwina / Cree: Words. Canadian Plains Research Center, University of Regina.

حوكمة البيانات

First Nations Information Governance Centre. "The First Nations Principles of OCAP®." https://fnigc.ca/ocap-training/. ‏(OCAP® علامة تجارية مسجلة لمركز First Nations Information Governance Centre.)
Carroll, S. R., Garba, I., Figueroa-Rodríguez, O. L., Holbrook, J., Lovett, R., Materechera, S., Parsons, M., Raseroka, K., Rodriguez-Lonebear, D., Rowe, R., Sara, R., Walker, J. D., Anderson, J., & Hudson, M. (2020). "The CARE Principles for Indigenous Data Governance." Data Science Journal, vol. 19, no. 1, p. 43.

1. فلسفة التسجيل​

1.1 فلسفة التقييم الدقيق (Microeval)​

1.2 المقاييس الآلية مجرد مؤشرات تقريبية​

1.3 تصميم متعدد الإشارات​

1.4 القابلية للتوسعة​

1.5 أبعاد التقييم الثلاثة​

1.6 حالة التحقق من الصحة​

2. قائمة المقاييس​

2.1 المقاييس السطحية​

2.2 المقاييس البنيوية​

2.3 المقاييس الدلالية​

2.4 المقاييس السلوكية​

2.5 مقاييس الامتثال​

3. مستويات حالة المقاييس​

4. الدرجة المركّبة​

4.1 الصيغة​

4.2 تطبيع المدخلات​

4.3 جداول الأوزان​

الملف A: اللغات التي تتمتع بتغطية FST​

الملف B: اللغات بدون تغطية FST​

4.4 إضافة مقياس جديد إلى المركّب​

5. مستويات الجودة​

5.1 عتبات المستويات (قابلة للقراءة آليًا)​

6. مقاييس التكلفة​

6.1 مقاييس الرموز (Tokens)​

6.2 مقاييس التكلفة​

6.3 الدرجة المعدَّلة حسب التكلفة​

7. مقاييس السرعة​

8. الثقة والدلالة الإحصائية​

8.1 فترات الثقة بإعادة المعاينة التمهيدية (Bootstrap)​

8.2 اختبارات الدلالة الإحصائية بإعادة المعاينة التمهيدية المزدوجة​

9. مخطط درجات بطاقة التشغيل​

9.1 الربط بين المخطط وقاعدة البيانات​

10. التزامن بين الشيفرة والمواصفات​

10.1 المصدر الموثوق​

10.2 المرآة البرمجية​

10.3 الوثائق التي تشير إلى هذه المواصفات​

الملحق A: المقاييس غير المضمَّنة في المركّب (والأسباب)​

الملحق B: LYSS — تنفيذات المقاييس الخاصة باللغة​

الملحق C: مقاييس قيد الدراسة​

المراجع​

المقاييس السطحية​

المقاييس العصبية​

الأدوات الصرفية واللغوية​

تصنيف الأخطاء والتقييم التشخيصي​

اكتشاف الهلوسة​

موارد لغة الكري​

حوكمة البيانات​