الانتقال إلى المحتوى الرئيسي

مواصفة المعيار المرجعي

الملخص التنفيذي. تُعرِّف هذه الوثيقة بروتوكول التقييم لمنظومة تقييم الترجمة الآلية في مشروع Champollion: صيغة المدوّنة (§2)، ومخطط بطاقة التشغيل (§3)، وبروتوكول المعيار المرجعي (§6)، ومتطلبات التحقق البشري (§7)، وآليات السيادة (§8)، ونموذج لوحة المتصدرين والتقديم (§9)، وإطار التكلفة (§10)، وقابلية التوسع إلى لغات جديدة (§11). للاطلاع على تعريفات المقاييس، وأوزان حساب composite score، وعتبات مستويات الجودة، وصيغ مقاييس التكلفة/السرعة، راجع SCORING_SPEC.md — المصدر الوحيد للحقيقة فيما يخص كل منطق التقييم. تُحيل هذه الوثيقة إلى SCORING_SPEC في تلك التفاصيل بدلاً من تكرارها.

آخر تحديث: 2026-06-07


1. المبادئ

1.1 المقاييس الآلية مؤشرات تقريبية

كل مقياس مُعرَّف في هذه الوثيقة يُحسب آليًا. chrF++، ومعدل قبول FST، والدقة الصرفية، والتشابه الدلالي — جميعها مؤشرات آلية تقريبية لجودة الترجمة. وهي مفيدة للتكرار السريع، والمقارنة المنهجية، واكتشاف التراجعات. لكنها ليست بديلاً عن الحكم البشري.

التسلسل الهرمي للتقييم:

Automated metrics (run cards, benchmarks)
↓ proxy for
Human review (bilingual speakers validate output)
↓ proxy for
Actual utility (does this help a language community?)

لا يمكن لأي درجة آلية، مهما كانت مرتفعة، أن تحل محل متحدث يجيد اللغة يقرأ المخرجات ويؤكد أنها صحيحة وطبيعية وملائمة ثقافيًا. مستويات الجودة المُعرَّفة في §5 هي تسميات استدلالية تُطبَّق على درجات composite الآلية — مفيدة لتتبع التقدم، لكنها لا تكفي بمفردها أبدًا.

1.2 طرائق لا نماذج

نحن نُجري المعايرة المرجعية على الطرائق، لا على النماذج. النموذج مكوِّن واحد فقط. أما الطريقة فهي الوصفة الكاملة: اختيار النموذج، وتصميم الموجِّهات، واستخدام الأدوات، والمعالجة القبلية/البعدية، وبيانات التدريب التوجيهي، واستراتيجيات إعادة المحاولة، وكل شيء. فريقان يستخدمان النموذج نفسه بطريقتين مختلفتين سيحصلان على درجات مختلفة. وهذا هو المقصود.

1.3 قابلية إعادة الإنتاج

يجب أن تكون كل نتيجة معيارية قابلة لإعادة الإنتاج. تُسجِّل بطاقة التشغيل (§3) التكوين الكامل للتجربة. وتُحدِّد البصمة (§3.5) هوية الإعداد التجريبي. ويتحقق هاش بطاقة التشغيل (§3.6) من سلامة النتيجة. ينبغي لأي شخص لديه الطريقة نفسها والمدوّنة نفسها والتكوين نفسه أن يحقق درجات ضمن نطاق ±2% (مع مراعاة عدم حتمية أخذ العينات في النماذج اللغوية الكبيرة عند temperature > 0).

1.4 لا بيانات تقييم اصطناعية

هذا المشروع لا يُولِّد بيانات تقييم اصطناعية ولا يستخدمها ولا يُقرّها. يجب أن تُستمد جميع المدوّنات من نصوص حقيقية من تأليف بشري — ترجمات منشورة، أو كتب دراسية، أو وثائق ثنائية اللغة، أو ترجمات مُستخلَصة من متحدثين يجيدون اللغة.

يجوز أن تساعد النماذج اللغوية الكبيرة في:

  • محاذاة الجمل (إيجاد المقاطع المتوازية في نصوص ثنائية اللغة قائمة)
  • تحويل الصيغ (تحويل المواد المنشورة إلى مخطط المدوّنة)
  • إثراء البيانات الوصفية (اقتراح مستويات الصعوبة وتسميات السجل اللغوي)
  • اقتراح جمل مصدرية للترجمة البشرية (§11.3 — خطوة الترجمة بشرية دائمًا)

ويُحظر على النماذج اللغوية الكبيرة حظرًا تامًا توليد الترجمات المرجعية أو أزواج التقييم.

نحن محايدون فيما يخص بيانات تدريب الطرائق. إذا استخدم مطوِّر طريقةٍ بيانات تدريب اصطناعية أو ترجمة عكسية أو تعزيز بيانات في طريقته، فذلك خياره — نحن نقيِّم المخرجات لا عملية التدريب. يستخدم نموذج OMT-1600 من Meta نحو 270 مليون جملة متوازية اصطناعية مُولَّدة عبر الترجمة العكسية. لا اعتراض لدينا على الطرائق المدرَّبة بهذا الأسلوب. نحن نختبر على بيانات منسّقة بشريًا فقط.

لماذا لا نستخدم النص التوراتي في التقييم؟ يُقيِّم OMT-1600 ما عدده 1,560 لغة من أصل 1,600 على نصوص من النطاق التوراتي. تتسم الترجمات التوراتية بسجل لغوي قديم ومفردات طقسية وبنية جمل نمطية. أما مدوّنات التقييم لدينا فمستمدة من نصوص منسّقة مجتمعيًا ومتنوعة النطاقات — الصحة، والقانون، والتعليم، والشؤون الحكومية، والمحادثة، والتقنية (انظر §2.7). وهذا خيار تصميمي مقصود. تحتاج المجتمعات إلى الترجمة في النطاقات التي تعيش وتعمل فيها فعلاً، لا في سجل ديني واحد. فالطريقة التي تحقق درجة عالية على سفر التكوين 1:1 لا تخبرك شيئًا تقريبًا عن أدائها على جدول أعمال مجلس قبلي أو نموذج استقبال في عيادة.


2. مخطط المدوّنة

المدوّنة هي مجموعة منسّقة من أزواج النصوص المتوازية مع بيانات وصفية منظمة. وهي الحقيقة المرجعية التي تُقاس عليها جميع الطرائق.

2.1 الغلاف العام لمجموعة البيانات

البنية العليا لملف المدوّنة:

{
"dataset": {
"id": "edtekla-dev-v1",
"version": "1.0",
"language_pair": "EN→CRK",
"source_language": "en",
"target_language": "crk",
"created": "2026-05-01",
"license": "CC-BY-NC-SA-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [ ... ]
}
الحقلالنوعمطلوبالوصف
idstringمُعرِّف فريد لمجموعة البيانات، يُستخدم في بطاقات التشغيل ولوحة المتصدرين
versionstringإصدار دلالي. زيادته تُبطل المقارنات مع بطاقات التشغيل السابقة
language_pairstringتسمية العرض (مثل EN→CRK)
source_languagestringرمز لغة المصدر وفق BCP 47
target_languagestringرمز اللغة الهدف وفق BCP 47
createdstringتاريخ الإنشاء وفق ISO 8601
licensestringمُعرِّف الترخيص وفق SPDX
provenancestring[]قائمة وسوم المصدر المستخدمة عبر الإدخالات

2.2 مخطط الإدخال

يمثل كل إدخال في المدوّنة تحديًا ترجميًا واحدًا:

{
"id": 42,
"source": "I see the dog",
"reference": "niwâpamâw atim",
"segment": "gold_standard",
"difficulty": 2,
"provenance": "gold_standard",
"register": "conversational",
"context": "declaration",
"morphological_analysis": "ni-wâpam-âw atim | 1sg-see.TA-3sg.DIR dog.AN",
"notes": "Animate noun (atim); direct form because speaker is proximate",
"variant_class": "simple-ta-direct"
}
الحقلالنوعمطلوبالوصف
idintegerمُعرِّف فريد داخل المدوّنة
sourcestringالنص المصدري بلغة المصدر
referencestringالترجمة المرجعية المعيارية الذهبية باللغة الهدف
segmentstring📎قسم المدوّنة: gold_standard أو held_out أو development أو diagnostic
difficultyinteger📎تقييم الصعوبة من 1 إلى 5 (انظر §2.4)
provenancestring📎مصدر هذا الإدخال (انظر §2.5)
registerstring📎مستوى السجل اللغوي/الرسمية (انظر §2.6)
contextstring📎الوظيفة التواصلية (انظر §2.6)
domainstring📎نطاق حالة الاستخدام من تصنيف الرموز الستة عشر (انظر §2.7). يجب أن يكون واحدًا من: conv، ecommerce، edu، financial، gov، legal، literary، marketing، medical، news، religious، scientific، subtitles، support، tech، ui. يُتحقق منه عند الإنشاء.

📎 = موصى به. يتعامل إطار التشغيل مع الحقول الاختيارية المفقودة بسلاسة عبر القيم الافتراضية. لا يلزم مدوّنات الأطراف الثالثة سوى توفير id وsource وreference لكل إدخال. | morphological_analysis | string | ❌ | تحليل صرفي معياري ذهبي | | notes | string | ❌ | ملاحظات المترجم، والمتغيرات اللهجية، وإشارات الالتباس | | variant_class | string | ❌ | تسمية فئة تجمع متغيرات الترجمة المقبولة |

2.3 أقسام المدوّنة

تنقسم المدوّنة إلى أقسام بمستويات وصول مختلفة:

القسمالغرضالوصولالحد الأدنى للحجم
developmentتطوير الطرائق والتكرار. يستخدمها المطوّرون بحرية.عام30 إدخالاً
diagnosticاختبارات موجَّهة لظواهر لغوية محددة.عام10 إدخالات
gold_standardالتقييم المعياري الرسمي. درجات لوحة المتصدرين تأتي من هنا.سري — بحوزة منظمة الحوكمة50 إدخالاً
held_outمحجوز للتقييم المستقبلي. لا يُستخدم أبدًا قبل تفعيله.سري — بحوزة منظمة الحوكمة10 إدخالات

الحالة الراهنة: لا يوجد في مجموعات البيانات المنشورة سوى قسم development. أما أقسام diagnostic وgold_standard وheld_out فهي مُعرَّفة للاستخدام المستقبلي مع نمو المدوّنات.

قسما gold_standard وheld_out سريّان بالكامل. فالجمل المصدرية والترجمات المرجعية كلتاهما محفوظتان على بنية تحتية تخضع لسيطرة الحوكمة. لا يرى مطوّرو الطرائق الأسئلة ولا الإجابات أبدًا. انظر §8 للاطلاع على آلية السيادة.

2.4 مستويات الصعوبة

المستوىالوصفأمثلة
1 — مفردات أساسيةكلمات مفردة، تحيات شائعة، أرقام"hello" → "tânisi"، "dog" → "atim"
2 — جمل بسيطةفاعل-فعل أو SVO، زمن المضارع"I see the dog" → "niwâpamâw atim"
3 — تعقيد متوسطالماضي/المستقبل، الملكية، الحيوية النحوية"I saw his dog yesterday"
4 — صرف معقدالإبعاد الإشاري (obviation)، المبني للمجهول، صيغة الربط، الجمل الموصولة"the woman whose son went to the store"
5 — متقدمجمل متعددة العبارات، سجل رسمي، لغة احتفالية، تعابير اصطلاحيةفقرة كاملة بنبرة ملائمة للسجل اللغوي

ينبغي أن تتضمن المدوّنة جيدة البناء إدخالات عبر مستويات الصعوبة الخمسة جميعها، مع ترجيح المستويات 2–4 حيث تقع معظم تحديات الترجمة الواقعية.

2.5 وسوم المصدر

يجب أن يُشير كل إدخال إلى مصدره:

الوسمالمعنى
gold_standardتم التحقق منه بواسطة متحدثين يجيدون اللغة
textbookمن مواد تعليمية منشورة
elicitedأُنتج عبر جلسات استخلاص منظمة
corpusمستخرَج من مدوّنة متوازية

ملاحظة: عمليًا، قيم المصدر سلاسل نصية حرة. الوسوم أعلاه أعراف لا تعدادًا مُتحقَّقًا منه — يجوز لمجموعات البيانات استخدام سلاسل وصفية أخرى للمصدر.

2.6 السجل اللغوي والسياق

السجل اللغوي يصف الرسمية والسياق الاجتماعي:

السجلالوصف
conversationalحديث يومي بين أنداد
formalلغة رسمية أو مؤسسية
technicalمفردات متخصصة بنطاق معين
ceremonialاستخدام لغوي تقليدي أو مقدّس
educationalمواد تعليم اللغة

السياق يصف الوظيفة التواصلية:

🔲 مخطط له. حقل context مُعرَّف في المخطط لكنه غير معبأ بعد في مجموعات البيانات الحالية. وهو محجوز لإثراء المدوّنة مستقبلاً.

السياقالوصف
greetingتحية اجتماعية أو وداع
declarationإقرار بحقيقة
questionاستفهام
instructionأمر أو توجيه
narrativeسرد قصصي أو وصف
labelتسمية في واجهة المستخدم، أو نص زر، أو عنوان
errorرسالة خطأ أو تحذير

2.7 النطاق

النطاق يصف حالة الاستخدام الواقعية — نوع المحتوى الذي تجري ترجمته. وهو مستقل عن السجل اللغوي والسياق:

  • السجل اللغوي يجيب عن: ما مدى رسمية هذا النص؟
  • السياق يجيب عن: ما الذي تفعله هذه الجملة؟
  • النطاق يجيب عن: لأي صناعة/حالة استخدام هذا النص؟

قد يكون عقد قانوني (النطاق: legal) رسميًا (السجل: formal) ويتضمن إقرارًا (السياق: declaration). وقد يكون نص محادثة مع روبوت قانوني (النطاق: legal) حواريًا (السجل: conversational) ويتضمن أسئلة (السياق: question). النطاق نفسه، لكن السجل والسياق مختلفان.

رمز النطاقالوصفالمستهلكون النموذجيون
uiنصوص واجهات البرمجياتمطوّرو التطبيقات، فرق التوطين
legalالعقود، والقوانين، والمذكرات القضائية، ووثائق الهجرةمكاتب المحاماة، والمحاكم، وفرق الامتثال، ومحامو الملكية الفكرية
medicalالملاحظات السريرية، وملصقات الأدوية، ومراسلات المرضى، وبروتوكولات التجاربالمستشفيات، وشركات الأدوية، والتجارب السريرية، وبوابات المرضى
financialالخدمات المصرفية، والتأمين، والإيداعات التنظيمية، وتقارير التدقيقالبنوك، وشركات التأمين، والجهات التنظيمية، والمدققون
eduالكتب الدراسية، والمناهج، وخطط الدروس، والمواد الأكاديميةالمدارس، والجامعات، وناشرو الكتب الدراسية
ecommerceأوصاف المنتجات، والمراجعات، وقوائم الأسواق الإلكترونيةتجار التجزئة الإلكترونيون، وبائعو الأسواق الإلكترونية
marketingالنصوص الإعلانية، ورسائل العلامة التجارية، والحملات، والشعاراتوكالات الإعلان، وفرق العلامات التجارية
govوثائق السياسات، واللوائح، والإشعارات العامة، والتشريعاتالجهات الحكومية، وفرق الامتثال
scientificالأوراق البحثية، والملخصات، والمنهجيات، ومقترحات المنحالباحثون، والمجلات العلمية، وجهات المنح
religiousالكتب المقدسة، والنصوص الطقسية، والتعليقات اللاهوتيةالمجتمعات الدينية، وناشرو النصوص الطقسية
supportالأسئلة الشائعة، ورسائل الخطأ، وأدلة استكشاف الأعطال، ونصوص روبوتات الدردشةشركات SaaS، ومكاتب الدعم الفني
subtitlesحوارات الأفلام والتلفزيون والبث والألعابمنصات البث، والاستوديوهات، وشركات الألعاب
newsالصحافة، وتقارير الوكالات، والمقالات الافتتاحية، والبيانات الصحفيةالمؤسسات الإعلامية، ووكالات الأنباء
literaryالأدب القصصي، والشعر، والسرد، والنصوص الثقافيةالناشرون، ومنظمات الحفاظ على التراث الثقافي
convالمحادثة غير الرسمية، ووسائل التواصل الاجتماعي، والمراسلةتطبيقات المستهلكين، والمنصات الاجتماعية
techوثائق واجهات البرمجة (API)، والأدلة، والمواصفات الهندسية، والأدلة التقنيةفرق التوثيق، والمؤسسات الهندسية

معايير مرجعية مخصصة لكل نطاق. يُقيِّم المعيار المرجعي العام الطريقة عبر جميع النطاقات. لكن الـ Arena تدعم أيضًا معايير مرجعية مُرشَّحة حسب النطاق — حيث تُحسب الدرجات على الإدخالات الموسومة بنطاق محدد فقط. وهذا يتيح للمستخدمين الإجابة عن السؤال: "ما أفضل طريقة لترجمة الوثائق القانونية إلى الفرنسية؟" مقابل "ما الطريقة صاحبة أفضل درجة فرنسية إجمالاً؟"

ترتيب لوحة المتصدرين المُرشَّح حسب النطاق ميزة جوهرية في المنتج. ستتفاوت أداءات الطرائق عبر النطاقات — فقد تتفوق طريقة مضبوطة على المصطلحات القانونية في المعايير القانونية تفوقًا ساحقًا لكنها تتراجع في النصوص الحوارية. تساعد الـ Arena المستخدمين على إيجاد الحل الأنسب لحالة استخدامهم المحددة.

مستقبلاً: روبوت محادثة الـ Arena. سيتضمن موقع الـ Arena مساعدًا حواريًا يساعد المستخدمين على وصف حالة استخدامهم في الترجمة الآلية (النطاق، وزوج اللغة، ومتطلبات الجودة) ويوصي بأفضل طريقة مُتحقَّق منها مجتمعيًا من لوحة المتصدرين. على سبيل المثال: "أحتاج إلى ترجمة بروتوكولات التجارب السريرية من الإنجليزية إلى اليابانية — ما الطريقة صاحبة أعلى درجة في المعايير المرجعية للنطاق الطبي EN→JA؟" يعتمد هذا على توفر بيانات تقييم كافية موسومة بالنطاقات وتنوع كافٍ في الطرائق.


3. مخطط بطاقة التشغيل

بطاقة التشغيل هي الوحدة الذرية للتقييم. وهي وثيقة JSON مكتفية ذاتيًا تُسجِّل التكوين الكامل والنتائج لجولة تقييم واحدة: طريقة واحدة، ونموذج واحد، وتكوين واحد، ومجموعة بيانات واحدة.

تُسجِّل كل بطاقة تشغيل ثلاثة أبعاد:

  • الجودة — ما مدى جودة الترجمات؟
  • التكلفة — كم كلّف إنتاجها؟
  • السرعة — كم استغرقت من الوقت؟

3.1 الحقول العليا

الحقلالنوعالوصف
run_idstringمعرّف UUID v4 يُولَّد عند بدء التشغيل
harness_versionstringالإصدار الدلالي لإطار التشغيل (مثل 2.0)
timestampstringطابع زمني بتوقيت UTC وفق ISO 8601 عند بدء التشغيل
elapsed_secondsnumberالمدة الفعلية الكاملة للتشغيل

3.2 تكوين الطريقة

تُعرِّف هذه الحقول الإعداد التجريبي — ما الذي اختُبر وكيف.

الحقلالنوعمطلوبالوصف
model_slugstringمُعرِّف النموذج (مثل google/gemini-2.5-flash)
model_idstringمُعرِّف النموذج المُستبين كما تُعيده واجهة البرمجة
conditionstringتسمية التجربة (مثل baseline أو coached-v3 أو few-shot)
temperaturenumberدرجة حرارة أخذ العينات
system_prompt_sha256stringهاش SHA-256 لموجّه النظام الكامل
system_prompt_usedstringالنص الكامل لموجّه النظام
coaching_data_sha256stringهاش SHA-256 لملف بيانات التدريب التوجيهي، إن استُخدم
fst_versionstringإصدار محلل FST، إن استُخدم
tools_enabledstring[]قائمة الأدوات المتاحة للطريقة
batch_sizenumberعدد الإدخالات لكل دفعة API متزامنة
max_retriesnumberالحد الأقصى لإعادة المحاولة عند رفض FST، إن وُجد

:::info بطاقات التشغيل المنشورة تتضمن method_config عند نشر بطاقة تشغيل إلى لوحة المتصدرين (عبر mt-eval publish)، فإنها تتضمن أيضًا كتلة method_config تحتوي على MethodConfig القياسي ذي الحقول الثمانية (model، temperature، batchSize، register، coachingFile، coachingPrompt، promptContext، qualityTier — جميعها بصيغة camelCase). وهذا يتيح الاستيراد دون إعادة بناء: تقرأ champollion leaderboard --install كتلة method_config مباشرة وتكتبها كبيان إضافة (plugin manifest). تُسجِّل حقول القياس عن بُعد أعلاه (§3.2) ما رصده إطار التشغيل؛ بينما تُسجِّل method_config ما قصده المطوِّر. :::

3.3 مرجع مجموعة البيانات

الحقلالنوعالوصف
dataset.idstringمُعرِّف مجموعة البيانات
dataset.versionstringإصدار مجموعة البيانات
dataset.language_pairstringتسمية العرض
dataset.sha256stringهاش SHA-256 لمحتويات ملف مجموعة البيانات
dataset.entry_countnumberعدد الإدخالات المُقيَّمة

يربط هاش SHA-256 الخاص بمجموعة البيانات النتيجةَ بإصدار محدد من البيانات. إذا تغيرت مجموعة البيانات، تصبح بطاقات التشغيل القديمة غير قابلة للمقارنة.

3.4 الدرجات (الجودة)

مقاييس مجمَّعة للتشغيل بأكمله. جميع مقاييس الجودة آلية — انظر §1.1.

الحقلالنوعالوصف
scores.totalnumberإجمالي الإدخالات المُقيَّمة
scores.exact_matchesnumberالإدخالات التي طابقت فيها المخرجات المرجعَ تمامًا
scores.exact_match_ratenumber0.0–1.0
scores.equivalent_matchesnumberالإدخالات المطابقة لمتغير مقبول
scores.equivalent_match_ratenumber0.0–1.0
scores.fst_acceptednumberالإدخالات التي قبلها محلل FST
scores.fst_acceptance_ratenumber0.0–1.0، وتكون null إذا لم يُكوَّن FST
scores.morphological_accuracynumber0.0–1.0، وتكون null إذا لم يوجد تحليل معياري ذهبي
scores.chrf_plus_plusnumberدرجة chrF++ على مستوى المدوّنة (0–100)
scores.semantic_scorenumberالتشابه الدلالي القائم على التضمينات (0.0–1.0)
scores.ternumberمعدل تحرير الترجمة (Translation Edit Rate) (0–∞، الأقل أفضل)
scores.length_rationumberavg(len(predicted)/len(reference))، القيمة المثالية = 1.0
scores.code_switching_ratenumber0.0–1.0، نسبة الإدخالات التي تتضمن تسربًا من لغة المصدر
scores.hallucination_ratenumber0.0–1.0، نسبة الإدخالات التي تتضمن محتوى مُهلوَسًا
scores.terminology_adherencenumber0.0–1.0، الالتزام بمصطلحات المسرد (null إذا لم يوجد مسرد)
scores.tokens_per_secondnumbertotal_tokens / elapsed_seconds
scores.entries_per_minutenumberعدد الإدخالات المترجمة في الدقيقة
scores.compositenumberدرجة composite score المرجَّحة (0.0–1.0). انظر SCORING_SPEC §4
scores.errorsnumberالإدخالات التي فشلت (خطأ API، انتهاء مهلة، إلخ)
scores.by_difficultyobjectالدرجات مُفصَّلة حسب مستوى الصعوبة
scores.by_provenanceobjectالدرجات مُفصَّلة حسب وسم المصدر
scores.by_domainobject✅ منفَّذ — الدرجات مُفصَّلة حسب النطاق (§2.7). يتيح ترتيب لوحة المتصدرين المُرشَّح حسب النطاق. يُحسب بواسطة tester.py ويُمرَّر عبر publish.py.

3.5 الإجماليات (التكلفة)

الحقلالنوعالوصف
totals.prompt_tokensnumberإجمالي رموز الإدخال عبر جميع استدعاءات API
totals.completion_tokensnumberإجمالي رموز الإخراج
totals.reasoning_tokensnumberالرموز المستخدمة لسلسلة التفكير (0 لمعظم النماذج)
totals.cached_tokensnumberالرموز المُقدَّمة من ذاكرة التخزين المؤقت لموجّهات المزوِّد
totals.total_cost_usdnumberإجمالي التكلفة بالدولار الأمريكي
totals.cost_per_entry_usdnumbertotal_cost_usd / entry_count
totals.cost_per_source_charnumberالدولار الأمريكي لكل حرف مصدري — قابل للمقارنة عبر اللغات

3.6 التوقيت (السرعة)

الحقلالنوعالوصف
elapsed_secondsnumberالمدة الفعلية للتشغيل الكامل (على المستوى الأعلى)
scores.avg_latency_secondsnumberمتوسط زمن الاستجابة لكل إدخال
scores.median_latency_secondsnumberوسيط زمن الاستجابة لكل إدخال
scores.p95_latency_secondsnumberالمئين الـ95 لزمن الاستجابة لكل إدخال

3.7 نتائج الإدخالات الفردية

يُسجِّل كل عنصر في مصفوفة results[] ترجمة واحدة. تُحفظ بيانات الإدخالات الفردية في جدول run_card_entries (الترحيل 005) مع أحكام LYSS غير المُطبَّعة (الترحيل 006).

الحقلالنوعالوصف
entry_idstringيطابق entries[].id في المدوّنة
sourcestringالنص المصدري الذي تُرجم
expectedstringالترجمة المرجعية المعيارية الذهبية
raw_predictedstring | nullمخرجات النموذج الخام قبل المعالجة البعدية
predictedstringالمخرجات الفعلية للطريقة (بعد المعالجة البعدية)
segmentstringمُعرِّف المقطع (مثل فهرس الجملة)
difficultystring | nullمستوى الصعوبة من المدوّنة
domainstringوسم النطاق من المدوّنة (§2.7)
exact_matchbooleanهل طابقت المخرجات المرجعَ تمامًا
chrf_scorenumber | nullchrF++ على مستوى الجملة (0–100)
bleu_scorenumber | nullBLEU على مستوى الجملة (0–100)
latency_snumber | nullزمن الاستجابة بالثواني
cost_usdnumber | nullالتكلفة بالدولار الأمريكي لهذا الإدخال
tool_call_countintegerعدد استدعاءات الأدوات المستخدمة (0 إذا لم تُستخدم)
errorstring | nullرسالة الخطأ إذا فشل هذا الإدخال
plugin_metricsobjectمخرجات الإضافة الكاملة لكل إدخال (JSONB)
fst_validboolean | nullقَبِل GiellaLT FST التنبؤ (LYSS-fst غير مُطبَّع)
equivalent_matchboolean | nullأكّد مدقق CRK التكافؤ البنيوي (LYSS-eq غير مُطبَّع)
semantic_verdictstring | nullحكم LYSS-sem: VALID، MISMATCH، UNKNOWN، ERROR
code_switching_detectedboolean | nullرُصدت رموز من لغة المصدر في المخرجات
hallucination_detectedboolean | nullرُصد محتوى مُختلَق في المخرجات

3.8 البصمة

مُعرِّف لقابلية إعادة الإنتاج. التشغيلان ذوا البصمتين المتطابقتين استخدما الإعداد التجريبي نفسه.

البصمة هي هاش SHA-256 للسلسلة المرتبة المُكوَّنة من:

  • dataset.sha256
  • model_slug
  • condition
  • system_prompt_sha256
  • temperature
  • harness_version
  • batch_size
  • tools_enabled

لماذا 8 مكوّنات؟ حجم الدفعة واستدعاء الأدوات يؤثران تأثيرًا جوهريًا في جودة المخرجات ويجب تضمينهما في الهوية. التشغيلان بحجمي دفعة مختلفين أو بأدوات مفعَّلة مختلفة هما إعدادان تجريبيان مختلفان، حتى لو تطابقت جميع المعاملات الأخرى.

ينبغي أن يُنتج التشغيلان ذوا البصمتين المتطابقتين نتائج قابلة للمقارنة. وتُعزى الاختلافات إلى عدم حتمية واجهة البرمجة (temperature > 0) أو إلى تحديثات النموذج من جهة المزوِّد.

3.9 هاش بطاقة التشغيل

هاش SHA-256 لكامل JSON بطاقة التشغيل (مع ضبط حقل run_card_hash نفسه على "" أثناء الحساب). هذا هو ختم كشف العبث. إذا تغيّر أي حقل، ينكسر الهاش.


4. المقاييس الآلية

جميع المقاييس في هذا القسم تُحسب آليًا. انظر §1.1.

4.1 تعريفات المقاييس

المقياسالحالةما الذي يقيسهالمدى
chrF++✅ منفَّذدرجة F للوحدات النونية الحرفية (n-gram). يعمل على مستوى الحرف، ما يجعله أكثر متانة من المقاييس على مستوى الكلمة (BLEU) للغات الغنية صرفيًا حيث تكون الكلمات طويلة وشديدة التصريف. يُحسب بواسطة sacrebleu.0–100 (المقياس الأصلي). يُقسَّم على 100 عند استخدامه في composite.
FST acceptance rate✅ منفَّذنسبة الكلمات المتنبأ بها التي قبلها المحلل الصرفي (GiellaLT HFST) بوصفها صيغًا صحيحة في اللغة الهدف. الكلمة التي يقبلها FST هي كلمة حقيقية صحيحة بنيويًا — لا هلوسة.0.0–1.0
Exact match✅ منفَّذنسبة التنبؤات التي تطابق المرجع تمامًا بعد تطبيع Unicode. صارم لكنه قاطع — مفيد بوصفه فحصًا للحد الأعلى.0.0–1.0
Morphological accuracy🔲 مخطط لهللإدخالات ذات التحليل الصرفي المعياري الذهبي: نسبة الوحدات الصرفية المُولَّدة بشكل صحيح. أدق تفصيلاً من قبول FST — فقد تكون الكلمة صحيحة وفق FST لكن ببنية صرفية خاطئة (جذر صحيح، زمن خاطئ).0.0–1.0
Equivalent match⚡ جزئينسبة المطابقة لمتغير مقبول من المرجع — مع مراعاة ترتيب الكلمات، والاختلافات اللهجية، والأعراف الإملائية. منفَّذ حاليًا للغة CRK عبر CrkLinterMetric في معيار تقييم CRK (في eval_standards/crk/)؛ ويُحمَّل تلقائيًا عبر إعلان evalMetrics في بطاقة لغة CRK. يتطلب التنفيذ العام وجود variants[] لكل إدخال في المدوّنة.0.0–1.0
Semantic score⚡ جزئيالحفاظ على المعنى بصرف النظر عن الشكل السطحي. منفَّذ حاليًا للغة CRK عبر CrkSemanticMetric في معيار تقييم CRK (في eval_standards/crk/، مؤشر تقريبي مرجَّح بالأحكام). التشابه الجيبي العام القائم على التضمينات مخطط له — انظر SCORING_SPEC §2.3.0.0–1.0

4.2 درجة Composite Score

درجة composite score هي متوسط مرجَّح لجميع المقاييس المتاحة:

composite = Σ (weight_i × metric_i) for all available metrics
─────────────────────
Σ weight_i (renormalized to sum to 1.0)

عندما يكون أحد المقاييس غير متاح (لا FST مُكوَّن، ولا فئات متغيرات مُعرَّفة، ولا نموذج تضمينات)، يُعاد توزيع وزنه تناسبيًا على المقاييس المتبقية. وهذا يعني أن composite قابلة للمقارنة دائمًا ضمن اللغة الواحدة — فهي تستخدم أي مقاييس متاحة لتلك اللغة وتُطبِّع وفقًا لذلك.

جداول الأوزان، وقواعد تطبيع المدخلات، وقائمة المقاييس الكاملة مُعرَّفة في SCORING_SPEC.md §4. تلك الوثيقة هي المصدر الوحيد للحقيقة (SSOT) فيما يخص:

  • أوزان الملف A (اللغات ذات تغطية FST — 9 مقاييس، المقاييس البنيوية تحمل 40%)
  • أوزان الملف B (اللغات بدون تغطية FST — 8 مقاييس)
  • قواعد التطبيع (chrF++ ÷ 100، وعكس معدلي التناوب اللغوي والهلوسة)
  • المقاييس المستبعدة من composite (BLEU، COMET، TER، نسبة الطول، الاتساق) وسبب الاستبعاد

يعكس كود إطار التشغيل هذه الجداول في mt_eval_harness/scoring.py. عند تغيُّر SCORING_SPEC، يُحدَّث scoring.py ليطابقه ويتحقق test_scoring_ssot.py من التوافق.

لماذا ليس BLEU؟ يعمل BLEU على مستوى الكلمة ويعاقب التنوع الصرفي. في اللغات متعددة التركيب، قد تشكِّل كلمة واحدة عبارة كاملة — فيعامل BLEU الفروق التصريفية الطفيفة كأخطاء كاملة. يتعامل chrF++ مع ذلك بشكل أفضل لأنه يعمل على مستوى الحرف. BLEU مستبعد من جدولي الأوزان كليهما. انظر الملحق A في SCORING_SPEC للاطلاع على المسوّغ الكامل.

4.3 الدرجة المعدَّلة حسب التكلفة

للطرائق التي تستخدم واجهات برمجة مدفوعة، نُصدر أيضًا ترتيبًا ثانويًا. صيغة الدرجة المعدَّلة حسب التكلفة مُعرَّفة في SCORING_SPEC.md §6.3.


5. مستويات الجودة

مستويات الجودة تسميات استدلالية تُطبَّق على درجات composite الآلية. وهي تصف ما تعنيه الدرجات عادةً في الممارسة العملية، استنادًا إلى مراجعة بشرية للمخرجات عند كل مستوى. وهي ليست أحكام جودة مُتحقَّقًا منها — فالمراجعة البشرية وحدها (§6) يمكنها تأكيد قابلية الاستخدام الفعلية.

عتبات المستويات وأوصافها مُعرَّفة في SCORING_SPEC.md §5. المستويات هي: Baseline ‏(0.00–0.30)، وEmerging ‏(0.30–0.50)، وFunctional ‏(0.50–0.70)، وDeployable ‏(0.70–0.85)، وFluent ‏(0.85–1.00).

[!IMPORTANT] المستويات الآلية مؤقتة. هذه التسميات ترشيحات للمراجعة، لا إعلانات جودة. الطريقة التي تبلغ مستوى "Deployable" وفق المقاييس الآلية مرشَّحة للتقييم المجتمعي — وليست منتجًا جاهزًا للإطلاق. المراجعة البشرية وحدها (§7) يمكنها تأكيد قابلية الاستخدام الفعلية. وقد تختلف حدود المستويات بين اللغات.

هذه المستويات مؤقتة. وستُعاد معايرتها مع تراكم بيانات التحقق البشري ومع تعلمنا أين تقع فعليًا عتبة "يجد المتحدث هذا مفيدًا" لكل لغة. وقد تختلف حدود المستويات بين اللغات.

لا يمكن لأي طريقة أن تدّعي بلوغ مستوى Deployable أو أعلى دون مراجعة مجتمعية تؤكد اتفاق متحدثين ثنائيي اللغة على أن المخرجات قابلة للاستخدام.


6. بروتوكول المعيار المرجعي

المعيار المرجعي هو الإنتاج المنهجي لبطاقات تشغيل عبر فضاء معاملات مُعلَن على مجموعة بيانات معينة. وليس تشغيلاً واحدًا — بل استكشاف منظم لأداء التكوينات المختلفة.

6.1 ما الذي يُنتجه المعيار المرجعي

يُنتج المعيار المرجعي مصفوفة من بطاقات التشغيل — واحدة لكل توليفة من قيم المعاملات. تتيح المصفوفة مقارنة متعددة الأوجه عبر:

  • الجودة — درجة composite score، وتفصيلات المقاييس الفردية
  • التكلفة — التكلفة الإجمالية ولكل إدخال لكل تكوين
  • السرعة — الزمن الفعلي والكمون لكل إدخال

لا توجد "درجة معيار مرجعي" واحدة. المعيار المرجعي هو المصفوفة الكاملة. سيهتم أصحاب المصلحة المختلفون بأوجه مختلفة: فالباحث يُحسِّن درجة composite score، ومهندس النشر يُحسِّن التكلفة لكل إدخال، والمجتمع يراجع الجودة.

6.2 فضاء المعاملات

يُعلن المعيار المرجعي عن المعاملات التي تخضع للتبديل:

المحورالقيم النموذجيةالغرض
model4–12 نموذجًا (طليعي + متوسط + اقتصادي)ما مدى أهمية قدرة النموذج؟
temperature0.0، 0.3، 0.7هل تفيد عشوائية أخذ العينات أم تضر؟
prompt_version2–3 استراتيجيات موجِّهاتما مدى حساسية الطريقة لتصميم الموجِّه؟
coaching_configمع/بدون بيانات تدريب توجيهيهل يُحسِّن حقن المعرفة اللغوية المخرجات؟
tool_configمع/بدون FST، مع/بدون قاموسهل تُحسِّن الأدوات اللغوية المخرجات؟

فضاء التبديل الكامل:

runs = |models| × |temperatures| × |prompts| × |coaching| × |tools|

معيار مرجعي أولي نموذجي: 12 نموذجًا × 3 درجات حرارة × 2 موجِّه × 2 تدريب توجيهي = 144 تشغيلاً.

6.3 خط الأساس مقابل تقييم الطريقة

يخدم المعيار المرجعي غرضين متمايزين:

تحديد خط الأساس — رسم خريطة المشهد بمقاربات ساذجة. "ما الذي تستطيع النماذج القائمة فعله لهذه اللغة دون أي هندسة مخصصة للغة؟" هذا يُرسي المستوى المرجعي. تخبرك مصفوفة خط الأساس: أي النماذج أقل هلوسة، وأي درجات حرارة تُنتج مخرجات أكثر اتساقًا، وما إذا كانت بيانات التدريب التوجيهي تفيد أصلاً، وأين تفشل جميع النماذج بشكل موحَّد (ما يكشف مشكلات لغوية صعبة).

تقييم الطريقة — اختبار طريقة مُهندَسة محددة. "هل يتفوق خط أنابيبي المُدرَّب توجيهيًا والمُقيَّد بـFST على خطوط الأساس؟" تُقارَن بطاقة تشغيل الطريقة بمصفوفة خط الأساس. تكون الطريقة مثيرة للاهتمام عندما تتفوق على أفضل خط أساس — أي عندما تضيف الهندسة قيمة على الاستدعاءات الساذجة للنماذج.

يُنتج النشاطان بطاقات تشغيل بالمخطط نفسه. الفرق في القصد وفضاء المعاملات: خطوط الأساس تُبدِّل عبر النماذج والتكوينات؛ بينما يختبر تقييم الطريقة طريقةً واحدة مقابل أفضل التكوينات.

6.4 تقييم التطوير مقابل تقييم المعيار الذهبي

يكرر مطوّرو الطرائق بحرية على قسمي المدوّنة development وdiagnostic. هذا تقييم غير رسمي — لا قيود، ولا تقديمات، ولا تدخّل من الحوكمة. المطوِّر يتعلم ما يصلح.

أما درجات لوحة المتصدرين الرسمية فتأتي حصريًا من تقييم gold_standard. وهذا تقييم رسمي:

  1. يقدِّم المطوِّر طريقته الكاملة القابلة للتشغيل (الكود + التكوين + بيانات التدريب التوجيهي)
  2. تُشغِّلها منظمة الحوكمة في إطار تشغيل معزول مقابل مجموعة الاختبار السرية
  3. لا يعود إلى المطوِّر سوى الدرجات

انظر §8 للاطلاع على آلية السيادة الكاملة.


7. التحقق البشري

المقاييس الآلية مؤشرات تقريبية. والتحقق البشري هو الحقيقة المرجعية.

7.1 ما الذي تلتقطه المراجعة البشرية وتفوّته المقاييس

  • صحيح صرفيًا لكنه خاطئ دلاليًا — يقبل FST الكلمة، وchrF++ مرتفع، لكن الترجمة تعني شيئًا مختلفًا
  • غير ملائم ثقافيًا — الترجمة صحيحة تقنيًا لكنها تستخدم سجلاً أو إطارًا يرفضه المجتمع
  • معقولية مُهلوَسة — تبدو المخرجات كاللغة الهدف لغير الناطق بها لكنها كلام فارغ لدى المتحدث المتمكّن
  • تنوع مقبول لكن غير موسوم — المخرجات صحيحة لكن المقاييس الآلية تحكم عليها بالخطأ لأنها تستخدم متغيرًا لهجيًا غير موجود في المرجع

7.2 بوابة التحقق

لا يمكن لأي طريقة أن تتقدم من مستوى Functional إلى Deployable دون تحقق بشري يؤكد اتفاق متحدثين ثنائيي اللغة على قابلية استخدام المخرجات. هذا ليس إجراءً شكليًا — بل هو الهدف. توجد المقاييس الآلية لتقليل حجم المخرجات التي تحتاج إلى مراجعة بشرية. ولا يمكنها أن تحل محلها.

7.3 بروتوكول المراجعة المجتمعية

🔲 مخطط له: واجهة المراجعة المجتمعية غير متاحة بعد. يصف هذا القسم العملية المقصودة.

  1. تبلغ الطريقة عتبة Deployable وفق المقاييس الآلية
  2. تُعرض عيّنة من المخرجات (مُقسَّمة طبقيًا حسب مستوى الصعوبة) على متحدثين ثنائيي اللغة
  3. يقيِّم المتحدثون كل ترجمة على مقياس: مرفوضة، أو توصل الفكرة (المعنى واضح لكن الصياغة خاطئة)، أو مقبولة (صحيحة مع مشكلات طفيفة)، أو ممتازة (لا يمكن تمييزها عن الترجمة البشرية)
  4. تراجع منظمة الحوكمة التقييمات المجمَّعة
  5. إذا قبل المجتمع الطريقة، تنتقل إلى نقل الملكية والنشر

8. السيادة

تحتوي مجموعات بيانات التقييم على معرفة لغوية منسّقة تعود ملكيتها إلى مجتمع اللغة. يُعرِّف هذا القسم الإطار التقني والقانوني لحماية تلك البيانات.

8.1 المشكلة

تنشر المعايير المرجعية التقليدية مجموعات الاختبار علنًا. وما إن تُنشر البيانات، لا يمكن سحبها. يخلق هذا، لمجتمعات لغات الشعوب الأصلية والأقليات، ديناميكية استخراجية — تُستخدم البيانات اللغوية دون موافقة مستمرة. واتباعًا لرؤية Dhein البراغماتية لسيادة البيانات الحيوية، نتعامل مع البيانات اللغوية بوصفها "موردًا متقلبًا ذا إمكانات لا يمكن التنبؤ بها" يتطلب حوكمة ديناميكية وعلائقية.

8.2 التنفيذ المعزول

آلية الإنفاذ الأساسية: يُسلِّم المطوِّر وحدة طريقته، فتُشغِّلها منظمة الحوكمة مقابل مجموعة الاختبار السرية بالكامل على بنيتها التحتية الخاصة، ولا تُعاد سوى الدرجات. لا يرى المطوِّر أبدًا الجمل المصدرية أو الترجمات المرجعية.

سير العملية:

  1. مدوّنة التطوير عامة. لا قيود على قسمي development وdiagnostic.
  2. مجموعة اختبار المعيار الذهبي سرية بالكامل. الجمل المصدرية والترجمات المرجعية كلتاهما على بنية تحتية تخضع لسيطرة الحوكمة.
  3. للحصول على درجة رسمية، عليك تسليم طريقتك. تُشغِّلها منظمة الحوكمة في بيئة معزولة. ولا تعود سوى الدرجات.
  4. منظمة الحوكمة تملك الطريقة بالفعل. التقديم هو كود الطريقة نفسه. وإذا بلغت عتبة Deployable، يكون نقل الملكية قيد التنفيذ بالفعل.
  5. يتطلب التقديم الموافقة على الشروط. بما في ذلك بند نقل الملكية (§8.3).
  6. تتحكم منظمة الحوكمة في الوصول بالكامل. يمكنها رفض التقييم أو إلغاؤه في أي وقت. موافقة ديناميكية.
  7. التشفير أثناء التخزين دفاع متعدد الطبقات. الإنفاذ الأساسي معماري.

8.3 نقل الملكية

الطرائق التي تحقق درجة composite score عند عتبة Deployable ‏(0.70) أو أعلى مقابل تقييم المعيار الذهبي، والتي تجتاز التحقق البشري (§7)، تخضع لنقل الملكية.

يحتفظ المطوِّر بـ:

  • الإسناد والتقدير (يبقى الاسم على لوحة المتصدرين)
  • حق النشر عن الطريقة
  • حق استخدام الطريقة لأزواج لغوية أخرى

تكتسب منظمة الحوكمة:

  • حق استخدام الطريقة وتعديلها وتوزيعها وتحقيق إيرادات منها للغتها
  • حق الترخيص من الباطن
  • الحيازة المادية لكود الطريقة (بحوزتها أصلاً من تقديم التقييم)

8.4 متطلبات منظمة الحوكمة

لتكون أمينةً لمفاتيح معيار مرجعي لغوي، يجب على المنظمة:

  1. تمثيل مجتمع اللغة — علاقة يمكن إثباتها مع المتحدثين والمرجعيات الثقافية
  2. القدرة على إدارة المفاتيح — قدرة تقنية على إدارة المفاتيح التشفيرية
  3. الالتزام بإتاحة التقييم — يجب أن يبقى المعيار المرجعي قابلاً للتقييم
  4. نشر شروط المشاركة — توثيق واضح لما يوافق عليه المطوّرون
  5. العمل وفق مبادئ سيادة معترف بها — OCAP®‎ أو CARE أو ما يعادلهما

8.5 المواءمة مع OCAP®‎ وCARE

المبدأالتنفيذ
Ownership ‏(OCAP)البيانات اللغوية ملك للمجتمع. منظمة الحوكمة تتحكم في بنية التقييم التحتية.
Control ‏(OCAP)تتحكم منظمة الحوكمة في التقييم عبر التنفيذ المعزول. وهي تقرر من يقدِّم وبأي شروط.
Access ‏(OCAP)يتمتع المجتمع بوصول غير مقيد إلى بياناته ونتائجه والطرائق المطوَّرة عليها.
Possession ‏(OCAP)لا تغادر مجموعة الاختبار بنية الحوكمة التحتية أبدًا. التشفير أثناء التخزين بمثابة طبقة احتياطية.
Collective Benefit ‏(CARE)يضمن نقل الملكية أن تعود الطرائق بالنفع على المجتمع. ويدعم ذلك نموذج الإيرادات (هامش وساطة 10%؛ يحتفظ المجتمع بنحو 90%).
Authority to Control ‏(CARE)التنفيذ المعزول هو التطبيق التقني لهذا المبدأ.
Responsibility ‏(CARE)يقبل المطوّرون المسؤولية عبر شروط المشاركة.
Ethics ‏(CARE)حقوق المجتمع مقدَّمة على راحة الباحث.

8.6 فئات التبعيات وسياسة الشبكة في البيئة المعزولة

يعتمد التنفيذ المعزول (§8.2) ونقل الملكية (§8.3) كلاهما على معرفة ما تحتاجه الطريقة بدقة عند التشغيل. تُعرِّف مواصفة واجهة الطرائق خمس فئات تبعيات — S (مكتفية ذاتيًا)، وO (خارجية مفتوحة)، وA1 (استدلال LLM قابل للاستبدال)، وA2 (واجهة برمجة خارجية غير قابلة للاستبدال)، وX (مغلقة) — وبيان التبعيات الذي يجب على كل طريقة الإعلان عنه. يُسجِّل هذا القسم الفرعي كيف تُنفِذ سياسة الشبكة في البيئة المعزولة هذه الفئات.

رفض الخروج افتراضيًا. تشترط مواصفة البيئة المعزولة ألا تمتلك حاويات الطرائق أي وصول إلى الشبكة افتراضيًا. وهذه ليست قاعدة جدار ناري — فالمواصفة تُزيل الشبكة من بيئة التنفيذ نفسها، بحيث تفشل أي تبعية شبكية غير مُعلَنة على مستوى المعمارية لا على مستوى السياسة. تعمل طرائق الفئتين S وO بالكامل من القطع المضمَّنة في التقديم (تُثبَّت قطع الفئة O وتُنسخ مرآتها عند التقديم).

بوابة LLM (🔲 مخطط لها). معظم الطرائق تستدعي نماذج لغوية كبيرة، لذا تُعرِّف مواصفة البيئة المعزولة استثناء خروج واحدًا بالضبط: بوابة LLM تُشغِّلها بنية التقييم التحتية. البوابة:

  • تُمرِّر طلبات الاستدلال إلى قائمة سماح صريحة من النماذج المثبَّتة — مُعرِّفات النماذج المُسجَّلة في بيان الطريقة وبطاقة التشغيل؛
  • تُسجِّل كل طلب واستجابة في سجل التدقيق المختوم، بحيث يمكن مراجعة حركة مرور البوابة بحثًا عن محاولات تسريب البيانات قبل إصدار الدرجات؛
  • هي مسار الشبكة الوحيد — لا خروج عام، ولا DNS، ولا أي نقاط نهاية أخرى.

هذا ما يجعل طرائق الفئة A1 قابلة للتقييم دون التخلي عن ضمانات قابلية التحقق في §8.2 — لكنه مفاضلة حقيقية، وتسميها المواصفة بوضوح: ترجمة جملة مصدرية سرية عبر نموذج خارجي تكشف تلك الجملة المصدرية لمزوِّد النموذج. لا تغادر الترجمات المرجعية أبدًا (فهي بحوزة إطار التشغيل، خارج الحاوية؛ انظر §8.2)، ولا تزال الطريقة نفسها عاجزة عن تسريب أي شيء يتجاوز محتوى استدعاءات الاستدلال المُسجَّلة والمُدرجة في قائمة السماح. أما ما إذا كان هذا الكشف المحدود مقبولاً لمدوّنة معينة، فهو قرار يعود إلى الأمين: التصريح بتقييم من الفئة A1 يعني التصريح به عن علم، لكل تشغيل على حدة، شأنه شأن أي استخدام آخر للبيانات.

الحالة. البيئة المعزولة وبوابتها مُحدَّدتان في المواصفات لكنهما لم تُبنيا بعد. وحتى تصبح البوابة عاملة، لا يمكن سوى لطرائق الفئتين S وO إنتاج درجات معيار ذهبي؛ وتبقى طرائق الفئة A1 مؤهلة للجوائز من حيث المبدأ (انظر مواصفة الجوائز §1.6) لكن لا يمكن تقييمها بعد مقابل الأقسام السرية. ولا يمكن لتبعيات الفئة A2 دخول البيئة المعزولة أصلاً قبل أن يمنح صاحب الحقوق الإذن — إذ يجب السماح بـوجود القطعة في البيئة المعزولة قبل أن يُطرح أي سؤال شبكي.


9. لوحة المتصدرين والتقديم

9.1 متطلبات التقديم

يجب أن يتضمن التقديم الصالح للوحة المتصدرين:

  1. بطاقة تشغيل كاملة (§3) بجميع الحقول المطلوبة
  2. كود الطريقة — قابل للتشغيل بالكامل، مع تعليمات التثبيت
  3. جميع التبعيات — بيانات التدريب التوجيهي، والقواميس، وملفات FST الثنائية، والموجِّهات
  4. تقرير تكلفة
  5. ملف README يصف منهج الطريقة وحدودها

9.2 معايير المشروعية

  1. لا تدريب على بيانات التقييم. يجب ألا تكون الطرائق قد تعرّضت لإدخالات gold_standard أو held_out. (مُنفَذ معماريًا — لا يمكنك التدريب على بيانات لم ترها قط.)
  2. الإعلان عن استخدام بيانات التطوير. استخدام إدخالات development للتوجيه بالأمثلة القليلة مسموح به لكن يجب الإعلان عنه.
  3. قابلية إعادة الإنتاج. يجب أن تتمكن منظمة الحوكمة من إعادة التشغيل وتحقيق درجات ضمن نطاق ±2%.
  4. التعميم. يجب أن تعمل الطرائق على إدخالات غير مرئية سابقًا، لا على أمثلة محفوظة فحسب.

9.3 مكافحة التلاعب

  1. التدقيق بفئات المتغيرات — يُعلَّم الأداء المثالي بشكل مريب على إدخالات ذات متغيرات معروفة
  2. تدوير المدوّنة — يمكن لمنظمة الحوكمة تدوير الإدخالات بين الأقسام دون إشعار
  3. المراجعة المجتمعية — بوابة التحقق البشري (§7) تلتقط الطرائق التي تتلاعب بالمقاييس لكنها تُنتج مخرجات رديئة

9.4 مستويات التوثّق

تصف مستويات التوثّق مَن تحقق من النتيجة — وهي مستقلة عن مستويات الجودة (§5) التي تصف ما تعنيه الدرجة الآلية.

المستوىالمعنىكيفية التحقيق
Self-benchmarkedشغّل المطوِّر إطار التشغيل وقدَّم بطاقة التشغيلطلب سحب أو علم --submit مقابل قسم development
GDS Verifiedأعاد القائمون على الصيانة إنتاج النتيجة بشكل مستقلقدِّم الطريقة كإضافة قابلة للتثبيت؛ ويعيد القائمون على الصيانة التشغيل
Community Validatedشغَّلت منظمة الحوكمة مقابل gold_standard + مراجعة مجتمعيةقدِّم كود الطريقة إلى منظمة الحوكمة (§8.2)؛ واجتز التحقق البشري (§7)

يمكن أن تكون الطريقة Self-benchmarked عند مستوى جودة Functional. مستوى الجودة ومستوى التوثّق محوران مستقلان على لوحة المتصدرين.

9.5 نموذج التقديم متعدد الطبقات

تعتمد آلية التقديم على قسم المدوّنة الذي تُقيِّم عليه:

القسممسار التقديمالتوثّقهل يلزم كود الطريقة؟
developmentذاتي الخدمة: شغِّل إطار التشغيل، وقدِّم بطاقة التشغيل عبر طلب سحب أو APISelf-benchmarkedلا — تحتفظ بكودك
developmentإعادة تشغيل من القائمين على الصيانة: قدِّم الطريقة كإضافةGDS Verifiedنعم — يجب أن تكون الطريقة قابلة للتثبيت
gold_standardقدِّم الطريقة إلى منظمة الحوكمة؛ وتُشغِّلها هي في بيئة معزولةCommunity Validatedنعم — تُقدَّم الطريقة وتبقى بحوزتها

المسار ذاتي الخدمة (قسم التطوير) بلا قيود. أما المسار السيادي (قسم المعيار الذهبي) فيتطلب تقديم الطريقة كاملة، لأن (أ) المطوِّر لا يرى مجموعة الاختبار أبدًا، و(ب) الطرائق التي تبلغ مستوى Deployable تخضع لنقل الملكية (§8.3).

9.6 فئات الطرائق

تُصنَّف الطرائق حسب النوع. التعداد القياسي مُعرَّف في كود إطار التشغيل (VALID_METHOD_CLASSES في config.py):

الفئةالوصف
raw-llmاستدعاء LLM مباشر دون أي هندسة مخصصة للغة
coached-llmنموذج LLM مع بيانات تدريب توجيهي (أمثلة، وملاحظات نحوية، ومداخل قاموسية)
pipelineخط أنابيب متعدد الخطوات (مثل: ترجمة ← تحقق FST ← إعادة محاولة)
custom-pluginإضافة TranslationMethod مخصصة
apiواجهة برمجة ترجمة خارجية (Google Translate أو DeepL وغيرهما)
humanخط أساس بترجمة بشرية

9.7 حقول لوحة المتصدرين

الحقلالوصف
الترتيبالموضع حسب composite score
اسم الطريقةمُعرِّف يختاره المطوِّر
composite scoreالمتوسط المرجَّح للمقاييس المتاحة (§4.2)
chrF++درجة الوحدات النونية الحرفية (0–100)
FST acceptanceمعدل الصحة الصرفية (0.0–1.0)
Exact matchمعدل المطابقة الصارمة (0.0–1.0)
Semantic scoreالحفاظ على المعنى (0.0–1.0) — 🔲 عند توفره
التكلفة لكل إدخالالدولار الأمريكي لكل إدخال في المدوّنة
السرعةمتوسط الكمون لكل إدخال (بالثواني)
الدرجة المعدَّلة حسب التكلفةالترتيب الثانوي (§4.3)
فئة الطريقةمن تعداد §9.6
النموذجنموذج LLM/المحرك المستخدم
مستوى الجودةنطاق composite الآلي (§5)
مستوى التوثّقمن تحقق من النتيجة (§9.4)
التاريختاريخ التقييم

[!NOTE] جميع الدرجات المعروضة على لوحة المتصدرين قياسات تقريبية آلية. وهي تشير إلى الأداء النسبي للطرائق في ظروف مضبوطة لكنها لا تشكّل ضمانات جودة. تُميَّز الطرائق المُتحقَّق منها مجتمعيًا على حدة عبر عمود مستوى التوثّق. للاطلاع على تفاصيل المنهجية، راجع SCORING_SPEC.md.


10. إطار التكلفة

10.1 تكلفة التشغيل الواحد

run_cost = entries × api_calls_per_entry × cost_per_api_call

التكاليف النموذجية للتشغيل الواحد على مدوّنة من 150 إدخالاً:

الطريقةالنموذجالتكلفة المقدَّرة
LLM ساذجGemini 2.5 Flash$0.15–0.30
LLM مُدرَّب توجيهيًاGemini 2.5 Flash$0.30–0.60
مُقيَّد بـFST (3 إعادات محاولة)Gemini 2.5 Flash$0.45–1.20
LLM ساذجClaude Sonnet 4$0.45–0.90
LLM مُدرَّب توجيهيًاGPT-4.1$0.60–1.50

10.2 تكلفة المعيار المرجعي (المسح الشامل)

sweep_cost = Σ run_cost(i) for each parameter combination i

مسح نموذجي: 12 نموذجًا × 3 درجات حرارة × 2 موجِّه × 2 تدريب توجيهي = 144 تشغيلاً بمتوسط $0.50 = **$72 لكل مسح**.

10.3 تأسيس لكل لغة

المكوِّننطاق التكلفةملاحظات
تعويض المتحدثين (المدوّنة)$2,500–6,00050–150 إدخالاً بمعدل $50–65/ساعة
تعويض المتحدثين (المراجعة)$500–1,500مراجعة مخرجات الطريقة
الحوسبة (مسوح المعايير المرجعية)$100–500مسوح متعددة أثناء التطوير
الحوسبة (لوحة المتصدرين المستمرة)$50–200/سنةتشغيل الطرائق المقدَّمة
البنية التحتية (البيئة المعزولة)$200–500/سنةبنية تقييم منظمة الحوكمة
إجمالي التأسيس$3,350–8,500

10.4 نطاق البرنامج

النطاقالتكلفة السنويةملاحظات
لغة واحدة (صيانة)$1,000–3,000بعد التأسيس
5 لغات (تأسيس + صيانة)$25,000–65,000السنة الأولى
10 لغات (الحالة المستقرة)$15,000–40,000سنويًا بعد التأسيس

11. التوسع إلى لغات جديدة

11.1 الحد الأدنى من المتطلبات

  1. 50+ إدخالاً في قسم gold_standard
  2. 30+ إدخالاً في قسم development
  3. 10+ إدخالات في قسم diagnostic تستهدف ظواهر لغوية محددة
  4. بيان المصدر لكل إدخال
  5. توزيع الصعوبة — 3 مستويات على الأقل من أصل 5
  6. توزيع السجل اللغوي — سجلان على الأقل
  7. الموافقة المجتمعية — اتفاق موثَّق من مجتمع اللغة

11.2 اختياري لكنه قيِّم

  • محلل صرفي FST — يتيح أقوى مقياس للغات متعددة التركيب
  • قاموس ثنائي اللغة — يتيح الطرائق القائمة على القواميس ويقلل الهلوسة
  • تحليل صرفي معياري ذهبي — يتيح مقياس الدقة الصرفية
  • فئات المتغيرات — تتيح مقياس equivalent match والتدقيق المضاد للتلاعب
  • منظمة حوكمة — تتيح السيادة التشفيرية ونقل الملكية

11.3 المسار المدعوم بالوكلاء

🔲 مخطط له: إنشاء المدوّنات بمساعدة الوكلاء قدرة مستقبلية.

للغات التي لا تمتلك موارد قائمة واسعة:

  1. يُولِّد وكيل جملاً مصدرية مرشَّحة عبر مستويات الصعوبة والسجلات اللغوية
  2. يترجمها متحدث ثنائي اللغة (هذه الخطوة بشرية دائمًا)
  3. يقترح الوكيل تحليلاً صرفيًا (يتحقق منه FST إن وُجد، وإلا فالمتحدث)
  4. يُنسِّق الوكيل كل شيء في مخطط المدوّنة
  5. يراجع لغويٌّ أو متحدثٌ المدوّنة النهائية

يقلّص هذا وقت المتحدث من نحو 80 ساعة إلى نحو 30–40 ساعة لكل لغة.


هذه المواصفة وثيقة حيّة. مع تأسيسنا معايير مرجعية لمزيد من اللغات، سنتعلم ما يصلح ونُحسِّن وفقًا لذلك. الهدف هو الوصول إلى صرامة كافية لتكون موثوقة، ومرونة كافية لتكون مفيدة، وانفتاح كافٍ ليشارك أي شخص — بشروط المجتمع.