الأسئلة الشائعة

ملخص تنفيذي. إجابات عن الأسئلة الشائعة حول MT Eval Arena — كيف يعمل التقييم، وما الذي يؤدي إلى استبعاد المشاركات، وتوصيات النماذج والمعاملات، وعملية تقديم المشاركات.

التقييم والمقاييس

ما المقاييس التي يحسبها إطار التقييم؟

يحسب إطار التقييم خمسة مقاييس للغة كري السهول (Plains Cree، اللغة المعيارية الحالية). ثلاثة منها مستقلة عن اللغة وتعمل مع أي لغة؛ بينما يعتمد اثنان حاليًا على إضافات خاصة بلغة CRK وسيتم تعميمهما مع التوسع إلى لغات أخرى.

المقياس	النطاق	ما الذي يقيسه	الحالة
chrF++	0–100	التداخل في n-grams على مستوى الأحرف بين الترجمات المتوقعة والمرجعية. أفضل مقياس سطحي للغات الغنية صرفيًا. يستخدم التقييم الأصلي لمكتبة sacrebleu.	✅ جميع اللغات
Exact match	0.0–1.0	نسبة المدخلات التي تطابق فيها الترجمة المتوقعة الترجمة المرجعية تمامًا بعد التطبيع.	✅ جميع اللغات
FST acceptance	0.0–1.0	نسبة كلمات المخرجات التي يقبلها محوّل الحالات المنتهية (المحلل الصرفي). يُحسب فقط عند توفير ملف FST ثنائي.	✅ جميع اللغات التي تتوفر لها FST
Equivalent match	0.0–1.0	نسبة المدخلات المطابقة للمرجع أو لصيغة بديلة مقبولة — مع مراعاة ترتيب الكلمات، والأعراف الإملائية، والاختلافات اللهجية.	⚡ CRK (قيد التعميم)
Semantic score	0.0–1.0	درجة الحفاظ على المعنى — إلى أي مدى تنقل الترجمة المعنى المقصود بغض النظر عن الشكل السطحي؟	⚡ CRK (قيد التعميم)

من المخطط إضافة مقاييس أخرى: الدقة الصرفية، واكتشاف التناوب اللغوي، والالتزام بالمصطلحات، واكتشاف الهلوسة. راجع Scoring Specification §2 للاطلاع على القائمة الكاملة المكونة من 19 مقياسًا.

كيف تُحسب الدرجة المركبة (composite score)؟

الدرجة المركبة هي متوسط مرجح للمقاييس المتاحة، مطبّع على نطاق من 0.0 إلى 1.0. تُحدد الأوزان في ملفين تعريفيين:

Profile A (اللغات التي تتوفر لها FST): 9 مقاييس، وتحمل المقاييس البنيوية (FST + الدقة الصرفية) 40% من وزن الدرجة المركبة
Profile B (اللغات التي لا تتوفر لها FST): 8 مقاييس، ويحمل المقياس الدلالي وchrF++ الوزن الأعلى بالتساوي

عندما يكون أحد المقاييس غير متاح، يُعاد توزيع وزنه تناسبيًا على المقاييس المتبقية. هذا يعني أن المعايير في مراحلها المبكرة (التي تتوفر لها فقط chrF++ والمطابقة التامة) لا تزال تُنتج درجات مركبة صحيحة — وتعكس الأوزان الفعلية ببساطة ما هو متاح.

تجدون جداول الأوزان الكاملة وقواعد التطبيع ومبررات الاستبعاد في Scoring Specification §4. يعكس كود إطار التقييم هذه الجداول في mt_eval_harness/scoring.py. يُطبّع مقياس chrF++ بقسمته على 100 قبل الترجيح؛ وتُعكس معدلات التناوب اللغوي والهلوسة (الأقل = الأفضل).

ما هي مستويات الجودة؟

مستويات الجودة هي تسميات استدلالية مرتبطة بنطاقات الدرجة المركبة. وهي تساعد في توضيح ما تعنيه الدرجة عمليًا:

المستوى	نطاق الدرجة المركبة	التفسير
Baseline	0.00 – 0.30	دون مستوى الجودة المفيد. تحتاج الطريقة إلى تحسين كبير.
Emerging	0.30 – 0.50	تُظهر إمكانات واعدة. بعض الترجمات صحيحة لكنها غير متسقة.
Functional	0.50 – 0.70	قابلة للاستخدام كمرجع مع مراجعة بشرية. غير مناسبة للنشر دون مراجعة.
Deployable	0.70 – 0.85	جاهزة للاستخدام الإنتاجي مع مراجعة دورية. تُفعّل أهلية نقل الملكية.
Fluent	0.85 – 1.00	جودة قريبة من مستوى المتحدث الأصلي. مناسبة للنشر دون إشراف.

ما الفرق بين مستويات الجودة ومستويات التحقق؟

تصف مستويات الجودة ما تعنيه الدرجة الآلية (من Baseline إلى Fluent). أما مستويات التحقق فتصف من قام بالتحقق من صحة النتيجة:

مستوى التحقق	ما الذي يعنيه
Self-benchmarked	شغّل مقدّم المشاركة إطار التقييم بنفسه. الدرجات معقولة لكنها غير مُتحقق منها.
GDS Verified	أعاد أحد المشرفين إنتاج النتيجة باستخدام تكوين الطريقة المُقدَّمة.
Community Validated	راجع متحدثون ثنائيو اللغة الترجمات وأكدوا جودتها.

يمكن لطريقة ما أن تكون بمستوى جودة "Deployable" لكن بمستوى تحقق "Self-benchmarked" فقط — أي أن الدرجة تبدو ممتازة لكن لم يؤكدها أحد بشكل مستقل.

التقديم والاستبعاد

ما الذي يؤدي إلى استبعاد مشاركتي؟

سيتم رفض مشاركتك أو وضع علامة عليها في الحالات التالية:

تعرّضت طريقتك لبيانات التقييم. إذا قمت بتدريب أو ضبط دقيق أو استخدام أسلوب الأمثلة القليلة (few-shot) أو استخدمت بأي شكل آخر أي مدخلات من مجموعة بيانات التقييم، فإن درجاتك مضخّمة بشكل مصطنع. ويشمل ذلك استخدام الترجمات المرجعية في الموجّه (prompt) الخاص بك.
بطاقة التشغيل (run card) الخاصة بك تفشل في فحوصات السلامة. يجب أن تطابق البصمة (fingerprint) التكوين. تُرفض بطاقات التشغيل التي تم العبث بها.
طريقتك لا تنفّذ بروتوكول TranslationMethod. يتوقع إطار التقييم translate(entries, config) → results. لا تُقبل التكاملات المخصصة التي تتجاوز إطار التقييم.

هل يمكنني التقديم عدة مرات؟

نعم. تتتبع لوحة المتصدرين جميع المشاركات. يمكنك التكرار — إجراء عشرات التجارب وتقديم أفضلها فقط. تسجل كل مشاركة بصمة فريدة، لذا لا يوجد أي لبس حول أي تشغيل أنتج أي درجة.

كيف يتم التحقق من درجتي؟

Self-benchmarked (تلقائي): تبدأ كل مشاركة من هنا.
GDS Verified: قدّم طريقتك كحزمة قابلة لإعادة الإنتاج (الكود + التكوين + بيانات التوجيه). سيعيد أحد المشرفين تشغيلها على نفس مجموعة البيانات ويؤكد تطابق الدرجات.
Community Validated: بالنسبة للغات الشعوب الأصلية، يتطلب هذا قيام متحدثين ثنائيي اللغة بمراجعة عينة من الترجمات. لا يمكن أتمتة هذه الخطوة — فهي تتطلب التواصل مع المجتمع اللغوي.

هل واجهة برمجة تطبيقات التقديم متاحة؟

ليس بعد. نقطة النهاية https://mtevalarena.org/api/leaderboard/submit لا تزال مخططًا مستقبليًا. ينبغي تقديم المشاركات الحالية عبر طلب سحب (pull request) إلى مستودع إطار التقييم مع ملف JSON الخاص ببطاقة التشغيل في المجلد results/.

النماذج والمعاملات

ما النموذج الذي ينبغي أن أستخدمه؟

لا يوجد نموذج واحد هو الأفضل — فالأمر يعتمد على الزوج اللغوي وميزانيتك ونهجك. إرشادات عامة:

نوع اللغة	نقطة البداية الموصى بها	السبب
لغات عالية الموارد (الفرنسية، الإسبانية، اليابانية)	`google/gemini-2.5-flash` أو `gpt-4o-mini`	سريع ومنخفض التكلفة وخط أساس قوي
لغات منخفضة الموارد مع تغطية جزئية في نماذج اللغة الكبيرة (الكيتشوا، اليوروبا)	`google/gemini-2.5-pro` أو `anthropic/claude-sonnet-4`	تمتلك النماذج الأكبر معرفة كامنة أفضل
لغات متعددة التركيب / منخفضة الموارد جدًا (كري السهول، الإينوكتيتوت)	`google/gemini-2.5-pro` مع التوجيه	بيانات التوجيه أهم من اختيار النموذج. يتضمن OMT-1600 بعض اللغات متعددة التركيب (مثل CRK في المستوى R1) لكن مع ترميز BPE قياسي — قيّمه كخط أساس في الـ Arena.

يستخدم إطار التقييم OpenRouter، لذا يمكن قياس أداء أي نموذج متاح على OpenRouter. شغّل champollion models --method llm لعرض النماذج المتاحة.

ما درجة الحرارة (temperature) التي ينبغي أن أستخدمها؟

القيم الأقل أفضل عمومًا للترجمة:

درجة الحرارة	التأثير	موصى بها لـ
0.0 – 0.2	مخرجات حتمية ومتسقة إلى حد كبير	الطرق الإنتاجية، والقياسات النهائية
0.3 – 0.5	بعض التنوع، وأحيانًا أكثر إبداعًا	الاستكشاف، والتكرار المبكر
0.6+	تنوع كبير وغير قابل للتنبؤ	غير موصى بها لقياس أداء الترجمة الآلية

تُسجَّل درجة الحرارة في بطاقة التشغيل، لذا تُنتج درجات الحرارة المختلفة بصمات مختلفة — وتُعامل كتجارب مختلفة.

هل تساعد بيانات التوجيه (coaching data)؟

نعم، وبشكل كبير — بالنسبة للغات منخفضة الموارد. تُدرَج بيانات التوجيه (القواعد النحوية، ومدخلات القاموس، وملاحظات الأسلوب) في موجّه النظام لنموذج اللغة الكبير. بالنسبة للغة كري السهول، تتفوق الطرق المدعومة بالتوجيه باستمرار على طرق نماذج اللغة الكبيرة الخام في اللغات متعددة التركيب، لأن نماذج اللغة الكبيرة العامة تتعرض بشكل محدود للغات متعددة التركيب ولا تمتلك وعيًا صرفيًا. حتى OMT-1600، الذي دُرّب خصيصًا للغة CRK، يستخدم ترميز BPE القياسي الذي لا يستطيع تمثيل الصرف متعدد التركيب بنيويًا. توفر بيانات التوجيه السياق اللغوي الذي يفتقر إليه النموذج.

بالنسبة للغات عالية الموارد (الفرنسية، الإسبانية)، يكون تأثير التوجيه أقل لأن النموذج يمتلك بالفعل معرفة أساسية قوية.

راجع Coaching Data للاطلاع على المواصفات الكاملة.

FST والتحقق الصرفي

ماذا لو لم يكن هناك FST للغتي؟

كثير من اللغات لا تمتلك محوّل حالات منتهية (FST). لا بأس بذلك — يعمل إطار التقييم بدونه. تستخدم الدرجة المركبة أوزان Profile B (راجع Scoring Specification §4.3) التي تنقل الوزن إلى المقاييس الدلالية والسطحية. يُسجَّل FST acceptance بقيمة null في بطاقة التشغيل.

السجلات الرئيسية لملفات FST الموجودة:

السجل	التغطية	الرابط
GiellaLT	السامية الشمالية (Sámi)، والكري، والإينوكتيتوت، ولغات أخرى من المنطقة القطبية وشبه القطبية	giellalt.uit.no
ALTLab	كري السهول، وكري الغابات، والأوجيبوي	altlab.artsrn.ualberta.ca
Apertium	حوالي 60 زوجًا لغويًا، معظمها أوروبية	apertium.org
UniMorph	أنماط صرفية لأكثر من 150 لغة	unimorph.github.io

هل يمكنني بناء FST؟

نعم، لكن الأمر ليس بسيطًا. يُرمّز FST القواعد الصرفية للغة — أي جميع صيغ الكلمات الصحيحة. ويتطلب بناؤه معرفة لغوية عميقة باللغة. إذا كان لديك إمكانية الوصول إلى قواعد صرفية موثقة (مثلًا من قسم لسانيات)، فيمكن تجميعها في FST باستخدام أدوات مثل HFST أو Foma.

كيف يعمل التحقق المقيّد بـ FST عمليًا؟

يعمل خط الأنابيب المقيّد بـ FST على النحو التالي:

يولّد نموذج اللغة الكبير ترجمة
تُفحص كل كلمة في المخرجات مقابل الـ FST
تُعلَّم الكلمات التي يرفضها الـ FST بأنها غير صحيحة صرفيًا
يمكن للطريقة إعادة المحاولة مع تغذية راجعة ("الكلمة X غير صحيحة، حاول مرة أخرى")
بعد إعادة المحاولات، تُسجَّل الكلمات غير الصحيحة المتبقية

يقيس معدل قبول FST عدد الكلمات التي تجتاز التحقق. راجع FST-Gated Pipeline Tutorial للاطلاع على مثال عملي كامل.

البيانات ومجموعات البيانات

هل يمكنني المساهمة بمجموعة بيانات للغة جديدة؟

نعم. المتطلبات الدنيا حسب Benchmark Specification §11:

50 مدخلة بمعيار ذهبي (المصدر + ترجمة مرجعية مُتحقق منها)
30 مدخلة تطويرية (يمكن أن تتداخل مع المعيار الذهبي في المدونات الصغيرة)
موافقة المجتمع (بالنسبة للغات الشعوب الأصلية، تفويض صريح من هيئة حوكمة)
توثيق المصدر (من أين جاءت البيانات، وما الترخيص المطبَّق عليها)

تفتح مجموعات البيانات الجديدة مسارات جديدة في لوحة المتصدرين تلقائيًا. راجع For Language Communities للاطلاع على دليل المساهمين.

ما الصيغة التي ينبغي أن تكون عليها مجموعة بياناتي؟

JSON بأسماء الحقول القياسية:

{
  "name": "my-language-dev-v1",
  "language_pair": "en-xxx",
  "segment": "development",
  "version": "1.0",
  "entries": [
    {
      "id": 1,
      "source": "Hello",
      "reference": "[translation in target language]",
      "difficulty": 1,
      "domain": "general"
    }
  ]
}

راجع Datasets للاطلاع على المخطط الكامل وتعريفات مستويات الصعوبة.

السيادة والملكية

من يملك طريقة بُنيت للغة من لغات الشعوب الأصلية؟

بالنسبة للغات الشعوب الأصلية، فإن الطرق التي تصل إلى مستوى Deployable (درجة مركبة ≥ 0.70) وتجتاز التحقق المجتمعي تُفعّل عملية نقل الملكية. تنتقل ملكية الكود من الباحث إلى المنظمة الحاكمة للمجتمع اللغوي.

يحتفظ الباحث بما يلي:

حقوق النشر (الأوراق الأكاديمية حول الطريقة)
الإشادة به في لوحة المتصدرين
الحق في تطبيق نفس التقنيات على لغات أخرى

تحصل المنظمة الحاكمة على ما يلي:

الملكية الكاملة لكود الطريقة وبيانات التوجيه
التحكم في النشر (متى وأين وكيف)
الإيرادات من استخدام واجهة برمجة التطبيقات (90% للمجتمع، 10% للبنية التحتية)

هل يمكنني استخدام champollion للغات غير الأصلية دون أي اعتبارات سيادية؟

نعم. بالنسبة للغات القياسية (الفرنسية، اليابانية، الإسبانية، إلخ)، لا توجد اعتبارات سيادية. استخدم champollion بشكل اعتيادي — ترجم وزامن وانشر كما تشاء. ينطبق إطار السيادة تحديدًا على لغات الشعوب الأصلية واللغات الخاضعة لحوكمة مجتمعية حيث تتطلب مبادئ حوكمة البيانات (OCAP®، وCARE، وTe Mana Raraunga) اعتبارات خاصة.

انظر أيضًا

How It Works — الشرح الكامل للحل
Scoring Specification — المصدر الوحيد للحقيقة (SSOT) لكل منطق التقييم (المقاييس، والأوزان، والمستويات)
Benchmark Specification — بروتوكول التقييم، وصيغة المدونة، والسيادة
Submit a Method — دليل البدء السريع خطوة بخطوة
Leaderboard Rules — معايير التقديم
Data Sovereignty — OCAP®، وCARE، والالتزامات الأخلاقية

التقييم والمقاييس​

ما المقاييس التي يحسبها إطار التقييم؟​

كيف تُحسب الدرجة المركبة (composite score)؟​

ما هي مستويات الجودة؟​

ما الفرق بين مستويات الجودة ومستويات التحقق؟​

التقديم والاستبعاد​

ما الذي يؤدي إلى استبعاد مشاركتي؟​

هل يمكنني التقديم عدة مرات؟​

كيف يتم التحقق من درجتي؟​

هل واجهة برمجة تطبيقات التقديم متاحة؟​

النماذج والمعاملات​

ما النموذج الذي ينبغي أن أستخدمه؟​

ما درجة الحرارة (temperature) التي ينبغي أن أستخدمها؟​

هل تساعد بيانات التوجيه (coaching data)؟​

FST والتحقق الصرفي​

ماذا لو لم يكن هناك FST للغتي؟​

هل يمكنني بناء FST؟​

كيف يعمل التحقق المقيّد بـ FST عمليًا؟​

البيانات ومجموعات البيانات​

هل يمكنني المساهمة بمجموعة بيانات للغة جديدة؟​

ما الصيغة التي ينبغي أن تكون عليها مجموعة بياناتي؟​

السيادة والملكية​

من يملك طريقة بُنيت للغة من لغات الشعوب الأصلية؟​

هل يمكنني استخدام champollion للغات غير الأصلية دون أي اعتبارات سيادية؟​

انظر أيضًا​