استراتيجية شراكة المدونات اللغوية: إنشاء مدونات التقييم من خلال أقسام اللسانيات الأكاديمية

الغرض. تقدّم هذه الوثيقة سير العمل الكامل لإنشاء مدونة لتقييم الترجمة الآلية من خلال شراكة مع قسم اللسانيات. وهي تغطي ما نحتاج من القسم أن يقدّمه، وما يجب أن تبدو عليه المدونة، وكيفية ختمها تشفيريًا، وكيفية عمل التقييم في بيئة معزولة (sandbox)، وما يحصل عليه القسم في المقابل. هذه هي الوثيقة التي تصطحبها معك إلى اجتماع مع شريك أكاديمي محتمل.

الجمهور المستهدف. رؤساء الأقسام، والباحثون الرئيسيون، ومنسقو البحوث، ومديرو برامج لغات الشعوب الأصلية في الجامعات التي لديها برامج نشطة لتوثيق اللغات أو معالجة اللغات الطبيعية.

الوثائق المصاحبة:

بروتوكول التحقق من المتحدثين — طلب موجّه للمتحدثين ثنائيي اللغة لتقييم الترجمات الموجودة (تقييم الجودة، التحقق عبر أداة الفحص اللغوي، مراجعة FST)

مواصفات المعيار المرجعي — المواصفات التقنية الكاملة للمدونات وبطاقات التشغيل وبروتوكولات التقييم

سيادة البيانات — مبادئ OCAP® وCARE وأهمية نقل الملكية

آخر تحديث: 2026-06-07

1. ما الذي تنتجه هذه الشراكة

مدونة تقييم مختومة: مجموعة منسّقة من أزواج النصوص المتوازية (اللغة المصدر ← اللغة الهدف) تصبح المرجع الأساسي لقياس جودة الترجمة الآلية. تُختبر الأساليب مقابل هذه المدونة في بيئة معزولة — ولا يطّلع المطوّرون أبدًا على بيانات الاختبار.

تنتج الشراكة ثلاثة مخرجات:

المخرج	ما هو	من يتحكم به
مدونة التطوير	أكثر من 100–200 زوج نصي متوازٍ علني لتطوير الأساليب	تُنشر علنًا (CC BY-NC-SA 4.0 أو ما يعادلها)
مجموعة الاختبار الذهبية	50–150 زوجًا نصيًا متوازيًا سريًا للتقييم الرسمي	منظمة الحوكمة المجتمعية (مختومة تشفيريًا)
حزمة الاختبارات التشخيصية	10–50 زوجًا تقابليًا موجّهًا لاختبار ظواهر لغوية محددة	تُنشر علنًا

تتيح مدونة التطوير لأي شخص بناء أساليب الترجمة. وتضمن المجموعة الذهبية اختبار تلك الأساليب بنزاهة. وتكشف الحزمة التشخيصية أنماط إخفاق محددة (على سبيل المثال: «هل يستطيع هذا النظام التعامل مع ظاهرة الإحالة البعيدة (obviation)؟»).

2. ما الذي يحتاج القسم إلى القيام به

المرحلة 1: تصميم المدونة (2–4 أسابيع، من وقت الباحث)

القائد: الباحث الرئيسي أو باحث ما بعد الدكتوراه ذو الخبرة في اللغة الهدف.

اختيار مجالات المواد المصدرية. اختر 4–6 مجالات واقعية تحتاج فيها مجتمعات اللغة فعليًا إلى الترجمة. يدعم تصنيفنا 16 مجالًا (انظر مواصفات المعيار المرجعي §2.7):

الأولوية	المجال	السبب
🔴 عالية	`edu` — التعليمي	الكتب المدرسية والمناهج — حاجة مجتمعية مباشرة
🔴 عالية	`gov` — الحكومي	وثائق المجالس المحلية والسياسات — حاجة يومية عملية
🔴 عالية	`medical` — الصحي	استمارات استقبال العيادات والمعلومات الصحية — حساسة من حيث السلامة
🟡 متوسطة	`conv` — المحادثات	الكلام اليومي — يؤسس مستوى الطلاقة الأساسي
🟡 متوسطة	`legal` — القانوني	وثائق الحقوق والمعاهدات — ذات أهمية مجتمعية
🟢 أقل	`literary` — الأدبي/الثقافي	القصص والتواريخ الشفوية — الحفاظ على الثقافة

صياغة وثيقة تصميم المدونة التي تحدد:
- الحجم المستهدف لكل قسم (development، gold_standard، diagnostic)
- توزيع مستويات الصعوبة (انظر §3.3 أدناه)
- تغطية السجلات اللغوية والمجالات
- معايير اختيار الجمل المصدرية (لا نصوص اصطناعية، ولا نصوص كتابية مقدّسة فقط)
- خطة استقطاب المتحدثين
تقديم التصميم لنا للمراجعة. نتحقق من صحته مقابل مخطط المدونة (مواصفات المعيار المرجعي §2) ونعيد الملاحظات في غضون أسبوع واحد.

المرحلة 2: إنشاء الجمل المصدرية (4–8 أسابيع، من وقت المتحدثين)

القائد: منسق البحوث بالتعاون مع متحدثين ثنائيي اللغة.

توليد أو اختيار الجمل المصدرية عبر المجالات ومستويات الصعوبة المخطط لها. يمكن أن تكون المصادر:
- مواد ثنائية اللغة منشورة سابقًا (كتب مدرسية، وثائق حكومية)
- جملًا مستخلصة حديثًا مصممة لتغطية ظواهر لغوية محددة
- مواد مقتبسة من وثائق واقعية (جداول أعمال المجالس المحلية، استمارات العيادات، المواد التعليمية)
يجب أن تحتوي كل جملة مصدرية على:
- وسم المجال (من تصنيف الرموز الستة عشر)
- وسم السجل اللغوي (محادثة، رسمي، تقني، احتفالي، تعليمي)
- وسم السياق (تحية، تصريح، سؤال، تعليمات، سرد، تسمية، خطأ)
- مستوى الصعوبة المقدّر (1–5، انظر §3.3)
- وسم المصدر (textbook، elicited، corpus، gold_standard)
ترجمة كل جملة مصدرية إلى اللغة الهدف، على يد متحدثين ثنائيي اللغة. تُعدّ الترجمات المرجعية المتعددة لكل مدخل قيّمة لكنها ليست مطلوبة.
اختياريًا، إضافة تحليل صرفي لكل ترجمة مرجعية:
- شرح بيني السطور (تفكيك مورفيم بمورفيم)
- سلسلة وسوم FST (في حال وجود FST للغة)
- ملاحظات المترجم حول المتغيرات اللهجية أو الغموض أو السياق الثقافي

المرحلة 3: ضمان الجودة (2–4 أسابيع)

القائد: لساني ذو خبرة في اللغة الهدف.

المراجعة المتبادلة. يجب مراجعة كل ترجمة من قبل متحدث ثنائي اللغة إضافي واحد على الأقل لم يُنتج الترجمة الأصلية. يتحقق المراجع من:
- هل الترجمة دقيقة؟
- هل تبدو طبيعية؟
- هل تقييم الصعوبة صحيح؟
- هل توجد متغيرات مقبولة ينبغي تدوينها؟
تمرير المدونة عبر أداة التحقق من المخطط لدينا. نوفر سكربتًا يتحقق من صحة المدونة مقابل مخطط المدخلات (مواصفات المعيار المرجعي §2.2). وهو يتحقق من:
- وجود الحقول المطلوبة
- صحة رموز المجالات
- أن مستويات الصعوبة أعداد صحيحة من 1 إلى 5
- عدم وجود معرّفات مكررة
- ترميز الأحرف (تطبيع UTF-8 NFC)
في حال وجود FST للغة، يجب تمرير الترجمات المرجعية عبره. ينبغي أن تكون كل كلمة في المرجع صالحة وفق FST. أما الكلمات غير الصالحة (الكلمات الدخيلة، والمستحدثات، وأسماء الأعلام) فيجب توثيقها في قائمة سماح.

المرحلة 4: التقسيم والختم (أسبوع واحد، من فريقنا الهندسي)

القائد: فريق Champollion، مع مراجعة من القسم.

تقسيم طبقي. نقسّم المدونة إلى أجزاء باستخدام عينات عشوائية حتمية (البذرة العشوائية موثّقة وقابلة للتكرار):

الجزء	الحجم المستهدف	الوصول
`development`	60% من المدخلات (بحد أدنى 100)	علني
`gold_standard`	30% من المدخلات (بحد أدنى 50)	سري، مختوم
`held_out`	10% من المدخلات (بحد أدنى 10)	سري، مختوم، لا يُستخدم أبدًا حتى تفعيله

يحافظ التقسيم على توزيع مستويات الصعوبة (عينات طبقية) بحيث يكون لكل جزء تمثيل متناسب عبر المستويات.

الختم التشفيري لجزأي gold_standard وheld_out:

1. SHA-256 hash of each entry (source + reference + metadata)
2. SHA-256 hash of the complete segment file
3. Segment file encrypted with AES-256-GCM
4. Encryption key split using Shamir Secret Sharing (2-of-3 threshold)
5. Key shares distributed to:
     - Share 1: Community governance organization
     - Share 2: Academic department partner
     - Share 3: Champollion project (escrow)
6. Hash manifest published to a public commit (proves the corpus existed
   at a specific time without revealing its contents)

جزء التطوير يُودَع في المستودع العام ويُنشر مع ترخيص كامل.
الجزء التشخيصي علني أيضًا — فهو يختبر ظواهر لغوية محددة (انظر §3.4).

المرحلة 5: التكامل والإطلاق (1–2 أسبوع، من فريقنا الهندسي)

إعداد منصة التقييم. نضيف اللغة إلى منصة التقييم:
- إنشاء بطاقة اللغة أو التحقق منها
- تسجيل المدونة في سجل مجموعات البيانات
- إعداد مقاييس LYSS (LYSS-fst في حال توفر FST، وLYSS-eq في حال وجود قواعد فحص لغوي)
- اختيار ملف التقييم الافتراضي (Profile A في حال توفر FST، وإلا Profile B)
القياس المرجعي الأساسي. نُجري مسحًا بـ 12 نموذجًا مقابل جزء التطوير لملء لوحة الترتيب بالنتائج الأولية.
الإعلان العام. تظهر اللغة على لوحة ترتيب Arena مع قياس مرجعي حي لجزء التطوير. ويُنسب الفضل للقسم بوصفه شريك المدونة.

3. ما الذي يجب أن تبدو عليه المدونة

3.1 الصيغة

كل ملف من ملفات المدونة هو وثيقة JSON تتبع المخطط الوارد في مواصفات المعيار المرجعي §2.1–§2.2:

{
  "dataset": {
    "id": "crk-ualberta-v1",
    "version": "1.0",
    "language_pair": "EN→CRK",
    "source_language": "en",
    "target_language": "crk",
    "created": "2026-09-15",
    "license": "CC-BY-NC-SA-4.0",
    "provenance": ["textbook", "elicited", "gold_standard"]
  },
  "entries": [
    {
      "id": 1,
      "source": "I see the dog",
      "reference": "niwâpamâw atim",
      "segment": "development",
      "difficulty": 2,
      "provenance": "textbook",
      "register": "conversational",
      "context": "declaration",
      "domain": "edu",
      "morphological_analysis": "ni-wâpam-âw atim | 1sg-see.TA-3sg.DIR dog.AN",
      "notes": "Animate noun (atim); direct form because speaker is proximate"
    }
  ]
}

3.2 متطلبات الحجم الأدنى

الجزء	الحد الأدنى من المدخلات	الموصى به
`development`	100	200–300
`gold_standard`	50	100–150
`diagnostic`	10	30–50
`held_out`	10	20–30
المجموع	170	350–530

3.3 توزيع مستويات الصعوبة

يجب أن تتضمن المدونة مدخلات عبر جميع مستويات الصعوبة الخمسة، مع ترجيح المستويات 2–4:

المستوى	الوصف	التوزيع المستهدف
1 — مفردات أساسية	كلمات مفردة، تحيات شائعة، أرقام	10–15%
2 — جمل بسيطة	فاعل-فعل-مفعول، زمن المضارع	25–30%
3 — تعقيد متوسط	زمنا الماضي/المستقبل، الملكية، التمييز بين الحي وغير الحي	30–35%
4 — صرف معقد	الإحالة البعيدة (obviation)، المبني للمجهول، النسق المتصل، الجمل الموصولة	15–20%
5 — متقدم	جمل متعددة العبارات، سجل رسمي، احتفالي، اصطلاحي	5–10%

3.4 حزمة الاختبارات التشخيصية

يختبر الجزء التشخيصي ظواهر لغوية محددة باستخدام أزواج تقابلية: ترجمة واحدة صحيحة وترجمة أخرى غير صحيحة تختلف عنها اختلافًا طفيفًا. إذا منح مقياس النظام الترجمةَ الصحيحة درجة أعلى، يجتاز الاختبار.

بالنسبة للغات متعددة التركيب، ينبغي أن تستهدف الحزمة التشخيصية:

الظاهرة	مثال (لغة الكري Cree)	ما تختبره
مطابقة الحيوية	atim (حيّ) مقابل maskisin (غير حيّ) — صيغ فعلية مختلفة	هل يعرف النظام أي الأسماء حيّة؟
الإحالة البعيدة (Obviation)	ضمير الغائب القريب مقابل البعيد	هل يتتبع تراتبية ضمائر الغائب؟
التعليم العكسي	صيغ الفعل المباشرة مقابل العكسية	هل يتعامل مع حالة تفوّق المفعول على الفاعل؟
المتصل/المستقل	ترتيب الفعل في الجملة الرئيسية مقابل الجملة التابعة	هل يستخدم النموذج الفعلي الصحيح؟
الشمول/الاستثناء	«نحن (بما فيكم أنتم)» مقابل «نحن (باستثنائكم)»	هل يميّز صيغ المتكلم الجمع؟

بالنسبة للعائلات اللغوية الأخرى، حدّد الظواهر الثلاث إلى الخمس الأكثر دلالة في التمييز بين الترجمة الكفؤة وغير الكفؤة. والخبرة اللسانية للقسم أساسية هنا — فهذه هي الاختبارات التي لا يعرف صياغتها إلا متخصص.

3.5 ما لا نريده

النمط المرفوض	السبب
نصوص كتابية مقدّسة فقط	سجل لغوي قديم، ومفردات طقسية، وبنية نمطية. قيّم OMT-1600 بهذه الطريقة 1,560 لغة — ونحن نتجنبها عمدًا.
أزواج تقييم اصطناعية	المراجع المولّدة بنماذج اللغة الكبيرة تُفرغ التقييم من معناه. يجب أن يكون المرجع من تأليف بشري.
مدونات أحادية السجل اللغوي	كلها رسمية، أو كلها محادثات. الترجمة الواقعية تشمل سجلات لغوية متعددة.
مستوى الصعوبة 1 فقط	الكلمات المفردة والتحيات لا تختبر الترجمة — بل تختبر البحث في المعجم.
مراجع مترجمة آليًا	استخدام مخرجات Google Translate كـ«مرجع» هو استدلال دائري.
جمل بدون وسم سياق	نحتاج إلى معرفة الوظيفة التواصلية لأغراض التحليل التشخيصي.

4. الختم التشفيري والاختبار في البيئة المعزولة

4.1 لماذا نختم مجموعة الاختبار؟

تنشر المعايير المرجعية التقليدية في تعلّم الآلة مجموعات الاختبار علنًا. وبمجرد نشرها، ستتدرب نماذج اللغة الكبيرة الرائدة عليها في نهاية المطاف (عمدًا أو من خلال كشط الويب)، مما يجعل النتائج غير موثوقة. أما بيانات لغات الشعوب الأصلية، فثمة مصدر قلق إضافي: يمكن استخدام البيانات اللغوية المنشورة دون موافقة المجتمع.

يضمن الختم:

سلامة مجموعة الاختبار: لا يمكن للأساليب فرط التكيّف مع بيانات لم ترها قط
سيادة البيانات: يتحكم المجتمع في من يجري التقييم على بياناته
النضارة الدائمة: لا تتلوث مجموعة الاختبار أبدًا

4.2 كيف يعمل الاختبار في البيئة المعزولة

Developer workflow:
  1. Developer builds a translation method using the PUBLIC development corpus
  2. Developer tests locally against the development segment (unlimited, self-serve)
  3. When ready, developer submits their complete method (code + config + coaching data)
  4. Governance org installs the method in the evaluation sandbox
  5. Sandbox runs the method against the SEALED gold-standard test set
  6. Only scores are returned to the developer
  7. Developer never sees the source sentences or reference translations

The sandbox:
  - Runs on governance-controlled infrastructure
  - Has selective network access (LLM APIs only, no exfiltration)
  - Produces a tamper-proof run card (SHA-256 hash of all inputs and outputs)
  - Logs all execution for audit purposes
  - Can be inspected by the governance org at any time

4.3 إدارة المفاتيح

يُقسَّم مفتاح تشفير مجموعة الاختبار المختومة باستخدام مشاركة سر Shamir بعتبة 2 من 3:

حامل الحصة	الدور	صلاحية الإلغاء
منظمة الحوكمة المجتمعية	الوصي الرئيسي	يمكنها إلغاء صلاحية التقييم من جانب واحد
القسم الأكاديمي الشريك	وصي مشارك	يمكنه المشاركة في إعادة بناء المفتاح
مشروع Champollion	الضمان	لا يمكنه الوصول إلى البيانات بمفرده؛ يضمن الاستمرارية في حال تعذّر توفر الأطراف الأخرى

أي حصتين من ثلاث تعيدان بناء المفتاح. وهذا يعني:

يمكن للمجتمع + القسم الوصول إلى البيانات دون Champollion
يمكن للمجتمع + Champollion الوصول إلى البيانات دون القسم
لا يمكن لـ Champollion بمفرده أبدًا الوصول إلى البيانات

4.4 بيانات التجزئة

عند ختم المدونة، يُنشر بيان تجزئة (hash manifest) في إيداع Git علني:

{
  "corpus_id": "crk-ualberta-v1",
  "seal_date": "2026-09-15T00:00:00Z",
  "segments": {
    "development": {
      "entry_count": 200,
      "sha256": "a3f7c...",
      "access": "public"
    },
    "gold_standard": {
      "entry_count": 100,
      "sha256": "b8d2e...",
      "access": "sealed",
      "key_scheme": "shamir-2-of-3"
    },
    "held_out": {
      "entry_count": 20,
      "sha256": "c9e4f...",
      "access": "sealed",
      "key_scheme": "shamir-2-of-3"
    },
    "diagnostic": {
      "entry_count": 30,
      "sha256": "d1a3b...",
      "access": "public"
    }
  },
  "total_entries": 350,
  "manifest_sha256": "e2b5c..."
}

وهذا يثبت أن:

المدونة كانت موجودة في تاريخ محدد
لها حجم وبنية معروفان
أي تعديل على الأجزاء المختومة سيكسر سلسلة التجزئة
يمكن للمجتمع التحقق من أن بياناته لم تتعرض للتلاعب

5. ما الذي يحصل عليه القسم

5.1 البنية التحتية البحثية

الأصل	الوصف
منصة التقييم	إطار تقييم عامل ومختبر للغتهم — يوفّر شهورًا من بناء الأدوات
مقاييس LYSS	مقاييس تقييم خاصة باللغة (LYSS-fst، LYSS-eq، LYSS-sem) مُعدّة للغتهم — في حال توفر موارد FST والمعجم
لوحة الترتيب	لوحة ترتيب علنية وحية تعرض أحدث مستويات التقدم لزوجهم اللغوي
القياس المرجعي الأساسي	مسح بـ 12 نموذجًا يوفر قياسات أساسية فورية قابلة للنشر
حزمة الاختبارات التشخيصية	اختبارات موجّهة لظواهر لغوية محددة — قابلة لإعادة الاستخدام في تقييمات أخرى

5.2 المنشورات العلمية

يدعم بناء المدونة ونتائج التقييم منشورات متعددة:

الورقة البحثية	المنفذ العلمي	دور القسم
منهجية بناء المدونة	LREC, ComputEL	مؤلف رئيسي أو مشارك
نتائج التقييم الأساسية	ACL, EMNLP	مؤلف مشارك
التحقق من مقياس LYSS	WMT Metrics Shared Task	مؤلف مشارك
تصميم حزمة الاختبارات التشخيصية	SIGMORPHON, NAACL	مؤلف رئيسي أو مشارك
موارد معالجة اللغات الطبيعية الخاصة باللغة	منافذ علمية خاصة باللغة	مؤلف رئيسي

5.3 تعزيز فرص المنح

توفر الشراكة مخرجات ملموسة لمقترحات المنح البحثية:

«بنية تحتية مفتوحة المصدر لتقييم الترجمة الآلية للغة [اللغة]» — مخرج قابل للإثبات
«سيادة بيانات تشفيرية للبيانات اللغوية للشعوب الأصلية» — مبتكر وقابل للنشر
«معيار مرجعي بحوكمة مجتمعية مع لوحة ترتيب حية» — مقياس أثر مستمر
«تقييم مستقل لـ OMT-1600 / Google Translate للغة [اللغة]» — موضوع راهن وذو ظهور عالٍ

5.4 الأثر المجتمعي

يكتسب المجتمع اللغوي قدرة تقييم مستقلة — يمكنه تقييم ما إذا كان أي نظام ترجمة آلية (Google أو Meta أو نظام مخصص) يعمل فعليًا للغته
يتحكم المجتمع في بيانات الاختبار عبر وصاية المفتاح التشفيري
أي أساليب أثبتت جدارتها عبر المعيار المرجعي تنتقل ملكيتها إلى المجتمع (انظر مواصفات المعيار المرجعي §8.3)
تتدفق إيرادات الأساليب المنشورة إلى المجتمع (بنسبة تقسيم 90/10)

5.5 ما الذي يكلّفه ذلك القسم

المكوّن	التكلفة المقدّرة	من يدفع
وقت الباحث الرئيسي/باحث ما بعد الدكتوراه (التصميم، الإشراف)	~40 ساعة	القسم (أو تمويل من منحة)
تعويضات المتحدثين (الترجمة)	2,500–6,000 دولار	تمويل من منحة أو من Champollion
تعويضات المتحدثين (المراجعة)	500–1,500 دولار	تمويل من منحة أو من Champollion
وقت منسق البحوث	~20 ساعة	القسم
الهندسة، البنية التحتية، منصة التقييم	0 دولار	مشروع Champollion

نوفّر جميع أعمال الهندسة، وإعداد منصة التقييم، وتهيئة مقاييس LYSS، والتكامل مع لوحة الترتيب، والبنية التحتية المستمرة دون أي تكلفة على القسم. ومساهمة القسم هي الخبرة اللسانية والوصول إلى المتحدثين.

6. الجدول الزمني

المرحلة	المدة	المعلم الرئيسي
1: تصميم المدونة	2–4 أسابيع	اعتماد وثيقة التصميم
2: الجمل المصدرية + الترجمة	4–8 أسابيع	اكتمال المدونة الخام
3: ضمان الجودة	2–4 أسابيع	مراجعة متبادلة وتحقق من المخطط
4: الختم	أسبوع واحد	ختم المجموعة الذهبية ونشر بيان التجزئة
5: التكامل	1–2 أسبوع	اللغة حية على لوحة الترتيب مع القياسات الأساسية
المجموع	10–19 أسبوعًا	لوحة ترتيب حية مع تقييم مختوم

7. كيف تبدأ

تواصل معنا — [البريد الإلكتروني/جهة الاتصال للمشروع]. سنحدد موعدًا لمكالمة مدتها 30 دقيقة لمناقشة لغتكم، والموارد المتاحة، ولوجستيات الشراكة.
نوفر نحن:
- هذه الوثيقة
- مخطط المدونة وأدوات التحقق
- أمثلة من مدونتنا الحالية للغة الكري (CRK)
- قالب مسودة لتصميم المدونة
توفرون أنتم:
- باحثًا رئيسيًا أو باحث ما بعد دكتوراه لقيادة العمل اللساني
- الوصول إلى متحدثين ثنائيي اللغة (أو خطة لاستقطابهم)
- معلومات عن الموارد المتاحة (FST، المعجم، المدونات القائمة)
- موافقة مؤسسية على حوكمة البيانات (الامتثال لـ OCAP® أو ما يعادله)
نصمم المدونة بشكل مشترك — اختيار المجالات، وتوزيع الصعوبة، والاختبارات التشخيصية، والجدول الزمني، والميزانية.
يبدأ العمل. نُجري متابعة أسبوعية. يتمتع القسم باستقلالية كاملة في القرارات اللسانية؛ ونتولى نحن جميع الأعمال الهندسية.

8. الأسئلة الشائعة

«لدينا بالفعل مدونة متوازية. هل يمكننا استخدامها؟»

نعم — إذا كان للمدونة مصدر واضح، وكانت من تأليف بشري، وكان الترخيص يسمح باستخدامها في التقييم. سنساعدكم على تنسيقها وفق مخططنا، وإضافة البيانات الوصفية الناقصة، ودمجها. يمكن للمدونات القائمة تسريع الجدول الزمني بشكل كبير (تخطي المرحلة 2 أو اختصارها إلى عملية سدّ ثغرات).

«ليس لدينا FST للغتنا.»

لا بأس. يتطلب LYSS-fst (الصحة الصرفية) وجود FST، لكن منصة التقييم تعمل بدونه باستخدام أوزان Profile B (chrF++ وBLEU وCOMET والمقاييس السلوكية). إذا كان هناك FST من GiellaLT للغة قريبة، فقد نتمكن من تكييفه. وإن لم يكن، فإن المدونة لا تزال تتيح تقييمًا قيّمًا — لكن دون بوابة التحقق من الصحة الصرفية.

«يستخدم متحدثونا نظام كتابة غير لاتيني.»

مدعوم بالكامل. يتعامل مخطط المدونة مع أي نظام كتابة من Unicode. صمّمنا للكتابة الرومانية المعيارية (SRO) والكتابة المقطعية للغة الكري، لكن البنية التحتية نفسها تعمل مع الديوناغارية، أو الكتابة العربية، أو نظم CJK، أو الإثيوبية، أو أي نظام كتابة آخر.

«ماذا عن التنوع اللهجي؟»

ضعوا له وسمًا. يتضمن مخطط مدخلات المدونة حقل notes للمعلومات اللهجية. إذا كانت لهجات متعددة ممثَّلة، فوثّقوها. يمكن إعداد فئات التكافؤ في أداة الفحص اللغوي (LYSS-eq) لقبول المتغيرات اللهجية كمكافئات. ويمكن أن تتضمن حزمة الاختبارات التشخيصية تقابلات خاصة باللهجات.

«من يملك المدونة؟»

المجتمع اللغوي، عبر منظمة الحوكمة. يُنسب الفضل للقسم بوصفه شريكًا بحثيًا. يحتفظ Champollion بحصة مفتاح ضمان لاستمرارية التشغيل لكنه لا يستطيع الوصول إلى البيانات المختومة بمفرده. ويُنشر جزء التطوير بترخيص Creative Commons يحدده المجتمع.

«ماذا لو أردنا التوقف؟»

يمكن للمجتمع إلغاء صلاحية التقييم في أي وقت برفض إعادة بناء مفتاح التشفير. ولا تُكشف البيانات المختومة أبدًا. أما جزء التطوير، المنشور بالفعل، فيبقى علنيًا بموجب ترخيصه. وتظل المخرجات البحثية للقسم (المنشورات والعروض) ملكًا له في جميع الأحوال.

«ماذا لو لم تكن منظمة الحوكمة قائمة بعد؟»

يمكننا البدء بالمراحل 1–3 (تصميم المدونة، الإنشاء، ضمان الجودة) دون منظمة حوكمة. يتطلب الختم (المرحلة 4) تحديد وصيّ مفتاح. وفي الفترة الانتقالية، يمكن للقسم أن يكون الوصي المشارك إلى جانب مشروع Champollion، على أن تنتقل الوصاية إلى منظمة الحوكمة المجتمعية عند تأسيسها.

ملحق: الوسم مقابل بناء المدونة

تغطي هذه الوثيقة بناء المدونة — إنشاء أزواج النصوص المتوازية التي تشكّل المرجع الأساسي للتقييم. أما الوسم (التحليل الصرفي، والشرح بيني السطور، وسلاسل وسوم FST) فهو نشاط منفصل يُثري المدونة لكنه غير مطلوب للتقييم الأساسي.

النشاط	مطلوب؟	ما الذي يتيحه
بناء المدونة (هذه الوثيقة)	✅ مطلوب	التقييم الأساسي: chrF++، والمطابقة التامة، وCOMET، والمقاييس السلوكية
فحص تغطية FST	🟡 اختياري	مقياس الصحة الصرفية LYSS-fst
التحليل الصرفي	🟡 اختياري	مقياس `morphological_accuracy` (مواصفات التقييم §2.2)
قواعد التكافؤ لأداة الفحص اللغوي	🟡 اختياري	مقياس المطابقة المكافئة LYSS-eq
قواعد المدقق الدلالي	🟡 اختياري	مقياس التحقق الدلالي LYSS-sem
تقييمات الجودة من المتحدثين	نشاط منفصل	التحقق من المقاييس (انظر بروتوكول التحقق من المتحدثين)

يغطي الوسمَ والتحققَ من المتحدثين وثائقُ منفصلة، ويمكن أن يجريا بالتوازي مع بناء المدونة أو بعده.

1. ما الذي تنتجه هذه الشراكة​

2. ما الذي يحتاج القسم إلى القيام به​

المرحلة 1: تصميم المدونة (2–4 أسابيع، من وقت الباحث)​

المرحلة 2: إنشاء الجمل المصدرية (4–8 أسابيع، من وقت المتحدثين)​

المرحلة 3: ضمان الجودة (2–4 أسابيع)​

المرحلة 4: التقسيم والختم (أسبوع واحد، من فريقنا الهندسي)​

المرحلة 5: التكامل والإطلاق (1–2 أسبوع، من فريقنا الهندسي)​

3. ما الذي يجب أن تبدو عليه المدونة​

3.1 الصيغة​

3.2 متطلبات الحجم الأدنى​

3.3 توزيع مستويات الصعوبة​

3.4 حزمة الاختبارات التشخيصية​

3.5 ما لا نريده​

4. الختم التشفيري والاختبار في البيئة المعزولة​

4.1 لماذا نختم مجموعة الاختبار؟​

4.2 كيف يعمل الاختبار في البيئة المعزولة​

4.3 إدارة المفاتيح​

4.4 بيانات التجزئة​

5. ما الذي يحصل عليه القسم​

5.1 البنية التحتية البحثية​

5.2 المنشورات العلمية​

5.3 تعزيز فرص المنح​

5.4 الأثر المجتمعي​

5.5 ما الذي يكلّفه ذلك القسم​

6. الجدول الزمني​

7. كيف تبدأ​

8. الأسئلة الشائعة​

«لدينا بالفعل مدونة متوازية. هل يمكننا استخدامها؟»​

«ليس لدينا FST للغتنا.»​

«يستخدم متحدثونا نظام كتابة غير لاتيني.»​

«ماذا عن التنوع اللهجي؟»​

«من يملك المدونة؟»​

«ماذا لو أردنا التوقف؟»​

«ماذا لو لم تكن منظمة الحوكمة قائمة بعد؟»​

ملحق: الوسم مقابل بناء المدونة​