الانتقال إلى المحتوى الرئيسي

سيادة البيانات

ملخص تنفيذي. تشرح هذه الصفحة مبادئ سيادة البيانات OCAP® وCARE وTe Mana Raraunga وما تعنيه للمطورين الذين يبنون أساليب ترجمة للغات الشعوب الأصلية. تغطي الحالات التي تتطلب موافقة المجتمع، وكيف تدعم بنية أسلوب api في champollion سيادة البيانات، والالتزامات الأخلاقية لأي شخص يعمل مع البيانات اللغوية للشعوب الأصلية.

تثير الترجمة الآلية للغات الشعوب الأصلية أسئلة لا وجود لها في حالة الفرنسية أو اليابانية. من يملك بيانات التدريب؟ من يتحكم في كيفية تحدث نموذج اللغة؟ من يقرر ما إذا كانت الترجمة جيدة بما يكفي للنشر؟

الإجابة دائمًا هي المجتمع.

صُمم champollion لدعم ذلك. يُبقي أسلوب api جميع الموارد اللغوية على جانب الخادم تحت سيطرة المجتمع. ويفصل نظام الإضافات (plugins) الأسلوب عن الأداة. لكن الأداة لا تستطيع فرض الأخلاقيات — تشرح هذه الصفحة المبادئ التي ينبغي عليك اتباعها.


مبادئ OCAP®

OCAP (الملكية، والتحكم، والوصول، والحيازة) هي مجموعة من المبادئ التي وضعها First Nations Information Governance Centre (FNIGC) وتحدد كيفية جمع بيانات الأمم الأولى وحمايتها واستخدامها ومشاركتها.

المبدأما يعنيه للترجمة
الملكية (Ownership)يملك المجتمع بياناته اللغوية — القواميس وكتب القواعد والنصوص المتوازية وملفات التوجيه وأي ترجمات مُنتجة منها.
التحكم (Control)يتحكم المجتمع في كيفية استخدام بياناته اللغوية، ومن يملك حق الوصول إليها، وما هي أساليب الترجمة المقبولة.
الوصول (Access)لأفراد المجتمع الحق في الوصول إلى مواردهم اللغوية وإدارتها بغض النظر عن مكان تخزينها.
الحيازة (Possession)يجب أن تقيم البيانات الفعلية (ملفات التوجيه والقواميس وأوزان النماذج) على بنية تحتية يتحكم فيها المجتمع — وليس على سحابة تابعة لطرف ثالث.

ما تعنيه OCAP عمليًا

  • لا تنشر ترجمات للغة من لغات الشعوب الأصلية دون تفويض صريح من المجتمع.
  • لا تدرّب نماذج على بيانات لغوية مقدمة من المجتمع دون اتفاقية لمشاركة البيانات.
  • لا تستخرج (scrape) الموارد اللغوية للمجتمع من المواقع الإلكترونية أو وسائل التواصل الاجتماعي أو المواد التعليمية.
  • استخدم أسلوب api بحيث تبقى الموجِّهات (prompts) وبيانات التوجيه والقواميس على خوادم يتحكم فيها المجتمع. أسلوب api في champollion هو "أنبوب أصم" — يرسل المفاتيح ويستقبل الترجمات. تبقى جميع الملكية الفكرية اللغوية على جانب الخادم.
  • وثّق المصدر — ينبغي أن يسرد حقل provenance في بيان الإضافة كل مورد مستخدم وترخيصه وأصله.

:::warning OCAP® علامة تجارية مسجلة OCAP® علامة تجارية مسجلة لـ First Nations Information Governance Centre. وهي تنطبق تحديدًا على الأمم الأولى في كندا. للمبادئ صلة أوسع، لكن العلامة التجارية وسلطة الحوكمة تعودان إلى FNIGC. :::


مبادئ CARE

وضع Global Indigenous Data Alliance (GIDA) مبادئ CARE لحوكمة بيانات الشعوب الأصلية كمكمل لمبادئ بيانات FAIR. تنص FAIR على أن البيانات يجب أن تكون قابلة للاكتشاف والوصول والتشغيل البيني وإعادة الاستخدام. أما CARE فتقول إن ذلك غير كافٍ — إذ يجب أن تضع حوكمة البيانات حقوق الشعوب الأصلية في صميمها أيضًا.

المبدأالتطبيق
المنفعة الجماعية (Collective Benefit)ينبغي أن تعود أدوات الترجمة بالنفع على المجتمع اللغوي أولًا. درجات لوحة الصدارة وسيلة لتحسين الأساليب، وليست وسيلة لاستخراج قيمة تجارية من لغات المجتمعات.
سلطة التحكم (Authority to Control)تملك المجتمعات السلطة لحوكمة كيفية جمع بياناتها اللغوية واستخدامها ومشاركتها. الدرجة المرتفعة في لوحة الصدارة لا تمنح إذنًا بنشر الترجمات.
المسؤولية (Responsibility)تقع على الباحثين والمطورين العاملين مع البيانات اللغوية للشعوب الأصلية مسؤولية بناء العلاقات والحصول على الموافقة ومشاركة المنافع.
الأخلاقيات (Ethics)يجب أن تكون حقوق الشعوب الأصلية ورفاهها الشاغل الأول. ينبغي تطوير أساليب الترجمة مع المجتمعات، لا عنها.

Te Mana Raraunga — سيادة بيانات الماوري

Te Mana Raraunga هي شبكة سيادة بيانات الماوري. تؤكد أن بيانات الماوري — بما في ذلك البيانات اللغوية — هي taonga (كنز) خاضع لمبادئ معاهدة وايتانغي ولـ tikanga Māori (القانون العرفي للماوري).

المبادئ الأساسية:

المبدأالمعنى
Rangatiratanga (السلطة)للماوري حق أصيل في ممارسة السلطة على بياناتهم، بما في ذلك البيانات اللغوية.
Whakapapa (العلاقات)للبيانات أصول وروابط. تحمل البيانات اللغوية علاقات ومعارف الأشخاص الذين أنشأوها.
Whanaungatanga (الالتزامات)على من يحوز بيانات الماوري أو يعالجها التزامات متبادلة تجاه المجتمعات التي جاءت منها.
Kotahitanga (المنفعة الجماعية)ينبغي استخدام بيانات الماوري للمنفعة الجماعية للماوري.
Manaakitanga (التبادلية)ينبغي أن ينطوي استخدام بيانات الماوري على العناية والاحترام والتبادلية.
Kaitiakitanga (الوصاية)على الأوصياء على البيانات واجب حمايتها وضمان استخدامها بشكل ملائم.

تنطبق هذه المبادئ على te reo Māori (لغة الماوري) وعلى أي عمل حاسوبي يتضمن بيانات لغة الماوري.


ما يعنيه ذلك لمستخدمي champollion

للغات القياسية (الفرنسية، اليابانية، الإسبانية...)

استخدم champollion بشكل اعتيادي. تمتلك هذه اللغات مدونات نصية كبيرة متاحة للعموم وواجهات برمجة ترجمة راسخة، ولا تثير أي مخاوف تتعلق بالسيادة. ترجم وزامن وانشر كما تشاء.

للغات الشعوب الأصلية واللغات منخفضة الموارد

الوضع مختلف جذريًا:

  1. احصل على الموافقة أولًا. قبل بناء أسلوب ترجمة للغة من لغات الشعوب الأصلية، أقم علاقة مع المجتمع. الأسلوب المبني دون مشاركة المجتمع — مهما كان مبهرًا تقنيًا — لا ينبغي نشره أو توزيعه.

  2. استخدم أسلوب api. استضف خط أنابيب الترجمة على بنية تحتية يتحكم فيها المجتمع. صُمم أسلوب api في champollion لهذا الغرض: فهو يرسل المفاتيح ويستقبل الترجمات دون كشف الموجِّهات أو القواميس أو بيانات التوجيه التي تجعل الأسلوب يعمل.

    Community-controlled setup
    {
    "pairs": {
    "en:crk": {
    "method": "api",
    "endpoint": "https://api.community-server.example/translate"
    }
    }
    }
  3. وثّق كل شيء. استخدم حقل provenance في بيان الإضافة لسرد كل مورد وترخيصه وما إذا كان قد قُدم بموافقة المجتمع.

  4. الدرجات ليست تراخيص. الدرجة المرتفعة في لوحة الصدارة تثبت أن الأسلوب يعمل جيدًا من الناحية التقنية. لكنها لا تمنح إذنًا بنشر الترجمات أو توزيع الإضافة أو الاستغلال التجاري للأسلوب. المجتمع هو من يقرر.

  5. شارك الأسلوب، لا البيانات. إذا طوّرت تقنية تعمل جيدًا (مثل "FST-gated LLM with coached prompts")، فشارك البنية والمنهجية على لوحة الصدارة. يحتفظ المجتمع بالتحكم في البيانات اللغوية التي تجعلها تعمل للغته المحددة.


أسلوب api والسيادة

وُجد أسلوب الترجمة api خصيصًا لدعم سيادة البيانات. إليك السبب:

الجانبالأساليب الأخرىأسلوب api
مكان وجود الموجِّهاتفي ملفات إعداد champollion (مرئية لجميع المطورين)على خادم المجتمع (خاص)
مكان وجود بيانات التوجيهفي مجلد .champollion/coaching/ (مُلتزَم به في git)على خادم المجتمع (خاص)
مكان وجود القواميسفي مجلد الإضافة (يوزَّع مع الإضافة)على خادم المجتمع (خاص)
من يتحكم في خط الأنابيبمن يشغّل champollion syncالمجتمع الذي يشغّل واجهة برمجة التطبيقات
ما يراه champollionكل شيءمفاتيح تدخل، وترجمات تخرج

أسلوب api خيار معماري متعمد. إنه "أنبوب أصم" لأن الملكية الفكرية — المعرفة اللغوية، وقواعد النحو، وأمثلة التوجيه المنتقاة بعناية — تعود للمجتمع، لا للأداة.

راجع تقديم أسلوب عبر واجهة برمجة التطبيقات لتفاصيل التنفيذ.


دراسة حالة: OMT-1600 وسيادة البيانات

يقدم OMT-1600 من Meta (مارس 2026) مثالًا ملموسًا على أهمية سيادة البيانات للغات الشعوب الأصلية. درّب OMT-1600 نماذج ترجمة لـ 1,600 لغة باستخدام:

  • CC-2000-Web: نصوص أحادية اللغة مستخرجة من الويب من أكثر من 2,000 لغة — جُمعت دون موافقة المجتمعات
  • ترجمات الكتاب المقدس: نصوص دينية استُخدمت كبيانات تدريب وتقييم متوازية للغات الأشد انخفاضًا في الموارد
  • MeDLEy: نصوص ثنائية مُنتقاة يدويًا — لكن دون توثيق أي امتثال لـ OCAP® أو CARE
  • بيانات اصطناعية مولّدة بالترجمة العكسية: نحو 270 مليون جملة متوازية اصطناعية ولّدتها النماذج نفسها

بالنسبة للغات الشعوب الأصلية مثل لغة كري السهول (CRK)، يعني هذا:

المبدأممارسة OMT-1600الأثر
الملكية (Ownership)تملك Meta النماذج وتقرر كيفية إطلاقهاليس للمجتمع أي حصة ملكية في كيفية نمذجة لغته
التحكم (Control)تتحكم Meta في اختيار بيانات التدريب وبنية النموذج وجدول الإطلاقلا رأي للمجتمع في البيانات المستخدمة أو في كيفية تمثيل اللغة
الوصول (Access)أوزان النموذج غير متاحة حاليًا — "لم تُطلق لأسباب خارجة عن سيطرة المؤلفين"لا يستطيع المجتمع الوصول إلى النموذج الذي يتحدث لغته أو فحصه أو تعديله
الحيازة (Possession)تقيم جميع البيانات والنماذج على البنية التحتية لـ Metaلا يستطيع المجتمع استضافة البيانات المستخدمة لتدريب النموذج أو تدقيقها أو حذفها

OMT-1600 إنجاز بحثي. وهو أيضًا مثال على الممارسة الاستخراجية للبيانات: جُمعت بيانات لغوية من الويب ومن نصوص دينية، وعولجت في نموذج، ونُشرت كورقة بحثية — كل ذلك دون مشاركة المجتمعات أو موافقتها أو تقاسم المنافع معها.

هذا بالضبط هو النمط الذي تمنعه بنية السيادة في champollion. يُبقي أسلوب api الملكية الفكرية اللغوية على خوادم يتحكم فيها المجتمع. تُقدَّم مدونات التقييم بموافقة المجتمع وتُخزَّن تحت وصاية المجتمع على المفاتيح. وتُنقل ملكية الأساليب الفائزة بالجوائز إلى المجتمع. الفرق ليس تقنيًا — بل أخلاقي وبنيوي.

:::note ليس OMT-1600 وحده موضع اللوم هذا النمط — استخراج البيانات من الويب ثم تدريب النماذج دون موافقة المجتمعات — ممارسة معيارية في أبحاث معالجة اللغات الطبيعية متعددة اللغات على نطاق واسع. OMT-1600 دراسة حالة بسبب حجمه (1,600 لغة) وحداثته (مارس 2026)، لا لأنه استخراجي بشكل فريد. ينطبق النقد نفسه على NLLB-200 وجهود Google متعددة اللغات ومعظم أبحاث الترجمة الآلية واسعة النطاق. :::


قراءات إضافية


انظر أيضًا