سيادة البيانات
ملخص تنفيذي. تشرح هذه الصفحة مبادئ سيادة البيانات OCAP® وCARE وTe Mana Raraunga وما تعنيه للمطورين الذين يبنون أساليب ترجمة للغات الشعوب الأصلية. تغطي الحالات التي تتطلب موافقة المجتمع، وكيف تدعم بنية أسلوب
apiفي champollion سيادة البيانات، والالتزامات الأخلاقية لأي شخص يعمل مع البيانات اللغوية للشعوب الأصلية.
تثير الترجمة الآلية للغات الشعوب الأصلية أسئلة لا وجود لها في حالة الفرنسية أو اليابانية. من يملك بيانات التدريب؟ من يتحكم في كيفية تحدث نموذج اللغة؟ من يقرر ما إذا كانت الترجمة جيدة بما يكفي للنشر؟
الإجابة دائمًا هي المجتمع.
صُمم champollion لدعم ذلك. يُبقي أسلوب api جميع الموارد اللغوية على جانب الخادم تحت سيطرة المجتمع. ويفصل نظام الإضافات (plugins) الأسلوب عن الأداة. لكن الأداة لا تستطيع فرض الأخلاقيات — تشرح هذه الصفحة المبادئ التي ينبغي عليك اتباعها.
مبادئ OCAP®
OCAP (الملكية، والتحكم، والوصول، والحيازة) هي مجموعة من المبادئ التي وضعها First Nations Information Governance Centre (FNIGC) وتحدد كيفية جمع بيانات الأمم الأولى وحمايتها واستخدامها ومشاركتها.
| المبدأ | ما يعنيه للترجمة |
|---|---|
| الملكية (Ownership) | يملك المجتمع بياناته اللغوية — القواميس وكتب القواعد والنصوص المتوازية وملفات التوجيه وأي ترجمات مُنتجة منها. |
| التحكم (Control) | يتحكم المجتمع في كيفية استخدام بياناته اللغوية، ومن يملك حق الوصول إليها، وما هي أساليب الترجمة المقبولة. |
| الوصول (Access) | لأفراد المجتمع الحق في الوصول إلى مواردهم اللغوية وإدارتها بغض النظر عن مكان تخزينها. |
| الحيازة (Possession) | يجب أن تقيم البيانات الفعلية (ملفات التوجيه والقواميس وأوزان النماذج) على بنية تحتية يتحكم فيها المجتمع — وليس على سحابة تابعة لطرف ثالث. |
ما تعنيه OCAP عمليًا
- لا تنشر ترجمات للغة من لغات الشعوب الأصلية دون تفويض صريح من المجتمع.
- لا تدرّب نماذج على بيانات لغوية مقدمة من المجتمع دون اتفاقية لمشاركة البيانات.
- لا تستخرج (scrape) الموارد اللغوية للمجتمع من المواقع الإلكترونية أو وسائل التواصل الاجتماعي أو المواد التعليمية.
- استخدم أسلوب
apiبحيث تبقى الموجِّهات (prompts) وبيانات التوجيه والقواميس على خوادم يتحكم فيها المجتمع. أسلوبapiفي champollion هو "أنبوب أصم" — يرسل المفاتيح ويستقبل الترجمات. تبقى جميع الملكية الفكرية اللغوية على جانب الخادم. - وثّق المصدر — ينبغي أن يسرد حقل
provenanceفي بيان الإضافة كل مورد مستخدم وترخيصه وأصله.
:::warning OCAP® علامة تجارية مسجلة OCAP® علامة تجارية مسجلة لـ First Nations Information Governance Centre. وهي تنطبق تحديدًا على الأمم الأولى في كندا. للمبادئ صلة أوسع، لكن العلامة التجارية وسلطة الحوكمة تعودان إلى FNIGC. :::
مبادئ CARE
وضع Global Indigenous Data Alliance (GIDA) مبادئ CARE لحوكمة بيانات الشعوب الأصلية كمكمل لمبادئ بيانات FAIR. تنص FAIR على أن البيانات يجب أن تكون قابلة للاكتشاف والوصول والتشغيل البيني وإعادة الاستخدام. أما CARE فتقول إن ذلك غير كافٍ — إذ يجب أن تضع حوكمة البيانات حقوق الشعوب الأصلية في صميمها أيضًا.
| المبدأ | التطبيق |
|---|---|
| المنفعة الجماعية (Collective Benefit) | ينبغي أن تعود أدوات الترجمة بالنفع على المجتمع اللغوي أولًا. درجات لوحة الصدارة وسيلة لتحسين الأساليب، وليست وسيلة لاستخراج قيمة تجارية من لغات المجتمعات. |
| سلطة التحكم (Authority to Control) | تملك المجتمعات السلطة لحوكمة كيفية جمع بياناتها اللغوية واستخدامها ومشاركتها. الدرجة المرتفعة في لوحة الصدارة لا تمنح إذنًا بنشر الترجمات. |
| المسؤولية (Responsibility) | تقع على الباحثين والمطورين العاملين مع البيانات اللغوية للشعوب الأصلية مسؤولية بناء العلاقات والحصول على الموافقة ومشاركة المنافع. |
| الأخلاقيات (Ethics) | يجب أن تكون حقوق الشعوب الأصلية ورفاهها الشاغل الأول. ينبغي تطوير أساليب الترجمة مع المجتمعات، لا عنها. |
Te Mana Raraunga — سيادة بيانات الماوري
Te Mana Raraunga هي شبكة سيادة بيانات الماوري. تؤكد أن بيانات الماوري — بما في ذلك البيانات اللغوية — هي taonga (كنز) خاضع لمبادئ معاهدة وايتانغي ولـ tikanga Māori (القانون العرفي للماوري).
المبادئ الأساسية:
| المبدأ | المعنى |
|---|---|
| Rangatiratanga (السلطة) | للماوري حق أصيل في ممارسة السلطة على بياناتهم، بما في ذلك البيانات اللغوية. |
| Whakapapa (العلاقات) | للبيانات أصول وروابط. تحمل البيانات اللغوية علاقات ومعارف الأشخاص الذين أنشأوها. |
| Whanaungatanga (الالتزامات) | على من يحوز بيانات الماوري أو يعالجها التزامات متبادلة تجاه المجتمعات التي جاءت منها. |
| Kotahitanga (المنفعة الجماعية) | ينبغي استخدام بيانات الماوري للمنفعة الجماعية للماوري. |
| Manaakitanga (التبادلية) | ينبغي أن ينطوي استخدام بيانات الماوري على العناية والاحترام والتبادلية. |
| Kaitiakitanga (الوصاية) | على الأوصياء على البيانات واجب حمايتها وضمان استخدامها بشكل ملائم. |
تنطبق هذه المبادئ على te reo Māori (لغة الماوري) وعلى أي عمل حاسوبي يتضمن بيانات لغة الماوري.
ما يعنيه ذلك لمستخدمي champollion
للغات القياسية (الفرنسية، اليابانية، الإسبانية...)
استخدم champollion بشكل اعتيادي. تمتلك هذه اللغات مدونات نصية كبيرة متاحة للعموم وواجهات برمجة ترجمة راسخة، ولا تثير أي مخاوف تتعلق بالسيادة. ترجم وزامن وانشر كما تشاء.
للغات الشعوب الأصلية واللغات منخفضة الموارد
الوضع مختلف جذريًا:
-
احصل على الموافقة أولًا. قبل بناء أسلوب ترجمة للغة من لغات الشعوب الأصلية، أقم علاقة مع المجتمع. الأسلوب المبني دون مشاركة المجتمع — مهما كان مبهرًا تقنيًا — لا ينبغي نشره أو توزيعه.
-
استخدم أسلوب
api. استضف خط أنابيب الترجمة على بنية تحتية يتحكم فيها المجتمع. صُمم أسلوبapiفي champollion لهذا الغرض: فهو يرسل المفاتيح ويستقبل الترجمات دون كشف الموجِّهات أو القواميس أو بيانات التوجيه التي تجعل الأسلوب يعمل.Community-controlled setup{"pairs": {"en:crk": {"method": "api","endpoint": "https://api.community-server.example/translate"}}} -
وثّق كل شيء. استخدم حقل
provenanceفي بيان الإضافة لسرد كل مورد وترخيصه وما إذا كان قد قُدم بموافقة المجتمع. -
الدرجات ليست تراخيص. الدرجة المرتفعة في لوحة الصدارة تثبت أن الأسلوب يعمل جيدًا من الناحية التقنية. لكنها لا تمنح إذنًا بنشر الترجمات أو توزيع الإضافة أو الاستغلال التجاري للأسلوب. المجتمع هو من يقرر.
-
شارك الأسلوب، لا البيانات. إذا طوّرت تقنية تعمل جيدًا (مثل "FST-gated LLM with coached prompts")، فشارك البنية والمنهجية على لوحة الصدارة. يحتفظ المجتمع بالتحكم في البيانات اللغوية التي تجعلها تعمل للغته المحددة.
أسلوب api والسيادة
وُجد أسلوب الترجمة api خصيصًا لدعم سيادة البيانات. إليك السبب:
| الجانب | الأساليب الأخرى | أسلوب api |
|---|---|---|
| مكان وجود الموجِّهات | في ملفات إعداد champollion (مرئية لجميع المطورين) | على خادم المجتمع (خاص) |
| مكان وجود بيانات التوجيه | في مجلد .champollion/coaching/ (مُلتزَم به في git) | على خادم المجتمع (خاص) |
| مكان وجود القواميس | في مجلد الإضافة (يوزَّع مع الإضافة) | على خادم المجتمع (خاص) |
| من يتحكم في خط الأنابيب | من يشغّل champollion sync | المجتمع الذي يشغّل واجهة برمجة التطبيقات |
| ما يراه champollion | كل شيء | مفاتيح تدخل، وترجمات تخرج |
أسلوب api خيار معماري متعمد. إنه "أنبوب أصم" لأن الملكية الفكرية — المعرفة اللغوية، وقواعد النحو، وأمثلة التوجيه المنتقاة بعناية — تعود للمجتمع، لا للأداة.
راجع تقديم أسلوب عبر واجهة برمجة التطبيقات لتفاصيل التنفيذ.
دراسة حالة: OMT-1600 وسيادة البيانات
يقدم OMT-1600 من Meta (مارس 2026) مثالًا ملموسًا على أهمية سيادة البيانات للغات الشعوب الأصلية. درّب OMT-1600 نماذج ترجمة لـ 1,600 لغة باستخدام:
- CC-2000-Web: نصوص أحادية اللغة مستخرجة من الويب من أكثر من 2,000 لغة — جُمعت دون موافقة المجتمعات
- ترجمات الكتاب المقدس: نصوص دينية استُخدمت كبيانات تدريب وتقييم متوازية للغات الأشد انخفاضًا في الموارد
- MeDLEy: نصوص ثنائية مُنتقاة يدويًا — لكن دون توثيق أي امتثال لـ OCAP® أو CARE
- بيانات اصطناعية مولّدة بالترجمة العكسية: نحو 270 مليون جملة متوازية اصطناعية ولّدتها النماذج نفسها
بالنسبة للغات الشعوب الأصلية مثل لغة كري السهول (CRK)، يعني هذا:
| المبدأ | ممارسة OMT-1600 | الأثر |
|---|---|---|
| الملكية (Ownership) | تملك Meta النماذج وتقرر كيفية إطلاقها | ليس للمجتمع أي حصة ملكية في كيفية نمذجة لغته |
| التحكم (Control) | تتحكم Meta في اختيار بيانات التدريب وبنية النموذج وجدول الإطلاق | لا رأي للمجتمع في البيانات المستخدمة أو في كيفية تمثيل اللغة |
| الوصول (Access) | أوزان النموذج غير متاحة حاليًا — "لم تُطلق لأسباب خارجة عن سيطرة المؤلفين" | لا يستطيع المجتمع الوصول إلى النموذج الذي يتحدث لغته أو فحصه أو تعديله |
| الحيازة (Possession) | تقيم جميع البيانات والنماذج على البنية التحتية لـ Meta | لا يستطيع المجتمع استضافة البيانات المستخدمة لتدريب النموذج أو تدقيقها أو حذفها |
OMT-1600 إنجاز بحثي. وهو أيضًا مثال على الممارسة الاستخراجية للبيانات: جُمعت بيانات لغوية من الويب ومن نصوص دينية، وعولجت في نموذج، ونُشرت كورقة بحثية — كل ذلك دون مشاركة المجتمعات أو موافقتها أو تقاسم المنافع معها.
هذا بالضبط هو النمط الذي تمنعه بنية السيادة في champollion. يُبقي أسلوب api الملكية الفكرية اللغوية على خوادم يتحكم فيها المجتمع. تُقدَّم مدونات التقييم بموافقة المجتمع وتُخزَّن تحت وصاية المجتمع على المفاتيح. وتُنقل ملكية الأساليب الفائزة بالجوائز إلى المجتمع. الفرق ليس تقنيًا — بل أخلاقي وبنيوي.
:::note ليس OMT-1600 وحده موضع اللوم هذا النمط — استخراج البيانات من الويب ثم تدريب النماذج دون موافقة المجتمعات — ممارسة معيارية في أبحاث معالجة اللغات الطبيعية متعددة اللغات على نطاق واسع. OMT-1600 دراسة حالة بسبب حجمه (1,600 لغة) وحداثته (مارس 2026)، لا لأنه استخراجي بشكل فريد. ينطبق النقد نفسه على NLLB-200 وجهود Google متعددة اللغات ومعظم أبحاث الترجمة الآلية واسعة النطاق. :::
قراءات إضافية
- First Nations Information Governance Centre — OCAP®
- Global Indigenous Data Alliance — مبادئ CARE
- Te Mana Raraunga — شبكة سيادة بيانات الماوري
- USIDSN — شبكة سيادة بيانات الشعوب الأصلية في الولايات المتحدة
انظر أيضًا
- دعم لغة منخفضة الموارد — الدليل التقني مع سياق OCAP
- أساليب الترجمة — أسلوب
apiوكيف يحمي الملكية الفكرية - تقديم أسلوب عبر واجهة برمجة التطبيقات — استضافة خط أنابيب يتحكم فيه المجتمع
- مواصفات الإضافة — حقل
provenanceلإسناد الموارد - كتاب الوصفات: FST-Gated Pipeline — بناء خط أنابيب يمكن للمجتمع استضافته ذاتيًا