دعم لغة منخفضة الموارد
ملخص تنفيذي. دليل شامل لبناء الترجمة الآلية للغات منخفضة الموارد واللغات متعددة التركيب. يغطي أسباب صعوبة هذه اللغات (التعقيد الصرفي، ندرة البيانات، الهلوسة)، والموارد الحاسوبية الموجودة (ALTLab FST وGiellaLT وApertium وUniMorph وEdTeKLA)، وأكثر من 10 استراتيجيات للمعالجة، ونظام التدريب في champollion، وحلقة التقييم. ابدأ من هنا إذا كنت ترغب في المساهمة بطريقة لخدمة لغة غير مخدومة بشكل كافٍ.
:::info الحالة: قيد التطوير النشط دعم لغة كري السهول (nêhiyawêwin) قيد التطوير حاليًا. الأدوات ومنصة التقييم ولوحة المتصدرين الموصوفة هنا حقيقية وقابلة للاستخدام اليوم، لكن خط أنابيب الترجمة الخاص بلغة كري لم يُطلق بعد. وعند إطلاقه، سيكون هذا بمثابة المخطط الأساسي للغات الأخرى متعددة التركيب ومنخفضة الموارد التي تمتلك بنية تحتية من نوع FST. :::
المشكلة غير المحلولة
تدعم Google Translate نحو 130 لغة. ويدّعي نظام OMT-1600 من Meta (مارس 2026) تغطية 1,600 لغة — وهو أكبر نظام ترجمة آلية نُشر على الإطلاق. لكن بالنسبة لنحو 1,300 لغة في أدنى مستويات الموارد، تظل الجودة دون عتبات الاستخدام الفعلي، وتهيمن نصوص الكتاب المقدس على بيانات التدريب، وأوزان النموذج غير متاحة للتنزيل، ولا يوجد إطار تقييم مستقل أو حوكمة مجتمعية. أما بالنسبة للغات المتبقية البالغ عددها نحو 5,400 لغة، فلا يُنتج أي نموذج مدرَّب مسبقًا أي مخرجات على الإطلاق.
لقد تغيّر المشهد بشكل كبير — فشركات التقنية الكبرى تستثمر الآن في تغطية اللغات منخفضة الموارد. لكن التغطية ليست جودة، والجودة دون تحقق مستقل ليست ثقة. تحتاج اللغات منخفضة الموارد إلى أكثر من نموذج يدّعي تغطيتها — فهي تحتاج إلى تقييم مستقل مع تحقق صرفي، ومدونات نصية يشرف عليها المجتمع، وحوكمة تحترم السيادة.
لقد بُني champollion لتغيير ذلك.
تُعد لوحة متصدري الطرق تحديًا مفتوحًا: ابنِ أفضل طريقة ترجمة للغة غير مخدومة بشكل كافٍ، وأثبت ذلك بتقييم قابل لإعادة الإنتاج، واحصل على أعلى نتيجة. يمكن لأي شخص في العالم المساهمة — اللغويون، وباحثو تعلم الآلة، والعاملون في مجال اللغات المجتمعية، والطلاب، والهواة. المشكلة غير محلولة. البنية التحتية موجودة. ولوحة المتصدرين في انتظارك.
لماذا هذا صعب: الصرف متعدد التركيب
صُممت معظم أنظمة الترجمة الآلية التجارية للغات مثل الإنجليزية والفرنسية والصينية — وهي لغات تكون فيها الكلمات قصيرة نسبيًا وتُبنى الجمل من وحدات منفصلة. لكن العديد من لغات الشعوب الأصلية، بما في ذلك كري السهول، متعددة التركيب: إذ يمكن لكلمة واحدة أن تشفّر ما تعبّر عنه الإنجليزية بجملة كاملة.
مثال من لغة كري
تأمل كلمة كري السهول التالية:
ê-kî-nitawi-kîskinwahamâkosiyân "عندما ذهبتُ إلى المدرسة"
هذه كلمة واحدة. وهي تشفّر الزمن (الماضي)، والاتجاه (الذهاب إلى)، والجذر (التعلّم)، والصيغة (المبني للمجهول/الانعكاسي)، والشخص (المتكلم المفرد). نموذج لغوي كبير مدرَّب في الغالب على الإنجليزية لا يمتلك أي حدس تجاه هذا النوع من الكثافة الصرفية.
وتتفاقم التحديات:
| التحدي | ما يعنيه |
|---|---|
| التعقيد الصرفي | يمكن لجذر فعل واحد أن يولّد آلاف الصيغ المصرّفة الصحيحة عبر السوابق واللواحق والإضافات المحيطة |
| التمييز بين العاقل/غير العاقل (animate/inanimate) | الأسماء إما حية أو غير حية نحويًا — وهذا يؤثر على تصريف الأفعال وأسماء الإشارة والجمع. ولا يتبع هذا التصنيف دائمًا الحيوية البيولوجية (askiy "الأرض" حية؛ وmaskisin "الحذاء" حي أيضًا) |
| الإحالة الإبعادية (Obviation) | تُرتَّب إحالات الغائب حسب القرب/البروز. والتمييز بين "القريب" و"البعيد" لا مقابل له في الإنجليزية |
| ندرة بيانات التدريب | لم ترَ النماذج اللغوية الكبيرة سوى القليل جدًا من نصوص كري السهول. وما رأته قد يخلط بين اللهجات (لهجة Y، لهجة TH) أو أنظمة الكتابة (SRO مقابل المقطعية) |
| ضعف خط الأساس التجاري | يتضمن OMT-1600 لغة CRK في المستوى R1 (موارد منخفضة جدًا) بتدريب من نطاق الكتاب المقدس وتقطيع BPE قياسي. ولا تدعم Google Translate لغة كري. التقييم المستقل بمقاييس صرفية هو ما يجعل خطوط الأساس هذه ذات معنى. |
تظل ترجمة اللغات متعددة التركيب مشكلة بحثية مفتوحة — يتضمن OMT-1600 لغات متعددة التركيب لكنه يستخدم تقطيع BPE قياسيًا (بمفردات تبلغ 256 ألفًا) دون أي وعي صرفي، ما يعني أنه يمزّق الكلمات التركيبية إلى شظايا بايتية لا معنى لها.
الأعمال السابقة: كيف تعامل الناس مع هذه المشكلة
محوّل ALTLab FST
أهم مورد حاسوبي للغة كري السهول هو المحوّل ذو الحالات المنتهية (FST) الذي طوّره مختبر تقنيات اللغة في ألبرتا (ALTLab) بجامعة ألبرتا، بالتعاون مع Giellatekno في جامعة UiT القطبية النرويجية.
محوّل ALTLab FST هو محلّل ومولّد صرفي: فإذا أُعطي كلمة كري مصرّفة، يمكنه تفكيكها إلى جذرها ووسومها النحوية، وإذا أُعطي جذرًا مع وسوم، يمكنه توليد الصيغة المصرّفة الصحيحة. وهذا حتمي — لا شبكة عصبية، ولا هلوسة، ولا احتمالات. إذا قبل المحوّل FST كلمةً ما، فتلك الكلمة صحيحة صرفيًا.
لهذا السبب تتتبع لوحة متصدري champollion FST Acceptance Rate كمقياس. فطريقة الترجمة التي تنتج كلمات يرفضها المحوّل FST تنتج كري غير صحيحة صرفيًا — بغض النظر عما تقوله نتيجة chrF++.
موارد ALTLab الرئيسية:
- itwêwina — قاموس ذكي كري السهول–إنجليزي يعمل بمحوّل FST
- Morphodict — منصة قاموس مفتوحة المصدر واعية بالصرف
- crk-db — قاعدة بيانات معجمية لكري السهول
- 21st Century Tools for Indigenous Languages — السياق الأوسع للمشروع
السجلات العالمية لمحوّلات FST والموارد الصرفية
كري السهول ليست اللغة الوحيدة التي تمتلك بنية تحتية عالية الجودة من نوع FST. إذا كنت ترغب في تطوير خطوط أنابيب ترجمة للغات أخرى منخفضة الموارد أو معقدة صرفيًا، يمكنك الاستفادة من هذه المراكز العالمية الراسخة:
- GiellaLT / Giellatekno (جامعة UiT القطبية النرويجية): أكبر مستودع للمحلّلات والمولّدات الصرفية مفتوحة المصدر من نوع FST، يغطي أكثر من 100 لغة. تشمل مجالات تركيزه لغات السامي (
sme،smj،sma، وغيرها)، واللغات الأورالية (كومي، إرزيا، أودمورت، وغيرها)، ولغات أقليات وشعوب أصلية أخرى. يستضيفون مدونات نصية معالَجة عامة (corpus-xxx) في منظمتهم على GitHub. - مشروع Apertium: منصة ترجمة آلية قائمة على القواعد مفتوحة المصدر. يحافظ Apertium على محلّلات صرفية FST محسّنة للغاية (باستخدام
lttoolboxوhfst) وقواميس ثنائية اللغة لعشرات اللغات، بما في ذلك مجموعة كبيرة من اللغات التركية (الكازاخية، التتارية، القيرغيزية، وغيرها) ولغات الأقليات الأوروبية. جميع الموارد متاحة للعموم على GitHub الخاص بـ Apertium. - UniMorph (Universal Morphology): مشروع تعاوني يوفر نماذج تصريف صرفية موحّدة لأكثر من 150 لغة. مجموعة البيانات مستضافة على Hugging Face في unimorph/universal_morphologies. إذا لم يتوفر ملف FST ثنائي مُجمَّع للغة ما، يمكن استخدام جداول UniMorph كبوابة بحث في قاعدة بيانات ثابتة.
- مجلس البحوث الوطني الكندي (NRC): يقدم أدوات للغات الشعوب الأصلية الكندية، بما في ذلك المحلّل الصرفي Uqailaut من نوع FST للغة الإنكتيتوت، ومدونة Nunavut Hansard المتوازية الضخمة (1.3 مليون زوج جمل متحاذية إنجليزي-إنكتيتوت).
مدونة EdTeKLA النصية
قامت مجموعة EdTeKLA البحثية (في جامعة ألبرتا أيضًا) بتجميع مدونة نصية للغة كري السهول من مواد تعليمية ونسخ صوتية ومصادر مجتمعية. مجموعة بيانات التقييم في champollion المسماة EDTeKLA Dev v1 مشتقة من هذا العمل، ومرخصة بموجب CC BY-NC-SA 4.0.
أساليب أخرى جربها الناس أو يمكن تجربتها
لوحة المتصدرين محايدة تجاه الطرق. فيما يلي استراتيجيات استُكشفت أو اقتُرحت للترجمة الآلية منخفضة الموارد، ويمكن تقديم أي منها:
| الأسلوب | كيف يعمل | الإيجابيات | السلبيات |
|---|---|---|---|
| Coached LLM prompting | حقن قواعد نحوية وقواميس وأزواج أمثلة في موجّه النظام | سرعة في التكرار، لا حاجة للتدريب | سقف الجودة محدود بالمعرفة الأساسية للنموذج اللغوي |
| Few-shot prompting | تضمين ترجمات موثّقة كأمثلة داخل السياق | جيد للأسلوب المتسق | نافذة سياق صغيرة؛ يجب ألا تأتي الأمثلة من بيانات التقييم |
| FST-gated pipeline | النموذج اللغوي يولّد ← المحوّل FST يتحقق ← يرفض الصرف غير الصحيح ويعيد المحاولة | يضمن الصحة الصرفية | يتطلب بنية تحتية FST؛ حلقات إعادة المحاولة تزيد الكمون والتكلفة |
| Dictionary lookup + LLM | فرض المصطلحات المعروفة من قاموس ثنائي اللغة، وترك الباقي للنموذج اللغوي | يقلل الهلوسة في المصطلحات المعروفة | تغطية القاموس ناقصة دائمًا |
| Fine-tuned model | ضبط دقيق لنموذج مفتوح (Llama، Mistral) على نص متوازٍ — لكن ليس على بيانات التقييم | إمكانية تحقيق أعلى جودة | يتطلب مدونة متوازية (نادرة)؛ مكلف؛ خطر فرط الملاءمة |
| Chained models | النموذج A يولّد ترجمة أولية ← النموذج B يحرّرها ← النموذج C يقيّمها | يمكنه الجمع بين نقاط قوة المتخصصين | معقد؛ بطيء؛ مكلف |
| Rule-based + LLM hybrid | استخدام قواعد لغوية للأنماط المعروفة، والنموذج اللغوي لكل ما عداها | دقيق حيث تنطبق القواعد | يتطلب خبرة لغوية عميقة |
| Back-translation augmentation | توليد بيانات متوازية اصطناعية بترجمة كري←إنجليزي، ثم التدريب على الاتجاه المعاكس | يوسّع بيانات التدريب بتكلفة زهيدة | يضخّم أخطاء النموذج الموجودة |
| Evolutionary approach | توليد ترجمات مرشحة، وتقييمها، وتطفير الأفضل أداءً، والتكرار | يمكنه اكتشاف حلول جديدة؛ قابل للتوازي | مكلف حسابيًا؛ يحتاج دالة لياقة جيدة |
| Partial translation | ترجمة عينة تمثيلية يدويًا، وإثبات تطابق طريقتك مع أسلوبك عليها، ثم الترجمة الآلية للكم المتبقي | يجمع بين الجودة البشرية والنطاق الآلي | يتطلب جهدًا بشريًا أوليًا |
| Manual JSON / exam grading | إنشاء ملف JSON لمجموعة بيانات يدويًا لاختبار إجابات الطلاب في امتحان لغة، أو تصحيح دفعة من الترجمات البشرية مقابل معيار ذهبي | لا حاجة لتعلم الآلة إطلاقًا؛ يصلح للتعليم وضمان الجودة | لا يتوسع لتلبية احتياجات الترجمة المستمرة |
إنه مجرد JSON
تستقبل المنصة JSON كمدخلات وتُخرج JSON مُقيَّمًا. صيغة مجموعة البيانات بسيطة:
{
"entries": [
{ "id": 1, "source": "Hello", "reference": "tânisi" },
{ "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
]
}
يمكنك إنشاء هذا يدويًا. يمكنك تصديره من جدول بيانات. يمكنك توليده من مدونة نصية. يمكن لمعلم لغة استخدامه لتقييم ترجمات الطلاب. ويمكن لوكالة ترجمة استخدامه لقياس أداء المترجمين المستقلين. ويمكن لمختبر بحثي استخدامه لمقارنة بنى النماذج. لا تهتم المنصة من أين جاء ملف JSON — إنها فقط تقيّمه.
ولأن إطار النشر الإنتاجي يستخدم واجهة الإضافات نفسها، فإن الطريقة التي تحقق نتائج جيدة في المنصة تُنشر على موقعك بتغيير إعداد واحد. أثبتها واستخدمها.
الإمكانيات لا حدود لها حقًا. إذا كانت لديك فكرة، ابنِها، وشغّل المنصة، وقدّم نتائجك.
كيف ينسجم champollion في الصورة
يوفر champollion طبقة البنية التحتية — وأنت تأتي بالطريقة.
نظام التدريب
تتيح لك طريقة llm-coached في champollion حقن المعرفة اللغوية مباشرة في موجّه النموذج اللغوي:
{
"grammar_rules": [
"Plains Cree is polysynthetic — a single word can express what English needs a full sentence for",
"Animate/inanimate noun distinction affects verb conjugation, demonstratives, and pluralization",
"Use SRO (Standard Roman Orthography) as the working script — syllabic conversion is handled by the deterministic converter",
"Obviation: when two third-person referents appear, the less salient one takes obviative marking (-a suffix on nouns, -iyiwa on verbs)"
],
"dictionary": {
"home": "kīwēwin",
"settings": "isi-nākatohkēwin",
"search": "nānātawāpahtam",
"welcome": "tānisi",
"dashboard": "kīskinwahamākēwin-māsinahikan"
},
"style_notes": "Use formal register appropriate for educational and community contexts. Preserve English technical terms in parentheses when no Cree equivalent exists or is widely accepted."
}
تُحقن بيانات التدريب في كل موجّه للنموذج اللغوي الخاص بالزوج en:crk، مما يمنح النموذج سياقًا لغويًا منظمًا لم يكن ليمتلكه بطريقة أخرى. راجع Coaching Data للمواصفات الكاملة.
السجلات الأسلوبية
السجل الأسلوبي هو جزء من موجّه النظام يوجّه النبرة ومستوى الرسمية والاصطلاحات الإملائية. يأتي champollion مزوّدًا بسجل أسلوبي واحد لكري السهول:
nêhiyawêwin (Plains Cree). Use SRO (Standard Roman Orthography) as the working
script. Output will be converted to Syllabics via deterministic converter.
Professional register appropriate for educational and community contexts.
يمكنك تجاوز هذا في إعداداتك لتجربة استراتيجيات توجيه مختلفة:
{
"languages": {
"crk": {
"register": "Casual Plains Cree (Y-dialect). Use SRO. Prefer everyday vocabulary over formal or archaic terms. Address the reader directly."
}
}
}
تنتج السجلات الأسلوبية المختلفة أساليب ترجمة مختلفة — ونتائج مختلفة على لوحة المتصدرين. تسجّل كل مشاركة السجل الأسلوبي وموجّه النظام المستخدمين بالضبط (كقيمة تجزئة SHA-256 في بطاقة التشغيل)، بحيث تكون التجارب قابلة لإعادة الإنتاج.
تحويل نظام الكتابة
تُكتب كري السهول بنظامي كتابة: Standard Roman Orthography (SRO) وCanadian Aboriginal Syllabics. يعمل خط أنابيب champollion كما يلي:
- يترجم النموذج اللغوي إلى SRO (القائم على اللاتينية، الذي تتعامل معه النماذج اللغوية بشكل أفضل)
- تتحقق بوابة الجودة من مخرجات SRO
- يحوّل محوّل حتمي SRO ← المقطعية
- يُكتب النص المحوّل على القرص
يتعامل المحوّل مع جميع علامات التشكيل في SRO (ê وî وô وâ للحركات الطويلة) ويربطها بالحروف المقطعية الصحيحة. راجع Script Converters للتفاصيل التقنية.
حلقة التقييم
تشغّل منصة التقييم طريقتك على مجموعة بيانات التقييم وتنتج بطاقة تشغيل مُقيَّمة:
# Clone the harness
git clone https://github.com/gamedaysuits/arena.git
cd arena
pip install -e .
# Run a baseline experiment
python eval/baseline_experiment.py \
--dataset data/edtekla-dev-v1.json \
--model google/gemini-2.5-pro \
--condition coached-v7
# Run with FST validation (if you have an FST binary)
python eval/baseline_experiment.py \
--dataset data/edtekla-dev-v1.json \
--fst-analyzer ./bin/crk-analyzer \
--condition fst-gated-v1
علامة --condition هي تسمية تختارها أنت. وتظهر على لوحة المتصدرين ليتمكن الآخرون من معرفة استراتيجية التوجيه التي استخدمتها. تسجّل المنصة موجّه النظام الكامل في بطاقة التشغيل، بحيث يكون أسلوبك الدقيق قابلًا لإعادة الإنتاج.
:::tip جرّب بحرية، وقدّم أفضل ما لديك صُممت المنصة للتكرار السريع. شغّل عشرات التجارب بنماذج وبيانات تدريب وسجلات أسلوبية وشروط مختلفة. ولا تقدّم إلى لوحة المتصدرين إلا عندما يكون لديك شيء تفخر به. :::
مبادئ OCAP
صُمم champollion لدعم سيادة بيانات الشعوب الأصلية. توجّه مبادئ OCAP (الملكية والتحكم والوصول والحيازة) نهجنا في تقنيات اللغة لمجتمعات الشعوب الأصلية:
| المبدأ | كيف يدعمه champollion |
|---|---|
| الملكية | تمتلك مجتمعات اللغة بياناتها اللغوية. لا يتصل champollion أبدًا بخوادمنا ولا ينقل البيانات إليها |
| التحكم | تتيح طريقة API للمجتمعات استضافة خط أنابيب الترجمة الخاص بها — نحن نوفر الواجهة، وهم يتحكمون في التنفيذ |
| الوصول | تقرر المجتمعات من يمكنه استخدام طريقتها. ويمكن وضع واجهة API خلف بوابة مصادقة |
| الحيازة | تبقى جميع بيانات الترجمة في نظام ملفات مشروعك. ويتتبع نظام الإسناد مصدر كل ترجمة |
تعني بنية الإضافات أن المجتمع يمكنه بناء طريقة تتضمن معرفة مقدسة أو مقيّدة داخليًا، وكشف واجهة الترجمة API فقط، والحفاظ على التحكم الكامل في موارده اللغوية.
الرؤية: ما الذي سيأتي بعد ذلك
كري السهول هي الهدف الأول. وبمجرد التحقق من صحة خط الأنابيب ورضا المجتمع عن الجودة، تمتد البنية نفسها إلى لغات أخرى متعددة التركيب تمتلك بنية تحتية FST:
- لغات ألغونكوية أخرى: كري الغابات، كري المستنقعات، أوجيبوي، بلاكفوت
- لغات الإنويت: الإنكتيتوت، الإنوينّاكتون (التي تستخدم أيضًا نظم الكتابة المقطعية)
- عائلات لغوية أخرى: أي لغة تمتلك محلّلًا FST يمكنها استخدام خط الأنابيب المبوّب بالـ FST
لوحة المتصدرين مقيّدة بنطاق الزوج اللغوي. ومع مساهمة مجتمعات اللغات بمجموعات بيانات تقييم جديدة، تُفتح مسارات جديدة في لوحة المتصدرين تلقائيًا.
هذه دعوة مفتوحة. إذا كنت تعمل على لغة منخفضة الموارد — بصفتك باحثًا أو فردًا من المجتمع أو طالبًا أو مجرد شخص يهتم — يمنحك champollion الأدوات لبناء شيء حقيقي، وقياسه بصدق، ومشاركته مع العالم. لوحة متصدري الطرق في انتظار مشاركتك.
انظر أيضًا
- لوحة متصدري الطرق — قدّم نتائجك وشاهد كيف تُقارن الطرق
- تقييم الترجمة الآلية — ما الذي يجعل الطريقة جيدة، وما الذي يؤدي إلى الاستبعاد
- منصة التقييم — كيفية تشغيل التجارب
- مجموعات بيانات التقييم — EDTeKLA Dev v1 وFLORES+
- Coaching Data — كيفية هيكلة المعرفة اللغوية للنموذج اللغوي
- Script Converters — خط أنابيب SRO←المقطعية
- تقديم طريقة عبر API — استضافة ترجمة خاضعة لتحكم المجتمع
- ALTLab — مختبر تقنيات اللغة في ألبرتا
- EdTeKLA — مجموعة أبحاث التقنيات التعليمية والمعرفة واللغة
- قاموس itwêwina — قاموس كري السهول–إنجليزي يعمل بمحوّل FST