الانتقال إلى المحتوى الرئيسي

نموذج لغوي كبير معزَّز بالقاموس

الفكرة: فرض ترجمات معروفة ومتحقَّق منها لمصطلحات محددة من قاموس ثنائي اللغة، وترك النموذج اللغوي الكبير (LLM) يتولى بنية الجملة والمفردات غير المعروفة. يوفّر القاموس نقاط ارتكاز للصحة؛ ويوفّر النموذج اللغوي الكبير الطلاقة.

:::info هذا دليل عملي وليس تنفيذًا مكتملًا يقدّم هذا الدليل مخططًا عامًا للنهج. ستعتمد استراتيجية المطابقة مع القاموس وحقن المصطلحات على الزوج اللغوي الخاص بك والموارد المعجمية المتاحة. :::

متى تستخدم هذا النهج

  • عندما يوجد قاموس ثنائي اللغة لزوجك اللغوي (حتى لو كان صغيرًا)
  • عندما يهلوس النموذج اللغوي الكبير باستمرار في المصطلحات الأساسية — أي يخترع كلمات غير موجودة
  • عندما تحتاج إلى اتساق مصطلحي عبر الترجمات (تُترجم الكلمة نفسها بالطريقة نفسها في كل مكان)
  • عندما تترجم محتوى متخصصًا في مجال معين تكون فيه الترجمات القياسية للنماذج اللغوية الكبيرة خاطئة (قانوني، طبي، تعليمي)

كيف يعمل

  1. تحميل قاموس ثنائي اللغة — أزواج مفتاح←قيمة تربط مصطلحات اللغة المصدر بترجمات هدف متحقَّق منها
  2. مطابقة النص المصدر مع القاموس — تحديد المصطلحات في المدخلات التي لها ترجمات معروفة
  3. حقن المطابقات في الموجِّه (prompt) — إخبار النموذج اللغوي الكبير بأن "هذه المصطلحات يجب أن تُترجم كما يلي"
  4. يولّد النموذج اللغوي الكبير الترجمة — مع قيود القاموس كمتطلبات إلزامية
  5. المعالجة اللاحقة — التحقق من ظهور مصطلحات القاموس في المخرجات؛ وإعادة المحاولة إن لم تظهر

تنسيق القاموس

dictionaries/crk-terms.json
{
"school": "kiskinwahamâtowikamik",
"teacher": "okiskinwahamâkêw",
"student": "kiskinwahamâkan",
"book": "masinahikan",
"home": "kīwēwin",
"water": "nipiy"
}

بنية الموجِّه (Prompt)

Translate the following English to Plains Cree (SRO).

REQUIRED TERMINOLOGY — use these exact translations:
- "school" → "kiskinwahamâtowikamik"
- "teacher" → "okiskinwahamâkêw"

Source: "The teacher went to the school"

قرارات التصميم الأساسية

استراتيجية المطابقة: المطابقة التامة هي الأبسط. المطابقة المستندة إلى التجذيع (lemmatization) (حيث تطابق "teachers" كلمة "teacher") تلتقط حالات أكثر لكنها تتطلب أداة تجذيع للغة المصدر. أما المطابقة التقريبية فتنطوي على خطر النتائج الإيجابية الكاذبة.

التعامل مع التصريف: في اللغات متعددة التركيب، قد يحتاج الشكل القاموسي إلى تصريف ليتناسب مع الجملة. يمكنك توفير الجذر وترك النموذج اللغوي الكبير يقوم بالتصريف، أو توفير عدة أشكال مصرَّفة. يمكن لـ FST التحقق من صحة النتيجة.

حل التعارضات: ماذا لو تجاهل النموذج اللغوي الكبير مصطلحًا من القاموس؟ الخيارات: (أ) إعادة المحاولة بتعليمات أقوى، (ب) معالجة لاحقة عبر استبدال النصوص، (ج) القبول مع وضع علامة للمراجعة.

المزايا والعيوب

✅ يقضي على الهلوسة في المصطلحات المعروفة❌ تغطية القاموس غير مكتملة دائمًا
✅ يضمن الاتساق للمفردات الأساسية❌ قد لا يتطابق التصريف مع سياق الجملة
✅ سهل التدقيق والتحديث❌ الإفراط في التقييد قد ينتج مخرجات غير طبيعية
✅ القاموس أصلٌ قابل لإعادة الاستخدام❌ يتطلب وجود قاموس في المقام الأول

أين تجد القواميس

  • itwêwina — قاموس Plains Cree–English (مدعوم بتقنية FST، مفتوح المصدر)
  • Wolvengrey Dictionary — مرجع شامل للغة Plains Cree
  • Apertium — قواميس ثنائية اللغة لعشرات الأزواج اللغوية
  • Giellatekno — قواميس للغات Sámi والأورالية وغيرها من لغات الأقليات
  • مسارد أنشأها المجتمع، ومواد تعليمية، وقوائم مصطلحات

يتكامل جيدًا مع

  • Coached LLM Prompting — مدخلات القاموس هي شكل من أشكال بيانات التدريب الموجَّه
  • FST-Gated Pipeline — يتحقق FST من أن مصطلحات القاموس مصرَّفة بشكل صحيح
  • Rule-Based + LLM Hybrid — البحث القاموسي الحتمي كطبقة قواعد واحدة

انظر أيضًا