الانتقال إلى المحتوى الرئيسي

الترجمة الجزئية (بشرية + آلية)

الفكرة: قم بترجمة عينة تمثيلية يدويًا، وأثبت أن طريقتك الآلية تطابق الأسلوب البشري على تلك العينة، ثم ترجم الجزء المتبقي تلقائيًا. يجمع هذا النهج بين الجودة البشرية والنطاق الآلي — فالإنسان يضع المعيار، والآلة تتبعه.

:::info هذا دليل عملي وليس تنفيذًا مكتملًا يرسم هذا الدليل الخطوط العامة لسير العمل الهجين بين الإنسان والآلة. وهو ملائم بشكل خاص لوكالات الترجمة، والعاملين اللغويين في المجتمعات، والسياقات التعليمية. :::

متى تستخدم هذا النهج

  • لديك إمكانية الوصول إلى متحدثين بطلاقة لكن وقتهم محدود
  • تحتاج إلى ترجمة حجم كبير لكن جزءًا صغيرًا فقط يحتاج إلى أن يكون مثاليًا
  • تريد إرساء خط أساس للجودة بالترجمة البشرية، ثم التوسع باستخدام الترجمة الآلية
  • تعمل في سياق تعليمي أو مجتمعي حيث تكون المراجعة البشرية لمجموعة فرعية أمرًا ممكنًا

كيف يعمل

[Full corpus: 1,000 entries]

├── [100 entries] ──→ Human translator ──→ Gold translations
│ │
│ ▼
│ Train / prompt machine
│ method to match style
│ │
└── [900 entries] ──→ Machine method ──→ Auto translations


[Optional: human review
of flagged entries]
  1. اختر عينة تمثيلية — تغطي أنواعًا مختلفة من الجمل والأطوال والموضوعات
  2. ترجم العينة بشريًا — أرسِ المعيار الذهبي للأسلوب والمستوى اللغوي والمصطلحات
  3. اضبط إعدادات طريقتك الآلية — استخدم الترجمات البشرية كبيانات توجيه، أو أمثلة few-shot، أو بيانات للضبط الدقيق
  4. قيّم أداء الآلة على العينة البشرية — هل تطابق الآلة أسلوب الإنسان؟
  5. ترجم البقية تلقائيًا — إذا كانت جودة الآلة مقبولة على العينة
  6. مراجعة بشرية اختيارية — حدد المخرجات منخفضة الثقة لمراجعتها من قبل المتحدثين

ضمان الجودة: اختبار مطابقة الأسلوب

# Translate the human-translated sample with your machine method
python eval/baseline_experiment.py \
--dataset data/human-sample.json \
--condition coached-v3

# Compare: does the machine match the human translator's choices?
# Look at: chrF++ (similarity), FST acceptance (validity),
# and qualitative patterns (register, formality, terminology)

اختيار العينة

غطِّ التوزيع كاملًا. ينبغي أن تتضمن إدخالاتك المئة:

  • عبارات قصيرة (1–3 كلمات) وجملًا كاملة
  • مفردات شائعة ومصطلحات متخصصة في المجال
  • تراكيب بسيطة وأخرى معقدة
  • سمات نحوية متعددة (أسئلة، صيغ أمر، جمل شرطية)

لا تنتقِ الإدخالات السهلة فقط. يجب أن تتضمن العينة إدخالات يُرجَّح أن تواجه طريقتك صعوبة معها — فهنا تكون الجودة البشرية أكثر أهمية.

سير عمل المراجعة المجتمعية

بالنسبة لمجتمعات لغات الشعوب الأصلية، يحترم هذا النهج وقت المتحدثين:

  1. يترجم المتحدث 50–100 إدخال (2–4 ساعات من العمل المركّز)
  2. تترجم الآلة الإدخالات التسعمئة المتبقية باستخدام عمل المتحدث كبيانات توجيه
  3. يراجع المتحدث الإدخالات المحددة — فقط تلك التي كانت الآلة أقل ثقة بشأنها (ساعة إلى ساعتين إضافيتين)
  4. النتيجة: 1,000 ترجمة بجودة قريبة من الجودة البشرية، بحوالي 5 ساعات من وقت المتحدث بدلًا من حوالي 50 ساعة

المزايا والعيوب

✅ يجمع بين الجودة البشرية والنطاق الآلي❌ يتطلب استثمارًا بشريًا أوليًا
✅ يحترم محدودية توفر المتحدثين❌ قد لا تلتقط الآلة جميع الفروق الأسلوبية الدقيقة
✅ سير عمل طبيعي لضمان الجودة❌ يؤثر اختيار العينة على الجودة الإجمالية
✅ ممتاز للسياقات المجتمعية/التعليمية❌ المراجعة البشرية تشكّل عنق زجاجة للإدخالات المحددة

يتكامل جيدًا مع

  • Coached LLM Prompting — الترجمات البشرية تغذّي بيانات التوجيه
  • Few-Shot Prompting — الترجمات البشرية كأمثلة ضمن السياق
  • Corpus Creation — العينة البشرية هي بحد ذاتها إنشاء للمدونة اللغوية

انظر أيضًا