الترجمة الجزئية (بشرية + آلية)
الفكرة: قم بترجمة عينة تمثيلية يدويًا، وأثبت أن طريقتك الآلية تطابق الأسلوب البشري على تلك العينة، ثم ترجم الجزء المتبقي تلقائيًا. يجمع هذا النهج بين الجودة البشرية والنطاق الآلي — فالإنسان يضع المعيار، والآلة تتبعه.
:::info هذا دليل عملي وليس تنفيذًا مكتملًا يرسم هذا الدليل الخطوط العامة لسير العمل الهجين بين الإنسان والآلة. وهو ملائم بشكل خاص لوكالات الترجمة، والعاملين اللغويين في المجتمعات، والسياقات التعليمية. :::
متى تستخدم هذا النهج
- لديك إمكانية الوصول إلى متحدثين بطلاقة لكن وقتهم محدود
- تحتاج إلى ترجمة حجم كبير لكن جزءًا صغيرًا فقط يحتاج إلى أن يكون مثاليًا
- تريد إرساء خط أساس للجودة بالترجمة البشرية، ثم التوسع باستخدام الترجمة الآلية
- تعمل في سياق تعليمي أو مجتمعي حيث تكون المراجعة البشرية لمجموعة فرعية أمرًا ممكنًا
كيف يعمل
[Full corpus: 1,000 entries]
│
├── [100 entries] ──→ Human translator ──→ Gold translations
│ │
│ ▼
│ Train / prompt machine
│ method to match style
│ │
└── [900 entries] ──→ Machine method ──→ Auto translations
│
▼
[Optional: human review
of flagged entries]
- اختر عينة تمثيلية — تغطي أنواعًا مختلفة من الجمل والأطوال والموضوعات
- ترجم العينة بشريًا — أرسِ المعيار الذهبي للأسلوب والمستوى اللغوي والمصطلحات
- اضبط إعدادات طريقتك الآلية — استخدم الترجمات البشرية كبيانات توجيه، أو أمثلة few-shot، أو بيانات للضبط الدقيق
- قيّم أداء الآلة على العينة البشرية — هل تطابق الآلة أسلوب الإنسان؟
- ترجم البقية تلقائيًا — إذا كانت جودة الآلة مقبولة على العينة
- مراجعة بشرية اختيارية — حدد المخرجات منخفضة الثقة لمراجعتها من قبل المتحدثين
ضمان الجودة: اختبار مطابقة الأسلوب
# Translate the human-translated sample with your machine method
python eval/baseline_experiment.py \
--dataset data/human-sample.json \
--condition coached-v3
# Compare: does the machine match the human translator's choices?
# Look at: chrF++ (similarity), FST acceptance (validity),
# and qualitative patterns (register, formality, terminology)
اختيار العينة
غطِّ التوزيع كاملًا. ينبغي أن تتضمن إدخالاتك المئة:
- عبارات قصيرة (1–3 كلمات) وجملًا كاملة
- مفردات شائعة ومصطلحات متخصصة في المجال
- تراكيب بسيطة وأخرى معقدة
- سمات نحوية متعددة (أسئلة، صيغ أمر، جمل شرطية)
لا تنتقِ الإدخالات السهلة فقط. يجب أن تتضمن العينة إدخالات يُرجَّح أن تواجه طريقتك صعوبة معها — فهنا تكون الجودة البشرية أكثر أهمية.
سير عمل المراجعة المجتمعية
بالنسبة لمجتمعات لغات الشعوب الأصلية، يحترم هذا النهج وقت المتحدثين:
- يترجم المتحدث 50–100 إدخال (2–4 ساعات من العمل المركّز)
- تترجم الآلة الإدخالات التسعمئة المتبقية باستخدام عمل المتحدث كبيانات توجيه
- يراجع المتحدث الإدخالات المحددة — فقط تلك التي كانت الآلة أقل ثقة بشأنها (ساعة إلى ساعتين إضافيتين)
- النتيجة: 1,000 ترجمة بجودة قريبة من الجودة البشرية، بحوالي 5 ساعات من وقت المتحدث بدلًا من حوالي 50 ساعة
المزايا والعيوب
| ✅ يجمع بين الجودة البشرية والنطاق الآلي | ❌ يتطلب استثمارًا بشريًا أوليًا |
| ✅ يحترم محدودية توفر المتحدثين | ❌ قد لا تلتقط الآلة جميع الفروق الأسلوبية الدقيقة |
| ✅ سير عمل طبيعي لضمان الجودة | ❌ يؤثر اختيار العينة على الجودة الإجمالية |
| ✅ ممتاز للسياقات المجتمعية/التعليمية | ❌ المراجعة البشرية تشكّل عنق زجاجة للإدخالات المحددة |
يتكامل جيدًا مع
- Coached LLM Prompting — الترجمات البشرية تغذّي بيانات التوجيه
- Few-Shot Prompting — الترجمات البشرية كأمثلة ضمن السياق
- Corpus Creation — العينة البشرية هي بحد ذاتها إنشاء للمدونة اللغوية
انظر أيضًا
- للمجتمعات اللغوية — نموذج المشاركة المجتمعية
- سيادة البيانات — ملكية بيانات الترجمة
- دعم لغة منخفضة الموارد