من Pāṇini إلى Transformers: اللغة والحوسبة وعمل الترجمة غير المكتمل

تاريخ الأفكار التي تقف وراء champollion

«عندما أنظر إلى مقال باللغة الروسية، أقول: "هذا في الحقيقة مكتوب بالإنجليزية، لكنه مُرمَّز برموز غريبة. وسأشرع الآن في فك الترميز."» — Warren Weaver، عام 1949

مقدمة

إن حلم وجود آلة قادرة على الترجمة بين اللغات البشرية أقدم من الحاسوب نفسه. وهو، بمعنى ما، المسألة الأصلية الأولى للذكاء الاصطناعي — أقدم من برامج لعب الشطرنج، وأقدم من النظم الخبيرة، وأقدم من الشبكات العصبية. وكثيرًا ما تُؤطَّر هذه الرغبة من خلال أمثال أوروبية مثل برج بابل، الذي يقدّم التنوع اللغوي بوصفه عقابًا أو مشكلة يجب حلها، متجاهلًا حقيقة أن مجتمعات الشعوب الأصلية قبل الاتصال الأوروبي تعاملت طويلًا مع تنوع لغوي مذهل عبر لغات تجارية متطورة (مثل Chinook Jargon) وأنظمة إشارية (مثل Plains Indian Sign Language) دون السعي إلى تجانس كوني.

لكن التاريخ الذي يقود إلى هذه اللحظة — إلى عالم تستطيع فيه النماذج اللغوية الكبيرة أن تترجم فرنسية مقبولة لكنها تهلوس هراءً بلغة Cree — ليس خطًا مستقيمًا. إنه ضفيرة من أربعة خيوط متمايزة على الأقل: الدراسة الصورية للغة، والنظرية الرياضية للحوسبة، والثورة الإحصائية في تعلّم الآلة، وتاريخ أكثر قتامة يفسّر لماذا تكون اللغات الأشد حاجة إلى التكنولوجيا هي بالذات اللغات التي لا توجد لها هذه التكنولوجيا. ذلك الخيط الرابع هو تاريخ القمع اللغوي الاستعماري والإبادة الثقافية — التدمير المتعمَّد والمنهجي للغات الشعوب الأصلية في كل قارة أقامت فيها القوى الأوروبية سيطرتها. ومن دون فهم ذلك التاريخ، تبدو المشكلة التقنية وكأنها مجرد مصادفة ناتجة عن ندرة البيانات. لكنها ليست مصادفة.

تتتبّع هذه الورقة الخيوط الأربعة جميعها من أصولها حتى تقاطعها في اللحظة الراهنة. وهي، باعتراف كاتبيها، تميل إلى السرد الغائي — إذ تروي القصة كما لو كانت تقود دائمًا إلى هنا. والتاريخ، بطبيعة الحال، لم يكن يعرف إلى أين يتجه. لكن الخيوط حقيقية، والروابط أصيلة، وفهمها أساسي لفهم سبب وجود مشاريع مثل champollion، ولماذا بُنيت على النحو الذي بُنيت عليه، ولماذا هي مهمة الآن.

I. قواعد كل شيء: من Pāṇini إلى Chomsky

أول قواعد صورية (نحو القرن الرابع قبل الميلاد)

تبدأ القصة لا في جامعة أوروبية بل في الهند القديمة، مع عالم يُدعى Pāṇini. ففي حوالي القرن الرابع قبل الميلاد، ألّف Pāṇini كتاب Aṣṭādhyāyī — وهو قواعد للغة السنسكريتية تضم نحو 4,000 قاعدة. ولم يكن هذا كتاب قواعد بالمعنى التعليمي الفضفاض. بل كان قواعد توليدية: مجموعة منتهية من القواعد القادرة، من حيث المبدأ، على إنتاج كل عبارة صحيحة في اللغة.

استخدم نظام Pāṇini ما نعرفه اليوم بقواعد إعادة الكتابة الصورية، مع المتغيرات والعودية والتطبيق المرتَّب. وقد جادل اللغوي Paul Kiparsky بأن Aṣṭādhyāyī هو «أكمل قواعد توليدية لأي لغة كُتبت حتى الآن» (Kiparsky, 1993). كما أظهر عالم الحاسوب Gerard Huet أن قواعد Pāṇini يمكن نمذجتها كمحوّل حالات منتهية (finite-state transducer) — وهو الصياغة الحاسوبية ذاتها التي ستصبح، بعد خمسة وعشرين قرنًا، محورية في التحليل الصرفي للغات المتعددة التركيب.

لم يكن Pāṇini يعلم أنه يمارس علوم الحاسوب. لكنه كان يفعل ذلك حقًا.

حجر رشيد وميلاد اللسانيات المقارنة (1799)

طوال معظم التاريخ المدوَّن، كانت دراسة اللغة في الأساس دراسة لغة المرء نفسه — أو، في أحسن الأحوال، دراسة لغة مقدسة أو كلاسيكية لأغراض طقسية. أما الثورة الفكرية التي أنشأت اللسانيات الحديثة فقد بدأت بحجر.

حمل حجر رشيد، الذي اكتشفه جنود نابليون عام 1799، المرسوم نفسه بثلاثة خطوط: الهيروغليفية المصرية، والخط الديموطيقي، واليونانية القديمة. ولم يكن فك Jean-François Champollion لرموز الهيروغليفية عام 1822 مجرد انتصار أثري. بل برهن على مبدأ سيصبح تأسيسيًا: أن اللغات يمكن فهمها من خلال بعضها البعض. فالترجمة لم تكن مجرد مهارة عملية؛ بل كانت منهجًا للبحث العلمي.

William Jones وفرضية اللغات الهندو-أوروبية (1786)

حتى قبل Champollion، كان عالم فقه اللغة البريطاني Sir William Jones قد ألقى محاضرته الشهيرة أمام الجمعية الآسيوية في البنغال عام 1786، ملاحظًا أن السنسكريتية تحمل تجاه اليونانية واللاتينية «قرابة أقوى، في جذور الأفعال وفي صيغ القواعد على حد سواء، مما يمكن أن تنتجه المصادفة». واقترح Jones أن اللغات الثلاث جميعها تنحدر من سلف مشترك «ربما لم يعد له وجود».

كان هذا ميلاد اللسانيات التاريخية والمقارنة. فقد أرسى أن اللغات ليست كيانات معزولة ساكنة بل أعضاء في عائلات — تربطها قرابة النسب، ويشكّلها الزمن، وتخضع لقوانين منتظمة للتغير. وكانت، على طريقتها، نظرية تطورية قبل Darwin بعقود.

أشجار اللغات عند August Schleicher (1861)

كان August Schleicher، وهو لغوي ألماني، من جعل الصلة الداروينية صريحة. ففي عام 1861 — أي بعد عامين فقط من صدور أصل الأنواع — نشر Schleicher نموذجه Stammbaum (الشجرة العائلية) للغات الهندو-أوروبية. وتكاد رسومه البيانية لا تتميز عن أشجار التطور السلالي في علم الأحياء. فاللغات، مثل الأنواع، تتفرع وتتباعد وتنقرض أحيانًا.

كانت أشجار Schleicher تبسيطًا (فاللغات أيضًا تتقارب عبر الاحتكاك والاقتراض والتهجين الكريولي)، لكن النموذج أثبت إنتاجية هائلة. فقد أرسى مبدأ أن التنوع اللغوي ليس ضجيجًا عشوائيًا بل بيانات منظَّمة قابلة للتحليل المنهجي. وطرح، ضمنيًا، سؤالًا يظل مركزيًا في مشروعنا: ماذا يحدث للفروع التي تحتضر؟

Ferdinand de Saussure وبنية اللغة (1916)

جاءت الثورة التالية من Ferdinand de Saussure، الذي أرسى كتابه Cours de linguistique générale (المنشور بعد وفاته عام 1916 اعتمادًا على مدونات طلابه) أسس اللسانيات البنيوية. رسم Saussure تمييزًا حادًا بين langue (النظام المجرد للغة) وparole (الكلام الفعلي). وجادل بأن العلامات اللغوية اعتباطية — فكلمة "شجرة" لا تحمل أي صلة جوهرية بالأشجار — وأن المعنى ينشأ من الاختلافات داخل نظام، لا من أي محتوى إيجابي.

أصبح مخطط Saussure الأساسي — الشكل البيضاوي المقسوم بين signifié (المدلول، أي المفهوم) وsignifiant (الدال، أي الصورة الصوتية)، مرتبطين بأسهم تُظهر علاقتهما غير القابلة للفصل — واحدًا من أكثر الصور استنساخًا في العلوم الإنسانية. فقد أرسى مبدأ أن اللغة نظام من الأنظمة، يستمد فيه كل عنصر قيمته من علاقاته بسائر العناصر.

كان لذلك آثار عميقة على الترجمة. فإذا كان المعنى علائقيًا ونظاميًا، فإن الترجمة ليست مسألة تبديل كلمات. بل تتطلب فهم البنية الكاملة للغة. وقد تقسّم لغتان العالم بطرق مختلفة جوهريًا — وهي رؤية سيطوّرها لاحقًا (ويبالغ فيها أحيانًا) Edward Sapir وBenjamin Lee Whorf.

Sapir وBloomfield ودراسة لغات الشعوب الأصلية

في أمريكا الشمالية، جلبت بدايات القرن العشرين تقليدًا مختلفًا من العمل الميداني اللغوي. فقد عمل Edward Sapir وLeonard Bloomfield بشكل مكثف مع لغات الشعوب الأصلية — Sapir مع Navajo وNootka وغيرهما الكثير؛ وBloomfield مع Menomini وغيرها من لغات Algonquian. وقد واجها بنى لغوية مختلفة جذريًا عن أي شيء في العائلة الهندو-أوروبية.

طوّر Sapir، على وجه الخصوص، إطارًا تصنيفيًا يصنّف اللغات وفق محاور عدة، من بينها التمييز الحاسم بين اللغات التحليلية (مثل الإنجليزية، حيث تميل الكلمات إلى القصر ويحمل ترتيب الكلمات المعنى) واللغات المتعددة التركيب (مثل Cree، حيث يمكن لكلمة واحدة أن تشفّر ما تعبّر عنه الإنجليزية بجملة كاملة). فصيغة فعلية واحدة في Cree قد تدمج الفاعل والمفعول والزمن والجهة والدلالة البيّنية وعدة عناصر تعديلية في كلمة واحدة معقدة صرفيًا.

أرسى هذا العمل حقيقتين تظلان مركزيتين في مشروعنا. الأولى: لغات العالم أكثر تنوعًا بنيويًا بكثير مما يوحي به أي نموذج متمركز أوروبيًا. والثانية: كثير من هذه اللغات كان مهددًا بالانقراض أصلًا. غير أنه، وبينما وثّق اللغويون البنيويون الأوائل هذا التعقيد، فإنهم كثيرًا ما شاركوا في "أنثروبولوجيا الإنقاذ" — نموذج أكاديمي استخراجي تعامل مع أبناء الشعوب الأصلية كمجرد "مخبرين" لبناء مسارات مهنية أكاديمية غربية. وقد فصل هذا النهج اللغات عن جذورها المعرفية، ممهدًا الطريق للتعامل مع اللغة كبيانات منزوعة الجسد قابلة للاستخراج بدلًا من كونها أنظمة حية وعلائقية.

ثورة Chomsky (1957)

في عام 1957، نشر لغوي في معهد MIT يبلغ من العمر 28 عامًا يُدعى Noam Chomsky كتاب Syntactic Structures، وهو كتاب صغير الحجم انفجر كالقنبلة في الحقل. جادل Chomsky بأن هدف اللسانيات ينبغي أن يكون اكتشاف القواعد التوليدية للغة — أي مجموعة منتهية من القواعد القادرة على إنتاج كل الجمل القواعدية في تلك اللغة وحدها دون سواها.

وعلى نحو أكثر إثارة، اقترح Chomsky ما يُعرف بـهرمية Chomsky: تصنيف للقواعد الصورية وفق قدرتها الحاسوبية. وللهرمية أربعة مستويات:

النوع 3 (المنتظم): تتعرّف عليه الأوتوماتا المنتهية. أنماط بسيطة.
النوع 2 (الحر من السياق): تتعرّف عليه أوتوماتا الدفع للأسفل. بنى عودية مثل الأقواس المتداخلة.
النوع 1 (الحساس للسياق): تتعرّف عليه الأوتوماتا الخطية المحدودة. تبعيات أكثر تعقيدًا.
النوع 0 (القابل للتعداد عوديًا): تتعرّف عليه آلات Turing. أي شيء قابل للحوسبة.

جادل Chomsky بأن اللغات الطبيعية تتطلب على الأقل قواعد حرة من السياق، وربما أكثر. كان هذا جسرًا مباشرًا بين اللسانيات والنظرية الرياضية للحوسبة. فالأدوات الصورية نفسها التي طوّرها Alan Turing للتفكير في حدود الحوسبة يمكن الآن تطبيقها على اللغة البشرية.

كما اقترح Chomsky فكرة القواعد الكلية (Universal Grammar) — أي أن القدرة على اللغة فطرية، وأن جميع اللغات البشرية تشترك في خصائص بنيوية عميقة، وأن تنوع الأشكال السطحية يخفي وحدة كامنة. وهذا لا يزال موضع جدل (إذ يختلف معه كثير من علماء التصنيف اللغوي والوظيفيين)، لكن الأدوات الصورية التي قدّمها Chomsky — قواعد البنية العبارية، والقواعد التحويلية، والهرمية ذاتها — أصبحت أساس اللسانيات الحاسوبية.

II. حلم الترجمة الكونية

آلة التفكير عند Ramon Llull‏ (1305)

إن حلم مكننة الفكر — ومعه حلم الترجمة الآلية — قديم على نحو لافت. فقد صمّم Ramon Llull، وهو متصوف كتالوني من القرن الثالث عشر، نظام Ars Magna: نظام من أقراص متحدة المركز دوّارة نُقشت عليها مفاهيم أساسية، كان يُفترض أن تولّد تركيباتها جميع الحقائق الممكنة. كانت عجلات Llull، بمعنى ما، أول آلة منطق توافيقي. وقد استشهد Leibniz لاحقًا بـ Llull كمصدر إلهام.

Athanasius Kircher وكتاب Polygraphia Nova‏ (1663)

نشر Athanasius Kircher، الموسوعي اليسوعي الكبير، كتاب Polygraphia Nova et Universalis عام 1663 — وهو نظام "كتابة كونية" يهدف إلى إتاحة التواصل عبر الحواجز اللغوية. خصّص نظام Kircher أرقامًا للمفاهيم، يمكن بعدها فك ترميزها إلى أي لغة باستخدام الجدول المناسب. كان، في جوهره، لغة وسيطة (interlingua) — تمثيلًا للمعنى مستقلًا عن اللغة.

لم يعمل النظام جيدًا. لكن الفكرة بقيت: أن بين أي لغتين فضاءً مفاهيميًا مشتركًا، وأن الترجمة مسألة تخطيط عبره. ولم تكن فرضية اللغة الوسيطة هذه مجرد تجربة علمية معيبة؛ بل كانت امتدادًا إبستمولوجيًا للسيطرة الاستعمارية، عاجزة عن تخطيط الأنطولوجيات المتباينة. وقد صاغ الفيلسوف W.V.O. Quine لاحقًا هذا الفشل بمفهومه عن لاتحدُّدية الترجمة (1960)، مجادلًا بأن الترجمة الجذرية غير محدَّدة بطبيعتها. فالتخطيط الكوني الخالي من السياق بين أنظمة لغوية متباينة جوهريًا استحالة فلسفية، لا مجرد عقبة هندسية.

John Wilkins واللغة الفلسفية (1668)

بعد خمس سنوات فقط من Kircher، نشر الفيلسوف الطبيعي الإنجليزي John Wilkins كتاب An Essay towards a Real Character, and a Philosophical Language — محاولة لإنشاء لغة تعكس بنيتها بنية الواقع بدقة تامة. فكل مفهوم سيُصنَّف في تصنيف كبير، ويشفّر اسمه موقعه في ذلك التصنيف.

فشل مشروع Wilkins (إذ أثبت الواقع مقاومته للتصنيف المرتَّب)، لكنه استبق شيئًا مهمًا: فكرة أن اللغة يمكن أن تُهندَس، وأن العلاقة بين الكلمات والمعاني يمكن جعلها منهجية وصريحة. وهذا، بمعنى عميق، ما يفعله اللسانيون الحاسوبيون عندما يبنون الأنطولوجيات ورسوم المعرفة البيانية.

Leibniz واللغة الرمزية الكونية (Characteristica Universalis)

حلم Gottfried Wilhelm Leibniz، الذي اخترع حساب التفاضل والتكامل بشكل مستقل وصمّم آلة حاسبة ميكانيكية، بـcharacteristica universalis — لغة صورية كونية يمكن التعبير فيها عن كل المعرفة البشرية — وبـcalculus ratiocinator — آلة قادرة على الاستدلال بتلك اللغة. كتب Leibniz: «إذا نشأت خلافات، فلن تكون هناك حاجة إلى جدال بين فيلسوفين أكثر مما بين محاسبَين. إذ يكفي أن يمسكا بأقلامهما، ويجلسا إلى ألواحهما، ويقول أحدهما للآخر: فلنحسب».

كما اخترع Leibniz الحساب الثنائي — نظام الأعداد الذي سيصبح، بعد قرون، لغة الحواسيب الرقمية. فقد أظهرت ورقته لعام 1703 بعنوان Explication de l'Arithmétique Binaire أن أي عدد يمكن تمثيله باستخدام 0 و1 فقط. ورأى في ذلك انعكاسًا للخلق الإلهي (شيء من لا شيء)، لكنه سيثبت أنه أساس كل الحوسبة الرقمية.

مذكرة Warren Weaver‏ (1949)

يبدأ العصر الحديث للترجمة الآلية بمذكرة. ففي يوليو 1949، كتب عالم الرياضيات والإداري العلمي الأمريكي Warren Weaver إلى Norbert Wiener مقترحًا أن الحواسيب الإلكترونية الجديدة قد تُطبَّق على الترجمة. وتضمّنت مذكرته المقطع اللافت المقتبَس في مطلع هذه الورقة: فكرة أن النص الروسي «مكتوب في الحقيقة بالإنجليزية، لكنه... مُرمَّز برموز غريبة».

استُمدت استعارة Weaver من تحليل الشفرات في زمن الحرب — فكرة أن الترجمة مسألة فك ترميز في جوهرها. ولم يكن ذلك مجرد تشبيه. فالأدوات الإحصائية والمعلوماتية نفسها التي طُوِّرت لكسر شفرات العدو قد تكون، كما اقترح Weaver، قابلة للتطبيق على مشكلة الترجمة.

كانت المذكرة شديدة التفاؤل، لكنها أطلقت برنامجًا بحثيًا. وفي غضون خمس سنوات، كانت أول تجربة ترجمة آلية علنية ستجري.

III. آلية الفكر: الحوسبة والمعلومات

George Boole وجبر المنطق (1854)

في عام 1854، نشر George Boole كتاب An Investigation of the Laws of Thought — عمل اختزل الاستدلال المنطقي إلى عمليات جبرية. أظهر Boole أن قضايا المنطق يمكن معالجتها باستخدام قواعد الجبر نفسها، حيث يقابل AND الضرب، وOR الجمع، وNOT المتممة.

بدا الجبر البولياني آنذاك مجرد طرفة رياضية. لكنه سيصبح مبدأ التشغيل لكل دارة رقمية بُنيت على الإطلاق.

Charles Babbage وAda Lovelace‏ (1837–1843)

صمّم Charles Babbage (لكنه لم يكمل قط) المحرك التحليلي (Analytical Engine) — حاسوب ميكانيكي عام الغرض يعمل بالبخار. وعلى خلاف محركه التفاضلي السابق (وهو حاسبة متخصصة)، امتلك المحرك التحليلي ذاكرة ("المخزن")، ووحدة معالجة ("المطحنة")، وتفرّعًا شرطيًا، وتكرارًا حلقيًا. وكان، من حيث المبدأ، مكتمل القدرة بمعيار Turing.

أما Ada Lovelace، فقد كتبت انطلاقًا من وصف للمحرك مجموعة من الملاحظات التفصيلية تضمنت ما يُعد على نطاق واسع أول برنامج حاسوبي منشور: خوارزمية لحساب أعداد Bernoulli (الملاحظة G، عام 1843). لكن إسهام Lovelace الأعمق كان مفاهيميًا. فقد أدركت أن المحرك يستطيع معالجة الرموز، لا الأعداد فقط. كتبت: «ينسج المحرك التحليلي أنماطًا جبرية، تمامًا كما ينسج نول Jacquard الأزهار والأوراق». وكان المعنى الضمني — أن الحوسبة يمكن تطبيقها على أي مجال ذي بنية صورية، بما في ذلك اللغة — نبوئيًا.

Alan Turing والآلة الكونية (1936)

في عام 1936، نشر Alan Turing ورقة "On Computable Numbers, with an Application to the Entscheidungsproblem" — ورقة عرّفت الحوسبة وأثبتت حدودها واخترعت الحاسوب الحديث (في صورته المجردة) في آن واحد.

كانت رؤية Turing الأساسية هي الآلة الكونية: آلة واحدة تستطيع، إذا أُعطيت التعليمات الصحيحة مرمَّزة على شريطها، محاكاة أي آلة أخرى. وأرسى ذلك أنه لا فرق جوهريًا بين العتاد والبرمجيات، بين الآلة والبرنامج. فجهاز واحد، مبرمج على نحو سليم، يستطيع حساب أي شيء قابل للحساب أصلًا.

كما أرسى عمل Turing حدود الحوسبة (مسألة التوقف) ومهّد الطريق لاستكشافه اللاحق لذكاء الآلة. فورقته لعام 1950 بعنوان "Computing Machinery and Intelligence"، التي اقترحت اختبار Turing الشهير، صاغت سؤال ذكاء الآلة صراحةً بدلالة اللغة: الآلة ذكية إذا تعذّر، عبر المحادثة، تمييزها عن الإنسان.

Claude Shannon ونظرية المعلومات (1948)

في عام 1948، نشر Claude Shannon ورقة "A Mathematical Theory of Communication" في مجلة Bell System Technical Journal — ورقة أسّست حقل نظرية المعلومات. أظهر Shannon أن الاتصال يمكن نمذجته كنظام: مصدر معلومات يولّد رسالة، يرمّزها مرسِل إلى إشارة، تمر عبر قناة (معرّضة لـضوضاء)، يفك مستقبِل ترميزها مجددًا إلى رسالة موجَّهة إلى وجهة.

كان إسهام Shannon الأساسي هو مفهوم الإنتروبيا — مقياس لعدم اليقين أو المحتوى المعلوماتي للرسالة. وأثبت أنه لأي قناة بمستوى ضوضاء معيّن، يوجد معدل أقصى يمكن عنده نقل المعلومات بموثوقية (سعة القناة)، وأن هذا المعدل قابل للتحقيق بترميز بارع بما يكفي.

والصلة بالترجمة عميقة. فقد استخدم Shannon نفسه، في ورقة عام 1951، نظرية المعلومات لتحليل البنية الإحصائية للغة الإنجليزية. وأظهر أن النص الإنجليزي شديد التكرارية — أي أن المتحدث الأصلي، إذا أُعطي تسلسلًا من الحروف، يستطيع التنبؤ بالحرف التالي بدقة عالية. هذه التكرارية هي ما يجعل الاتصال متينًا في وجه الضوضاء، لكنها تعني أيضًا أن المحتوى المعلوماتي للغة أدنى بكثير مما يوحي به عدد رموزها الخام.

أدرك Warren Weaver الصلة فورًا: إذا كانت الترجمة فك ترميز، وإذا كانت البنية الإحصائية للغة قابلة للنمذجة، فإن الترجمة مسألة من مسائل نظرية المعلومات. وستحتاج هذه الرؤية عقودًا لتؤتي ثمارها، لكنها حين فعلت، حوّلت الحقل بأكمله.

Von Neumann والحاسوب ذو البرنامج المخزَّن (1945)

وصف تقرير John von Neumann لعام 1945 عن حاسوب EDVAC (الحاسوب الآلي الإلكتروني ذو المتغيرات المنفصلة) ما نسميه اليوم معمارية von Neumann: حاسوب بمخزن ذاكرة واحد للبيانات والتعليمات معًا، ووحدة معالجة مركزية، وآليات إدخال/إخراج. وتظل هذه المعمارية — حيث تتشارك البيانات والبرامج الذاكرة نفسها وتعالجها وحدة معالجة مركزية تسلسليًا — التصميم الأساسي لكل حاسوب مستخدم اليوم تقريبًا.

جعلت معمارية von Neumann البرمجيات عملية. فأصبح بالإمكان تخزين البرامج وتعديلها، بل وتوليدها بواسطة برامج أخرى. كان ذلك الشرط التكنولوجي المسبق لكل ما تلا: المترجمات البرمجية، وأنظمة التشغيل، وفي النهاية أطر الشبكات العصبية التي تشغّل الترجمة الآلية الحديثة.

IV. الترجمة الآلية: أول مسألة في الذكاء الاصطناعي

تجربة Georgetown-IBM والحرب الباردة (1954)

في 7 يناير 1954، عرض باحثون من جامعة Georgetown وشركة IBM أول نظام ترجمة آلية علني. ترجم النظام 60 جملة روسية إلى الإنجليزية باستخدام مفردات قوامها 250 كلمة وست قواعد نحوية. وقد اختيرت الجمل بعناية لتكون ضمن قدرات النظام، لكن العرض ولّد حماسًا هائلًا.

أفادت صحيفة New York Times بأن التجربة تنبئ بمستقبل يجعل فيه "مترجم إلكتروني بضغطة زر" كل الأدبيات العلمية في العالم متاحة فورًا. غير أن هذا التفاؤل العلني أخفى الواقع المادي لتمويل المشروع وغرضه. فلم تكن تجربة Georgetown-IBM — وحقل الترجمة الآلية المبكر عمومًا — مدفوعة برغبة طوباوية في التواصل الكوني. بل موّلها الجهاز العسكري والاستخباراتي للولايات المتحدة (بما في ذلك CIA وDARPA) كضرورة ملحّة في الحرب الباردة لمراقبة النصوص العلمية والعسكرية السوفيتية واعتراضها.

وكانت النظرة إلى اللغة بوصفها "شفرة يجب كسرها" (كما عبّر Weaver) مرتبطة جوهريًا بالمراقبة المعسكرة. وتنبأ الباحثون بأن الترجمة الآلية ستكون مسألة محلولة في غضون خمس سنوات. وقد أخطأوا بأكثر من نصف قرن.

تقرير ALPAC وأول شتاء للذكاء الاصطناعي (1966)

في عام 1966، أصدرت اللجنة الاستشارية لمعالجة اللغة آليًا (ALPAC)، التي شكّلتها الحكومة الأمريكية، تقريرًا مدمّرًا. فبعد مراجعة عقد من أبحاث الترجمة الآلية، خلصت ALPAC إلى أن الترجمة الآلية أبطأ وأقل دقة وأكثر كلفة من الترجمة البشرية، وأوصت بإعادة توجيه التمويل إلى البحث الأساسي في اللسانيات الحاسوبية.

قضى تقرير ALPAC فعليًا على تمويل أبحاث الترجمة الآلية في الولايات المتحدة لأكثر من عقد. كان ذلك أول "شتاء للذكاء الاصطناعي" — نمط سيتكرر: وعود مفرطة، ونتائج متواضعة، وخيبة أمل، وانهيار للتمويل.

لكن التقرير تضمن أيضًا رؤية أعمق. فقد فشلت الترجمة الآلية، جزئيًا، لأن اللغة كانت أصعب مما توقع أي أحد. فالنهج القائم على القواعد — كتابة قواعد نحوية صريحة لتحليل الجمل وتوليدها — نجح في الحالات البسيطة لكنه انهار انهيارًا كارثيًا أمام النصوص الحقيقية. كانت اللغة أكثر غموضًا، وأشد اعتمادًا على السياق، وأكثر حياة من أن تلتقطها قواعد هشة.

الترجمة الآلية القائمة على القواعد والقائمة على النقل (السبعينيات–الثمانينيات)

استمر البحث، بهدوء أكبر، خلال السبعينيات والثمانينيات. واستخدمت أنظمة مثل SYSTRAN (التي شغّلت خدمات الترجمة المبكرة للمفوضية الأوروبية) قواميس ضخمة مصنوعة يدويًا وقواعد نقل للتخطيط بين أزواج اللغات. واستطاعت هذه الأنظمة إنتاج ترجمات تقريبية مفيدة في مجالات محصورة، لكنها تطلبت جهدًا هندسيًا هائلًا لكل زوج لغوي، ونادرًا ما تعاملت مع النصوص غير المقيدة بسلاسة.

كانت المشكلة الجوهرية واضحة: اللغة ليست شفرة. لا يمكنك الترجمة بالبحث عن الكلمات في قاموس وإعادة ترتيبها وفق قواعد نحوية، لأن المعنى يعتمد على السياق، وعلى معرفة العالم، وعلى قصد المتحدث، وعلى التاريخ الكامل للمحادثة. أما نهج اللغة الوسيطة — الترجمة عبر تمثيل مجرد مستقل عن اللغة — فكان أنيقًا نظريًا لكنه مستحيل عمليًا. فلم يستطع أحد تعريف اللغة الوسيطة.

الثورة الإحصائية (التسعينيات)

جاء الاختراق لا من قواعد أفضل بل من بيانات أفضل. ففي أواخر الثمانينيات وأوائل التسعينيات، طوّر باحثون في IBM (وهم Peter Brown وStephen Della Pietra وVincent Della Pietra وRobert Mercer) سلسلة من النماذج الإحصائية للترجمة الآلية — نماذج IBM الشهيرة من 1 إلى 5.

كانت الرؤية الأساسية هي فكرة Weaver القديمة، وقد صيغت أخيرًا صياغة دقيقة: الترجمة كفك ترميز. فإذا أُعطيت جملة أجنبية f، ابحث عن الجملة الإنجليزية e التي تعظّم P(e|f). وبموجب نظرية Bayes، يكافئ ذلك تعظيم P(f|e) × P(e) — أي نموذج ترجمة (ما احتمال هذه الجملة الأجنبية بمعلومية هذه الجملة الإنجليزية؟) مضروبًا في نموذج لغوي (ما احتمال هذه الجملة الإنجليزية في ذاتها؟).

تعلّمت نماذج IBM هذه الاحتمالات من متون متوازية ضخمة — مجموعات نصوص موجودة باللغتين (مثل محاضر البرلمان الكندي Hansards، التي كانت تُنشر بالإنجليزية والفرنسية معًا). ولم تكن هناك حاجة إلى قواعد يدوية. فقد تعلّم النظام الترجمة بملاحظة ملايين الأمثلة من الترجمة البشرية.

عملت الترجمة الآلية الإحصائية على نحو أفضل بكثير من الترجمة القائمة على القواعد بالنسبة للغات ذات البيانات المتوازية الوفيرة. كما قدّمت قطعة بنية تحتية حاسمة: مقياس BLEU score (Papineni et al., 2002)، وهو مقياس للتقييم الآلي لجودة الترجمة بمقارنة مخرجات الآلة بترجمات مرجعية بشرية. جعل BLEU من الممكن قياس التقدم كمّيًا وإجراء تجارب واسعة النطاق.

لكن الترجمة الآلية الإحصائية كانت تنطوي على افتراض قاتل: فقد تطلبت متونًا متوازية. وبالنسبة لأزواج اللغات الكبرى في العالم — الإنجليزية-الفرنسية، والإنجليزية-الصينية، والإنجليزية-الإسبانية — كانت البيانات المتوازية وفيرة. أما بالنسبة للأغلبية الساحقة من لغات العالم البالغ عددها 7,000 لغة، فهي ببساطة غير موجودة.

الثورة العصبية: Seq2Seq والانتباه وTransformers‏ (2014–2017)

جاء التحول التالي مع التعلّم العميق. ففي عام 2014، عرض Ilya Sutskever وOriol Vinyals وQuoc Le نماذج التسلسل-إلى-تسلسل (seq2seq) للترجمة الآلية: شبكات عصبية تستطيع قراءة جملة كاملة بلغة وتوليد ترجمة بلغة أخرى، دون أي محاذاة صريحة أو جداول عبارات.

وفي عام 2015، قدّم Dzmitry Bahdanau وKyunghyun Cho وYoshua Bengio آلية الانتباه — التي تتيح لوحدة فك الترميز "النظر إلى الوراء" نحو أجزاء مختلفة من الجملة المصدر أثناء توليد كل كلمة من الترجمة. وحسّن ذلك الأداء على الجمل الطويلة تحسينًا دراماتيكيًا.

وفي عام 2017، نشر Vaswani وزملاؤه في Google ورقة "Attention Is All You Need" التي قدّمت معمارية Transformer. استغنى Transformer عن العودية كليًا، معالجًا التسلسلات بأكملها بالتوازي باستخدام الانتباه الذاتي. كان أسرع في التدريب، وأسهل في التوسيع، وأنتج ترجمات أفضل من أي شيء سبقه.

قادت معماريات Transformers مباشرة إلى النماذج اللغوية الكبيرة (LLMs) في عقد العشرينيات من القرن الحادي والعشرين: GPT وBERT وPaLM وLLaMA وذرّياتها. وتستطيع هذه النماذج، المدرَّبة على كميات هائلة من نصوص الإنترنت، الترجمة بين مئات أزواج اللغات بطلاقة لافتة.

لكن "الطلاقة اللافتة" ليست هي "الدقة الموثوقة". وبالنسبة للغات العالم منخفضة الموارد، الوضع أسوأ بكثير مما يبدو.

V. التاريخ الآخر: اللغة والسلطة والإبادة الثقافية

تروي الأقسام الأربعة السابقة قصة الأفكار — قصة النحويين والرياضيين والمهندسين وهم يبنون نحو الترجمة الآلية. لكن ثمة تاريخًا آخر، يجري بالتوازي، يفسّر لماذا تكون اللغات الأشد حاجة إلى تكنولوجيا الترجمة هي بالذات اللغات التي لا توجد لها هذه التكنولوجيا. هذه ليست قصة عن ندرة البيانات كحقيقة محايدة. إنها قصة تدمير متعمَّد.

فالسبب في أن لغة Plains Cree لا تحظى بدعم للترجمة الآلية ليس في الأساس أن Cree لغة صعبة على الحواسيب (وإن كانت كذلك). بل هو أن حكومتي كندا والولايات المتحدة أدارتا، لأكثر من قرن، برامج منهجية لاستئصال لغات الشعوب الأصلية من أفواه الأطفال. إن "ندرة البيانات" التي تجعل الترجمة الآلية منخفضة الموارد بهذه الصعوبة هي، في جزء كبير منها، النتيجة اللاحقة للإبادة الثقافية. وأي سرد أمين لسبب حاجة هذه اللغات إلى التكنولوجيا يجب أن يواجه السبب الذي أوصلها إلى حافة الانقراض أصلًا.

قبل الاتصال: قارة من اللغات

كان التنوع اللغوي في الأمريكتين قبل الاتصال الأوروبي مذهلًا. فعند الاتصال الأوروبي، كانت أمريكا الشمالية وحدها موطنًا لما يقدَّر بين 300 و600 لغة متمايزة، منظَّمة في عشرات العائلات اللغوية غير المترابطة — أي تنوع وراثي أكبر مما في أوروبا كلها. وربما كان في أمريكا الجنوبية 1,500 لغة أو أكثر (Campbell, 1997). وكان في أستراليا أكثر من 250 لغة. وكانت جزر المحيط الهادئ وأفريقيا جنوب الصحراء وجنوب شرق آسيا القارية متنوعة بالمثل.

لم تكن هذه لغات "بدائية" أو "بسيطة". فكثير من أكثر اللغات تعقيدًا بنيويًا على الإطلاق هي لغات شعوب أصلية. فالصرف المتعدد التركيب في لغات Algonquian (بما فيها Cree وOjibwe وBlackfoot)، والأنظمة النغمية في Navajo، ووسم الدلالة البيّنية المتقن في Quechua، والصوامت الطقطقية في لغات Khoisan — كلها تمثل المدى الكامل لما يمكن أن تكونه اللغة البشرية. وهي تشفّر أنظمة معرفية متطورة عن القرابة والبيئة والقانون والروحانية والتاريخ. فكل لغة مكتبة — سجل لا يُعوَّض لطريقة مجتمع ما في فهم العالم وتنظيمه.

أدرك Edward Sapir ذلك بوضوح. فقد كتب عام 1921 ملاحظًا أنه «حين يتعلق الأمر بالشكل اللغوي، يسير Plato مع راعي الخنازير المقدوني، وConfucius مع صائد الرؤوس المتوحش في Assam». لم تكن لغات الشعوب الأصلية أدنى. بل كانت مختلفة — وكانت اختلافاتها تحوي معرفة لا تملكها أي لغة أخرى.

آليات موت اللغات

لا تموت اللغات بأسباب طبيعية. بل تموت حين تتعطل شروط انتقالها — حين يتوقف الأطفال عن تعلّمها، وحين يُعاقَب المتحدثون على استخدامها، وحين تتحول الحوافز الاجتماعية والاقتصادية بحيث يصبح التحدث باللغة المهيمنة شرطًا للبقاء.

يمكن أن يحدث هذا التعطل تدريجيًا، عبر الضغط الاقتصادي والديموغرافي. لكنه كان، في أرجاء العالم الاستعماري، متعمَّدًا بصورة ساحقة. فلم يكن قمع لغات الشعوب الأصلية أثرًا جانبيًا للاستعمار. بل كان هدفًا سياسيًا معلنًا.

كندا: نظام المدارس الداخلية (1831–1996)

في كندا، عمل نظام المدارس الداخلية الهندية (Indian Residential Schools) لأكثر من 160 عامًا، بهدف صريح هو القضاء على لغات وثقافات الشعوب الأصلية. وانتُزع ما يقدَّر بـ150,000 طفل من First Nations وMétis وInuit من أسرهم ومجتمعاتهم ووُضعوا في مدارس داخلية تموّلها الحكومة وتديرها الكنائس.

وقد صاغ Duncan Campbell Scott، نائب المشرف العام لشؤون الهنود، السياسة المركزية بوضوح مرعب عام 1920: «أريد التخلص من المشكلة الهندية... هدفنا أن نستمر حتى لا يبقى في كندا هندي واحد لم يُستوعَب في الكيان السياسي، ولا تبقى مسألة هندية ولا إدارة هندية».

كانت الآلية هي اللغة. فقد مُنع الأطفال من التحدث بلغاتهم الأم. وتراوحت عقوبات التحدث بلغة أصلية بين الضرب والحبس الانفرادي ودفع الإبر عبر ألسنتهم. كان الأطفال يصلون متحدثين بـ Cree أو Ojibwe أو Inuktitut أو Dene أو Haida أو أي من عشرات اللغات الأخرى. وكانوا يُعاقَبون حتى يتوقفوا.

وثّقت لجنة الحقيقة والمصالحة الكندية (2015) الطابع المنهجي لهذا الهجوم. وخلص تقريرها النهائي إلى أن نظام المدارس الداخلية شكّل إبادة ثقافية — تدمير البنى والممارسات التي تتيح لجماعة ما الاستمرار كجماعة. وكانت اللغة الهدف الأول. فمن دون اللغة، تتعطل الطقوس، وينقطع التاريخ الشفهي، وتصبح أنظمة القرابة غير مفهومة، ويتوقف انتقال المعرفة بين الأجيال.

أُغلقت آخر مدرسة داخلية تديرها الحكومة الفيدرالية في كندا عام 1996. وكثير من كبار السن الذين هم اليوم آخر المتحدثين الفصحاء بلغاتهم هم من الناجين من المدارس الداخلية. فطلاقتهم ليست مجرد مورد لغوي. إنها فعل مقاومة.

الولايات المتحدة: المدارس الداخلية الهندية (1860–1960)

أدارت الولايات المتحدة نظامًا موازيًا. فقد صاغ الكابتن Richard Henry Pratt، مؤسس مدرسة Carlisle الصناعية الهندية عام 1879، العبارة التي عرّفت تلك الحقبة: «اقتل الهندي، وأنقذ الإنسان». وعملت أكثر من 350 مدرسة داخلية ممولة حكوميًا عبر الولايات المتحدة، بسياسات تكاد تطابق سياسات كندا. مُنع أطفال الشعوب الأصلية من التحدث بلغاتهم، وأُجبروا على تبني أسماء إنجليزية، وخضعوا لمحو ثقافي منهجي.

وحدّد تقرير صادر عام 2022 عن وزارة الداخلية الأمريكية أكثر من 400 مدرسة داخلية هندية فيدرالية في 37 ولاية، موثقًا وفاة ما لا يقل عن 500 طفل في النظام — وهو رقم أقر التقرير بأنه شبه مؤكد أنه أدنى بكثير من الحقيقة. ووجد التحقيق أن النظام صُمم لا للتعليم فحسب بل من أجل «الاستيعاب الثقافي للأطفال الهنود عبر نقلهم قسرًا من أسرهم ومجتمعاتهم».

كانت العواقب اللغوية كارثية. فمن بين نحو 300 لغة أصلية كانت تُتحدث في الأراضي التي أصبحت الولايات المتحدة، انقرض أكثر من النصف الآن. ومن اللغات الباقية، معظمها يقل عدد متحدثيها الفصحاء عن 1,000، وكثير منها يقل عن 10. ويصنّف مشروع Endangered Languages Project أغلبية لغات الأمريكيين الأصليين الباقية بأنها مهددة بالانقراض «بشدة» أو «بشكل حرج».

أستراليا: الأجيال المسروقة (1910–1970)

في أستراليا، انتزعت السياسات الحكومية بين عامي 1910 و1970 أطفال السكان الأصليين وسكان جزر مضيق Torres قسرًا من أسرهم. وُضع هؤلاء الأطفال — المعروفون بالأجيال المسروقة (Stolen Generations) — في إرساليات ومحميات وأسر حاضنة بيضاء. وكان الهدف الصريح هو الاستيعاب: استئصال الهوية الأصلية في غضون أجيال قليلة.

قُمعت لغات السكان الأصليين في الإرساليات والمؤسسات الحكومية. وعوقب الأطفال الذين تحدثوا بلغاتهم. ووثّق تقرير Bringing Them Home (1997)، الصادر عن اللجنة الأسترالية لحقوق الإنسان، الطابع المنهجي لهذه الانتزاعات وآثارها المدمرة على اللغة والثقافة والأسرة.

من بين ما يقدَّر بـ250 لغة أسترالية أصلية كانت تُتحدث عند الاتصال الأوروبي، أقل من 20 لغة تُنقل اليوم إلى الأطفال (Marmion et al., 2014). وأكثر من 100 لغة انقرضت كليًا. وتبقى اللغات المتبقية حية إلى حد كبير بفضل جهود متحدثين مسنّين يعملون مع لغويين ومنظمات مجتمعية في سباق مع الزمن.

إسكندنافيا: لغات Sámi

لم يقتصر قمع لغات الشعوب الأصلية على الدول الاستيطانية في نصف الكرة الجنوبي. ففي النرويج والسويد وفنلندا، أُخضع أطفال Sámi لأنظمة مدارس داخلية (internatskoler) من منتصف القرن التاسع عشر حتى ستينيات القرن العشرين. حُظرت لغات Sámi في المدارس؛ وعوقب الأطفال على التحدث بها. واستهدفت سياسة "النرْوَجة" (fornorskingspolitikk) في النرويج صراحةً القضاء على لغة Sámi واستبدال النرويجية بها.

من بين لغات Sámi التسع الباقية، عدد متحدثي عدة لغات منها أقل من 500. ولغة Ume Sámi لديها نحو 20 متحدثًا. ولغة Pite Sámi أقل من 30. وتبقى هذه اللغات حية جزئيًا بفضل برامج الإحياء التي بدأت في السبعينيات، بما في ذلك إنشاء مدارس ووسائل إعلام بلغات Sámi — وهي برامج وصلت في الوقت المناسب لبعض اللهجات ومتأخرة جدًا لغيرها.

Aotearoa نيوزيلندا: Te Reo Māori

كانت لغة Māori (te reo Māori) لغة الأغلبية في Aotearoa حتى منتصف القرن العشرين. وهمّشت سياسات التعليم الاستعمارية البريطانية، بدءًا من ستينيات القرن التاسع عشر، لغة te reo تدريجيًا في المدارس. وبحلول السبعينيات، كان أقل من 20% من Māori متحدثين فصحاء، وكانت اللغة معرّضة لخطر الانقراض في غضون جيل.

كانت استجابة Māori واحدة من أقدم حركات إحياء اللغات في العالم وأنجحها. فقد أنشئت kōhanga reo (أعشاش اللغة) لأطفال ما قبل المدرسة عام 1982، حيث غُمر الرضّع والأطفال الصغار في te reo منذ الولادة. وتلتها kura kaupapa Māori (المدارس الناطقة بلغة Māori). وقد ثبّتت هذه البرامج اللغة، إلى جانب قانون لغة Māori لعام 1987 (الذي جعل te reo لغة رسمية) — وإن كان المتحدثون الفصحاء لا يزالون يشكّلون أقلية بين سكان Māori.

كما أنتجت نيوزيلندا واحدًا من أهم أطر حوكمة بيانات الشعوب الأصلية: Te Mana Raraunga، شبكة سيادة بيانات Māori. ويؤكد هذا الإطار أن بيانات Māori — بما فيها البيانات اللغوية — هي taonga (كنز) تخضع لحقوق ومسؤوليات kaitiakitanga (الوصاية). وقد أثّر مباشرة في تطوير مبادئ CARE لحوكمة بيانات الشعوب الأصلية، وهو مرجع تأسيسي لآليات سيادة البيانات في champollion.

النمط: اللغة كهدف للسلطة الاستعمارية

تختلف التفاصيل الجغرافية والثقافية، لكن النمط ثابت على نحو لافت. ففي كندا والولايات المتحدة وأستراليا وإسكندنافيا ونيوزيلندا — وفي أماكن أخرى كثيرة، من تايوان إلى سيبيريا إلى مرتفعات الأنديز — حدّدت الدول الاستعمارية وما بعد الاستعمارية لغات الشعوب الأصلية كعقبات أمام الاستيعاب واستهدفتها بالاستئصال. وكانت الأدوات متشابهة في كل مكان: انتزاع الأطفال من أسرهم، وحظر استخدام لغات الشعوب الأصلية، ومعاقبة المخالفات، ومكافأة تبني اللغة الاستعمارية.

لم يكن هذا هامشًا تاريخيًا. فقد أُغلقت آخر مدرسة داخلية في كندا عام 1996. وأُغلقت آخر مدرسة داخلية هندية في الولايات المتحدة في ستينيات القرن العشرين. وكثير ممن نجوا من تلك الأنظمة لا يزالون على قيد الحياة. والصدمة عابرة للأجيال. والضرر اللغوي مستمر: فاللغات التي فقدت جيلًا من المتحدثين في حقبة المدارس الداخلية تفقد الآن آخر كبارها الفصحاء.

من الإبادة الثقافية إلى "ندرة البيانات"

هذا التاريخ وثيق الصلة مباشرة بالمشكلة التقنية للترجمة الآلية. فعندما يصف علماء الحاسوب لغة بأنها "منخفضة الموارد"، فإنهم يعنون عادة: نصوص رقمية قليلة، ومتون متوازية قليلة، وقواميس قليلة، ومجموعات بيانات موسومة قليلة. والصياغة محايدة، كما لو كانت ندرة البيانات فعلًا من أفعال الطبيعة، كصحراء قليلة المطر.

لكنها ليست كذلك. فـ"ندرة البيانات" في لغات الشعوب الأصلية هي النتيجة اللاحقة لسياسات القمع اللغوي. فاللغات التي حُظرت في المدارس أنتجت نصوصًا مكتوبة أقل. واللغات التي عوقب متحدثوها على التحدث بها طوّرت استخدامات مؤسسية أقل. واللغات التي فقدت جيلًا من الانتقال أنتجت عددًا أقل من المتحدثين ثنائيي اللغة القادرين على إنشاء متون متوازية.

والمسار من الإبادة الثقافية إلى ندرة البيانات مباشر:

القمع ← أطفال يُعاقَبون على التحدث باللغة
انقطاع الانتقال ← أطفال أقل يتعلمون اللغة
تقلص قاعدة المتحدثين ← بالغون أقل يستخدمونها في الحياة اليومية
تراجع الاستخدام المؤسسي ← وثائق مكتوبة أقل، ونصوص رقمية أقل
ندرة البيانات ← نماذج تعلّم الآلة لا تجد ما تتدرب عليه
غياب دعم الترجمة الآلية ← اللغة غير مرئية للتكنولوجيا
تسارع الانحدار ← التكنولوجيا تعزز التهميش الذي بدأته السياسة

يعني هذا المسار أن أي مشروع تكنولوجي يعمل مع لغات الشعوب الأصلية يرث سياقًا سياسيًا وأخلاقيًا سواء اعترف بذلك أم لا. فنظام ترجمة آلية يتعامل مع بيانات لغة Cree كمادة خام تبتلعها النماذج إنما يواصل، وإن دون قصد، الدينامية الاستخراجية التي بدأت مع المدارس الداخلية. لقد جُعلت البيانات نادرة بالعنف. والمتحدثون الذين أنشأوا ما يوجد من بيانات فعلوا ذلك رغم احتمالات هائلة ضدهم. وأي نظام يستخدم تلك البيانات دون سيطرة فعلية للمجتمع إنما يفاقم الضرر الأصلي.

تواطؤ العلوم والأيديولوجيا الغربية

من الضروري الاعتراف بأن العلم والتكنولوجيا لم يكونا متفرجين أبرياء على المشروع الاستعماري؛ بل كانا مشاركَين فاعلَين. فأيديولوجيا "التنوير" التي سعت إلى تصنيف العالم وتكميمه وتوحيده القياسي كثيرًا ما تعاملت مع الشعوب الأصلية ولغاتها كمجرد موضوعات للبحث أو غرائب لـ"أنثروبولوجيا الإنقاذ". وقد حبست هذه الممارسة الاستخراجية المعرفة في الجامعات الغربية بينما لم تفعل شيئًا يُذكر لوقف الآلة السياسية التي كانت تدمر تلك المجتمعات.

ويقف هذا المشروع على النقيض التام من منهجيات مثل دراسة Tuskegee للزُّهري أو الأنثروبولوجيا اللغوية الاستخراجية، التي تتعامل مع السود والسكان الأصليين والملونين (BIPOC) كموضوعات تجارب أو مزوّدين سلبيين بالبيانات الخام. لسنا هنا لإجراء التجارب على الشعوب الأصلية، أو استخراج معارفها، أو فرض أيديولوجيا غربية أحادية الثقافة عليها. هدفنا هو تيسير طرق المعرفة الخاصة بها ومعايير القيمة الخاصة بها. نحن نوفر البنية التحتية؛ ومجتمعات اللغة تبني مجموعات الاختبار، وتحدّد المقاييس، وتحافظ على الالتزام. ومن دون التزامها، لا يعمل أي من هذا.

لماذا يشكّل هذا التاريخ تصميمنا

لهذا السبب فإن نموذج الحوكمة في champollion ليس ميزة — بل هو الأساس. فكل قرار تصميمي رئيسي في المشروع هو استجابة مباشرة للتاريخ الموصوف أعلاه. والهدف هو سيادة البيانات: دعم المجتمعات في الحفاظ على لغاتها الحية وإحيائها وحوكمتها بشروطها الخاصة كليًا.

لماذا بيانات الاختبار مشفّرة ومحفوظة لدى صناديق ائتمان مجتمعية. لأن البيانات اللغوية للشعوب الأصلية استُخرجت ونُشرت واستُغلت دون موافقة لأكثر من قرن. فاللسانيات التبشيرية، مثل جهود معهد Summer Institute of Linguistics (SIL)، احتكرت تاريخيًا المتون المتوازية للشعوب الأصلية ضمن إطار استخراجي استيعابي. وعلاوة على ذلك، وعلى خلاف كثير من مشاريع معالجة اللغات الطبيعية الحديثة التي تعتمد اعتمادًا كبيرًا على الأناجيل المترجمة كمتنها المتوازي الأساسي للغات منخفضة الموارد، فإننا صراحةً لا نستخدم الأناجيل المترجمة كمتون. ومجموعة الاختبار المشفّرة، التي لا تحتفظ بمفاتيحها سوى منظمة الحوكمة المجتمعية، آلية تقنية تجعل تكرار الأنماط الاستخراجية مستحيلًا معماريًا.

لماذا نستخدم التنفيذ المعزول بدلًا من مجموعات الاختبار المفتوحة. لأنه ما إن تُنشر البيانات اللغوية علنًا حتى يفقد المجتمع السيطرة عليها نهائيًا. فالمعايير التقليدية لتعلّم الآلة تنشر مجموعات اختبارها — يمكن لأي شخص تنزيلها أو التدرب عليها أو استخدامها لأي غرض. ويمثل كشط بيانات الذكاء الاصطناعي الحديث هذا شكلًا جديدًا من "استعمار البيانات" و"التطويق الرقمي". وبالنسبة لمجتمعات كادت لغاتها تُستأصل بالقوة، فإن فقدان السيطرة على مواردها اللغوية المتبقية ليس إزعاجًا بسيطًا. إنه استمرار مباشر لنزع الملكية الإقليمي التاريخي. ويضمن التنفيذ المعزول ألا تغادر بيانات المجتمع بنيته التحتية أبدًا.

لماذا تنتقل ملكية الطريقة إلى المجتمع. لأن تاريخ "مساعدة" مجتمعات الشعوب الأصلية هو، في أغلبه الساحق، تاريخ غرباء يبنون أشياء عن الشعوب الأصلية لا من أجلها أو معها. تُنشر الأوراق الأكاديمية، وتُحصَّل المنح، وتتقدم المسارات المهنية — ويُترك المجتمع بلا شيء. وتضمن آلية نقل الملكية أنه عندما يبني مهندس تعلّم آلة طريقة ترجمة عاملة للغة Plains Cree، فإن مجتمع Plains Cree يمتلك تلك الطريقة. يحتفظ المهندس بالفضل والإسناد. ويحتفظ المجتمع بالأصل.

لماذا يرسل نموذج الإيرادات 90% إلى المجتمع. لأن إحياء اللغات مكلف، والمجتمعات التي تقوم بأصعب العمل — كبار السن الذين يعلّمون، والآباء الذين يرسلون أطفالهم إلى مدارس الانغماس اللغوي، والناشطون الذين يديرون أعشاش اللغة — تعاني نقصًا مزمنًا في التمويل. وعلاوة على ذلك، فإن بنية الذكاء الاصطناعي ذاتها التي نستخدمها (مثل مراكز البيانات، وتعدين المعادن، واستهلاك المياه) تفرض كلفة مادية غير متناسبة على أراضي الشعوب الأصلية عالميًا. فإذا ولّدت واجهة برمجة تطبيقات ترجمة للغة Cree إيرادات، فينبغي أن يموّل 90% من تلك الإيرادات برامج لغة Cree. ينبغي أن تكون التكنولوجيا أداة تخدم المجتمعات، لا آلية تستخرج القيمة منها.

لماذا نقول "متّجه نحو OCAP®‏" (OCAP®-forward) لا "متوافق مع OCAP®‏". طُوّرت مبادئ OCAP® (الملكية Ownership، والتحكم Control، والوصول Access، والحيازة Possession) من قبل First Nations Information Governance Centre خصيصًا لسياقات First Nations. وتعالج أطر أخرى لحوكمة بيانات الشعوب الأصلية — CARE (المنفعة الجماعية، وسلطة التحكم، والمسؤولية، والأخلاقيات)، وTe Mana Raraunga (سيادة بيانات Māori)، ومبادئ FAIR — هموماً مشابهة من مواقع ثقافية وقانونية مختلفة. ونحن لا ندّعي تنفيذ OCAP® بالكامل؛ فذلك التقرير يعود لمجتمعات First Nations. نقول إن تصميمنا متجه نحو OCAP®: فهو مبني بحيث تستطيع المجتمعات ممارسة الملكية والتحكم والوصول والحيازة على بياناتها والتكنولوجيات المشتقة منها. فالمعمارية تمكّن السيادة. أما تحقيقها فأمر تقرره المجتمعات.

لماذا تقيس المنصة الطرق معياريًا، لا النماذج. لأن مجتمعات لغات الشعوب الأصلية ينبغي ألا تكون رهينة لنموذج أي شركة بعينها. والمعمارية المفتوحة لـ"الطريقة" تعني أن الحل لا يجب حتى أن يكون نموذجًا لغويًا كبيرًا باهظ الكلفة وكثيف الموارد المادية. بل يمكن أن يكون نظامًا قائمًا على القواعد عالي الكفاءة يستضيفه المجتمع ويعمل على عتاد حوسبة تقليدي. فإذا كانت أفضل طريقة ترجمة لـ Cree تستخدم Gemini من Google اليوم، فينبغي أن يستطيع المجتمع التحول إلى بديل مفتوح المصدر أو حتمي غدًا دون إعادة بناء كل شيء. ويضمن القياس المعياري على مستوى الطريقة أن يكون أصل المجتمع وصفة، لا تبعية.

لماذا يجب على المجتمع بناء هذه البنية التحتية الآن. إن مفارقة الاستفادة من الذكاء الاصطناعي مع نقد استخراجه المادي تُحَل بواقع استراتيجي قاسٍ: إذا لم يحل المجتمع هذه المشكلة بشروطه السيادية الخاصة، فستُ"حَل" حتمًا على يد شركات التكنولوجيا الكبرى (Google وMeta وOpenAI) بشروط استخراجية. وحتى لو بنت شركة عملاقة في نهاية المطاف نموذج ترجمة للغة أصلية معينة، فإن المجتمع يحتاج إلى بنية قياس معياري معزولة ومستقلة خاصة به للتحقق متى وما إذا كان النجاح قد تحقق فعلًا وفق معايير المجتمع — ولضمان أن يحصد المجتمع قيمة ذلك النجاح.

هذه ليست سياسة مُلصَقة بالتكنولوجيا. إنها تكنولوجيا صمّمها أناس يفهمون التاريخ.

VI. اللحظة الراهنة: 6,800 لغة متروكة خلف الركب

حجم المشكلة

من بين نحو 7,000 لغة حية يُتحدث بها على الأرض اليوم، أقل من 200 لغة تحظى بأي دعم للترجمة الآلية على الإطلاق. أما اللغات المتبقية التي تتجاوز 6,800 فهي غير مرئية للتكنولوجيا — لا لأنها أقل استحقاقًا، بل لأن المقاربات الإحصائية والعصبية المهيمنة على الترجمة الآلية الحديثة شرهة للبيانات بطبيعتها. فهي تتطلب ملايين الجمل المتوازية للتعلم منها. وبالنسبة لمعظم لغات العالم، هذه الجمل غير موجودة.

واللغات الأشد تأثرًا هي بالذات الأكثر تعرضًا للخطر: لغات الشعوب الأصلية، ولغات الأقليات، والتقاليد الشفهية ذات السجلات المكتوبة المحدودة. وهي لغات غالبًا ما يكون متحدثوها مسنّين، ومجتمعاتها صغيرة، وقوتها السياسية ضئيلة. إنها اللغات الأشد حاجة إلى الدعم التكنولوجي للحفظ والإحياء — وهي اللغات التي تكون التكنولوجيا الحالية أقل فائدة لها.

تحدي اللغات المتعددة التركيب

لا تقتصر المشكلة على ندرة البيانات. فكثير من أكثر لغات العالم تعرضًا للخطر لغات متعددة التركيب — تمتلك أنظمة صرفية فائقة التعقيد تكسر جذريًا افتراضات معالجة اللغات الطبيعية القياسية.

لننظر إلى Plains Cree (nêhiyawêwin)، وهي لغة Algonquian تُتحدث عبر براري كندا. يستطيع فعل واحد في Cree أن يشفّر معلومات توزعها الإنجليزية على جملة كاملة: الفاعل، والمفعول، والزمن، والجهة، والدلالة البيّنية، والصيغة، وفئات نحوية أخرى متنوعة، كلها مضغوطة في كلمة واحدة عبر نظام من السوابق واللواحق والتعديلات الداخلية.

يخلق هذا عدة مشكلات للمقاربات القياسية في الترجمة الآلية:

فشل التقطيع إلى وحدات (tokenization). تحطّم مقطّعات الوحدات الفرعية مثل BPE (Byte Pair Encoding)، المصممة للغات تحليلية مثل الإنجليزية، الكلمات المتعددة التركيب إلى شظايا بلا معنى. فتُدمَّر البنية الصرفية قبل أن يراها النموذج أصلًا. وBPE ليس محايدًا؛ فهو يمثل إبستمولوجيا تجريبية سطحية بحتة تتصادم جوهريًا مع الهرميات الصرفية العميقة القائمة على القواعد المتأصلة في اللغات المتعددة التركيب. إنه انحياز معماري يفكك الصرف البنيوي تفكيكًا فعّالًا.
الانفجار التوافقي. قد تمتلك لغة متعددة التركيب ملايين الصيغ الممكنة لجذر فعلي واحد. ولا يمكن لأي متن تدريبي، مهما كَبُر، أن يحوي أكثر من جزء ضئيل منها. وليس لدى النماذج العصبية أي وسيلة للتعميم على الصيغ غير المرئية.
الهلوسة. كثيرًا ما تولّد النماذج اللغوية الكبيرة، عند مطالبتها بالترجمة إلى لغات متعددة التركيب، صيغًا غير صحيحة صرفيًا — كلمات لا يمكن لأي متحدث أصلي أن ينطقها أبدًا. فقد تعلّم النموذج أنماطًا إحصائية من بيانات محدودة، لكنه لا يفهم القواعد الصرفية للغة.

محوّلات الحالات المنتهية: الجسر

غير أن هناك تكنولوجيا تتعامل فعلًا مع التعقيد الصرفي جيدًا: محوّل الحالات المنتهية (Finite State Transducer أو FST). والـ FST جهاز حاسوبي صوري يخطّط بين سلسلة إدخال وسلسلة إخراج عبر سلسلة من انتقالات الحالات. وفي التحليل الصرفي، يستطيع FST تخطيط صيغة الكلمة السطحية إلى بنيتها الصرفية الكامنة (والعكس)، متعاملًا مع التعقيد التوافقي الكامل لصرف اللغة.

محوّلات FST هي السليل المباشر لقواعد إعادة الكتابة عند Pāṇini. وهي قواعد النوع 3 (المنتظمة) عند Chomsky في صورة حاسوبية. إنها التجسيد الحي للصلة بين اللسانيات الصورية والحوسبة.

وبمزاوجة محوّلات FST مع النماذج اللغوية الكبيرة، ينفّذ champollion توليفة فلسفية حاسمة: فهو يوفّق بين التقليد البنيوي العقلاني (القواعد) والنموذج الإحصائي التجريبي (الاحتمال) لمواجهة الانحيازات الأغلبية الشرهة للبيانات في الذكاء الاصطناعي الحديث.

وبالنسبة للغات المتعددة التركيب، تستطيع محوّلات FST تقديم ما لا تستطيعه النماذج العصبية: التحقق الحتمي. فإذا أُعطيت صيغة كلمة، يستطيع FST أن يقول بصورة قاطعة ما إذا كانت صيغة صحيحة في اللغة — لا احتماليًا، ولا "تبدو صحيحة"، بل نعم أو لا. وهذه هي الإجابة على السؤال الجوهري الذي يطارد الترجمة الآلية العصبية للغات منخفضة الموارد: كيف تتحقق من أن كلمة مولَّدة حقيقية دون إنسان في الحلقة؟

الإجابة التقنية هي: تستخدم القواعد الصورية. تستخدم الأدوات ذاتها التي اخترعها Pāṇini قبل خمسة وعشرين قرنًا، مرمَّزة في الصياغة الحاسوبية التي جعلها Turing وChomsky دقيقة.

غير أنه يجب علينا الاعتراف بأن هذه القدرة الحتمية تحمل مخاطرها الخاصة. ففرض تحقق بـ"نعم" أو "لا" على لغة شفهية سيّالة يخاطر بفرض أيديولوجيا اللغة المعيارية الصارمة. فحين يملي FST ما هو "صحيح"، يمكنه دون قصد أن يستعيد المعيارية الاستعمارية ذاتها التي صُمم لتجنبها — بتسطيح التنوع اللهجي، ومعاقبة التناوب اللغوي، وفرض قواعد موحَّدة أحادية على مجتمع متنوع. ولأن محوّلات FST تمثل مقياسًا واحدًا فقط من مقاييس الصحة الصورية، يجب تلطيف تجريبيتها الصارمة. ولهذا بالضبط يجب أن يمسك المجتمع بالقلم. فالمجتمع هو من يضع المعيار، ويبني القواعد، ويحدد ما تقبله الآلة كصحيح، مهندسًا محوّلات FST تفسح مجالًا للسيولة الشفهية واللهجات الإقليمية. فالقواعد الصورية ليست حقيقة كونية يسلّمها علماء الحاسوب من فوق؛ بل هي بنية تحتية يشغّلها المتحدثون أنفسهم.

champollion: حيث تتقاطع الخيوط

هنا يدخل مشروع champollion القصة. فهو يقع عند نقطة التقاطع التامة لكل الخيوط التي تتبعناها:

من Pāṇini: مبدأ أن اللغة قابلة للوصف بقواعد صورية توليدية.
من Schleicher وSapir: فهم أن لغات العالم متنوعة ومنظَّمة وغالبًا مهددة بالانقراض.
من المدارس الداخلية وعواقبها: فهم أن "ندرة البيانات" ليست حقيقة تقنية محايدة بل نتيجة قمع لغوي متعمد — وأن أي تكنولوجيا تمس هذه اللغات يجب أن تُبنى على السيادة من الأساس.
من Chomsky: الهرمية الصورية للقواعد التي تصل اللسانيات بالحوسبة.
من Shannon: الإطار الرياضي لفهم الاتصال والضوضاء والإشارة.
من Turing وvon Neumann: الآلات الكونية القادرة على تنفيذ أي دالة قابلة للحوسبة.
من Weaver ونماذج IBM: الرؤية القائلة بإمكان معالجة الترجمة كمسألة إحصائية.
من ثورة Transformer: النماذج العصبية القوية القادرة على الترجمة — لكن فقط عندما تمتلك بيانات كافية.
من تقليد FST: الأدوات الصورية القادرة على التعامل مع التعقيد الصرفي حيث تفشل النماذج العصبية.
من OCAP® وCARE وTe Mana Raraunga: أطر الحوكمة التي تضمن أن تخدم التكنولوجيا المجتمعات بدلًا من الاستخراج منها.

champollion منصة مصممة لتوجيه الطاقة التنافسية لمجتمع تعلّم الآلة نحو اللغات التي تخلّى عنها السوق. فهي توفر بنية قياس معياري يمكن لأي شخص فيها تقديم طريقة ترجمة — عصبية، أو قائمة على القواعد، أو هجينة، أو مبتكرة — وتقييمها وفق معايير صارمة. والأهم أنها تستخدم التحقق القائم على FST لضمان الصحة الصرفية للصيغ المولَّدة، وتعتمد على تحقق المتحدثين الأصليين كحقيقة مرجعية نهائية.

تجسّد المنصة عدة مبادئ يجعلها هذا التاريخ واضحة:

لا يكفي أي نهج بمفرده. فتاريخ الترجمة الآلية تاريخ تحولات نموذجية — من القواعد إلى الإحصاء إلى الشبكات العصبية. حلّ كل نموذج جديد مشكلات عجز عنها سابقه، لكن لكل منها أيضًا نقاطه العمياء. وبالنسبة للغات المتعددة التركيب منخفضة الموارد، الإجابة شبه مؤكدة أنها هجينة: طلاقة عصبية مقيَّدة بصحة صورية.

سيادة البيانات ليست اختيارية — إنها استجابة بنيوية لضرر تاريخي. كما يوثّق القسم V بالتفصيل، لم تصبح لغات الشعوب الأصلية "نادرة البيانات" مصادفة. بل جُعلت نادرة بسياسة متعمدة. والتصميم المتجه نحو OCAP® في المشروع — بضمان بقاء البيانات اللغوية تحت سيطرة مجتمعات الشعوب الأصلية، وحفظ مفاتيح فك التشفير لدى صناديق ائتمان مجتمعية، ونقل ملكية الخوارزميات إلى المتحدثين — ليس فكرة لاحقة. إنه استجابة مباشرة لقرون من الممارسة الاستخراجية، من توثيق الغرباء في حقبة المدارس الداخلية إلى كشط مجموعات البيانات اليوم. والمعمارية تجعل تكرار هذه الأنماط مستحيلًا تقنيًا.

اللعبة الطويلة هي الإحياء. الترجمة هي ميدان الإثبات، لكن الجائزة الحقيقية هي إحياء اللغة عبر التعليم. فالقواعد الصورية والنماذج الصرفية المبنية للترجمة الآلية هي بالضبط الأسس التقنية اللازمة لتعلم اللغات بمساعدة الآلة. فإذا استطعنا بناء FST يتحقق من صيغ الأفعال في Cree لنظام ترجمة، فبإمكاننا أيضًا استخدام ذلك الـ FST لمساعدة طالب على تعلم تصريف أفعال Cree.

لماذا هذه اللحظة

نعيش لحظة فريدة في تاريخ تكنولوجيا اللغة. فقد تلاقت عدة عوامل:

نضجت الأدوات مفتوحة المصدر. فأطقم أدوات FST (مثل HFST وFoma)، وأطر الترجمة الآلية العصبية (مثل OpenNMT وFairseq)، وبنية التقييم التحتية، يمكن الآن تجميعها بواسطة فريق صغير وبكلفة دنيا.
يتسارع التنظيم المجتمعي. فمجتمعات لغات الشعوب الأصلية تزداد تطورًا في استخدامها للتكنولوجيا وتأكيدها لسيادة البيانات. ومنظمات مثل مبادرة First Voices ومشروع Canadian Indigenous Languages Technology Project وجهود مجتمعية عديدة تبني البنية التحتية البشرية التي لا تستطيع التكنولوجيا وحدها توفيرها.
بلغت قدرات الذكاء الاصطناعي عتبة حاسمة. فالنماذج اللغوية الكبيرة، وإن لم تكن كافية وحدها للترجمة الآلية منخفضة الموارد، يمكن أن تعمل كمكونات قوية في أنظمة هجينة — تولّد ترجمات مرشحة يجري بعدها التحقق منها وتقييدها بطرائق صورية.
انهارت الكلفة. فما كان يتطلب مختبرًا حكوميًا عام 1954 أو شركة كبرى عام 2000 يمكن الآن إنجازه بأرصدة حوسبة سحابية وبرمجيات مفتوحة المصدر. لم يعد عنق الزجاجة التكنولوجيا أو المال. بل الإرادة.

السؤال ليس ما إذا كان بالإمكان بناء التكنولوجيا. فهذا ممكن. السؤال هو ما إذا كانت ستُبنى على النحو الصحيح — بالحوكمة الصحيحة، والحوافز الصحيحة، والاحترام الصحيح للمجتمعات التي يُفترض أن تخدمها.

ذلك هو السؤال الذي وُجد هذا المشروع للإجابة عنه.

المراجع

Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
Boole, G. (1854). An Investigation of the Laws of Thought. Walton and Maberly.
Bringing Them Home: Report of the National Inquiry into the Separation of Aboriginal and Torres Strait Islander Children from Their Families. (1997). Australian Human Rights Commission.
Brown, P., Della Pietra, S., Della Pietra, V., & Mercer, R. (1993). The Mathematics of Statistical Machine Translation. Computational Linguistics, 19(2).
Campbell, L. (1997). American Indian Languages: The Historical Linguistics of Native America. Oxford University Press.
Champollion, J.-F. (1822). Lettre à M. Dacier relative à l'alphabet des hiéroglyphes phonétiques.
Chomsky, N. (1957). Syntactic Structures. Mouton.
Chomsky, N. (1956). Three Models for the Description of Language. IRE Transactions on Information Theory, 2(3).
Huet, G. (2006). Lexicon-directed Segmentation and Tagging of Sanskrit. In Proceedings of the XIIth World Sanskrit Conference.
Jones, W. (1786). The Third Anniversary Discourse. Asiatick Researches, 1.
Kiparsky, P. (1993). Paninian Linguistics. In R. E. Asher (Ed.), The Encyclopedia of Language and Linguistics. Pergamon.
Kircher, A. (1663). Polygraphia Nova et Universalis.
Leibniz, G. W. (1703). Explication de l'Arithmétique Binaire. Mémoires de l'Académie Royale des Sciences.
Llull, R. (c. 1305). Ars Magna.
Lovelace, A. (1843). Notes by the Translator (Note G). In L. F. Menabrea, Sketch of the Analytical Engine Invented by Charles Babbage.
Marmion, D., Obata, K., & Troy, J. (2014). Community, Identity, Wellbeing: The Report of the Second National Indigenous Languages Survey. Australian Institute of Aboriginal and Torres Strait Islander Studies.
National Research Council. (1966). Language and Machines: Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences.
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. ACL.
Saussure, F. de. (1916). Cours de linguistique générale (C. Bally & A. Sechehaye, Eds.). Payot.
Schleicher, A. (1861). Compendium der vergleichenden Grammatik der indogermanischen Sprachen.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3).
Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1).
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. NeurIPS.
Truth and Reconciliation Commission of Canada. (2015). Honouring the Truth, Reconciling for the Future: Summary of the Final Report. Government of Canada.
Turing, A. M. (1936). On Computable Numbers, with an Application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 2(42).
Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236).
Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
von Neumann, J. (1945). First Draft of a Report on the EDVAC. University of Pennsylvania.
Weaver, W. (1949). Translation. Memorandum, Rockefeller Foundation.
Wilkins, J. (1668). An Essay towards a Real Character, and a Philosophical Language. Royal Society.
U.S. Department of the Interior. (2022). Federal Indian Boarding School Initiative Investigative Report. Bureau of Indian Affairs.

هذه الوثيقة جزء من توثيق مشروع champollion. وهي منشورة بموجب الرخصة نفسها المعتمدة للمشروع ذاته.

مقدمة​

I. قواعد كل شيء: من Pāṇini إلى Chomsky​

أول قواعد صورية (نحو القرن الرابع قبل الميلاد)​

حجر رشيد وميلاد اللسانيات المقارنة (1799)​

William Jones وفرضية اللغات الهندو-أوروبية (1786)​

أشجار اللغات عند August Schleicher (1861)​

Ferdinand de Saussure وبنية اللغة (1916)​

Sapir وBloomfield ودراسة لغات الشعوب الأصلية​

ثورة Chomsky (1957)​

II. حلم الترجمة الكونية​

آلة التفكير عند Ramon Llull‏ (1305)​

Athanasius Kircher وكتاب Polygraphia Nova‏ (1663)​

John Wilkins واللغة الفلسفية (1668)​

Leibniz واللغة الرمزية الكونية (Characteristica Universalis)​

مذكرة Warren Weaver‏ (1949)​

III. آلية الفكر: الحوسبة والمعلومات​

George Boole وجبر المنطق (1854)​

Charles Babbage وAda Lovelace‏ (1837–1843)​

Alan Turing والآلة الكونية (1936)​

Claude Shannon ونظرية المعلومات (1948)​

Von Neumann والحاسوب ذو البرنامج المخزَّن (1945)​

IV. الترجمة الآلية: أول مسألة في الذكاء الاصطناعي​

تجربة Georgetown-IBM والحرب الباردة (1954)​

تقرير ALPAC وأول شتاء للذكاء الاصطناعي (1966)​

الترجمة الآلية القائمة على القواعد والقائمة على النقل (السبعينيات–الثمانينيات)​

الثورة الإحصائية (التسعينيات)​

الثورة العصبية: Seq2Seq والانتباه وTransformers‏ (2014–2017)​

V. التاريخ الآخر: اللغة والسلطة والإبادة الثقافية​

قبل الاتصال: قارة من اللغات​

آليات موت اللغات​

كندا: نظام المدارس الداخلية (1831–1996)​

الولايات المتحدة: المدارس الداخلية الهندية (1860–1960)​

أستراليا: الأجيال المسروقة (1910–1970)​

إسكندنافيا: لغات Sámi​

Aotearoa نيوزيلندا: Te Reo Māori​

النمط: اللغة كهدف للسلطة الاستعمارية​

من الإبادة الثقافية إلى "ندرة البيانات"​

تواطؤ العلوم والأيديولوجيا الغربية​

لماذا يشكّل هذا التاريخ تصميمنا​

VI. اللحظة الراهنة: 6,800 لغة متروكة خلف الركب​

حجم المشكلة​

تحدي اللغات المتعددة التركيب​

محوّلات الحالات المنتهية: الجسر​

champollion: حيث تتقاطع الخيوط​

لماذا هذه اللحظة​

المراجع​