بقلم: 

نجلاء السبتي

LinkedIn: Najla AlSabti

معالجة اللغات الطبيعة

لطالما كانت محاكاة الأجهزة لقدرة العقل البشري في فهم اللغة مشكلة تاريخية تمتد الى بداية عصر الذكاء الاصطناعي. يهتم مجال معالجة اللغات الطبيعية بمعالجة هذه المشكلة و ايجاد طرق مختلفة تساعد الاجهزة في فهم اللغة البشرية.

ماهي معالجة اللغات الطبيعية ؟

هي فرع من فروع مجال الذكاء الاصطناعي الذي يركز على تمكين الحاسوب من فهم اللغة البشرية و تحليلها بنفس الطريقة التي يقوم بها البشر، مما يمكنه من اداء مهمات عدة منها ترجمة النص من لغة الى أخرى ترجمة صحيحة غير حرفية و الإجابة على أوامر صوتية و تلخيص البيانات واستخلاص المعنى الأساسي من النصوص المختلفة.  

لماذا تعتبر معالجة اللغات الطبيعية مهمة صعبة؟ 

الذي يجعل معالجة اللغات الطبيعية مهمة صعبة هو طبيعة اللغات البشرية التي لا تعتمد على قواعد واضحة و ثابتة فهي معقدة و غامضة و غير منظمة، فاللغات تتميز بأن لها عوامل أخرى غير الكلمات تلعب دورا أساسيا في فهمنا لها و بعض هذه القواعد لا يمكن صياغتها في قاعدة محددة حتى يتمكن الحاسب من فهمها، من أهم العوامل التي تصعب المهمة على الحاسب:


  • السياق، فهو يغير معنى الكلمة فقد يتم استعمال نفس الكلمة في سياقين مختلفين مما يؤدي إلى تباين كبير في معناهما الكلي فمثلا عند استخدام ترجمة قوقل قد تظهر في بعض الأحيان نتائج غريبة و أخطاء شائعة, أحد هذه الأخطاء الشائعة هي محاولة بعض البائعين ترجمة كلمة “تنزيلات” و التي بدورها تعني “sales” باللغة الانجليزية، لكن عند ترجمتها ستظهر كلمة “downloads” و هذه تدل على معنى مختلف تماما. أيضا عند محاولة تهنئة أحدهم باللغة الإنجليزية بمناسبة عيد الفطر فعند ترجمة عيد الفطر ستظهر النتيجة ”mushroom day” و هي ترجمة خاطئة تماما.

  • الأسلوب، وهو بدوره يلعب دورا كبيرا في تحديد معنى النص فقد نلقي تعليقا ساخرا او غاضبا و يتضح معناه من اسلوبنا و ليس بالمعنى الحرفي للكلمات التي استعملناها.

  • فهم خصائص الأشياء أيضا يلعب دورا أساسيا في استخلاص المعنى من النصوص فمثلا هاتين الجملتين "هي تتحدث باللغة العربية لأنها سهلة" و "هي تتحدث باللغة العربية لأنها فصيحة" هاتين الجملتين لهما نفس التكوين القواعدي و لكن الضمير "ها" في كل من الجملتين يعود على اسمين مختلفين، ففي الجملة الأولى كان الضمير يعود على اللغة و لكن في الجملة الثانية عاد الضمير على الفتاة، فإستخلاص المعنى الصحيح في هذه الحالة غير ممكن من دون معرفة خصائص كل من الاسمين “اللغة” و “الفتاة” و ما يصح في نوعهما.

  • تطور اللغة، و هو احد اكبر المشاكل التي تواجه تحليل اللغات الطبيعية فمعروف ان اللغات تتغير مع الزمن فمثلا بالنظر الى لغتنا العربية تستطيع ملاحظة الفرق بين لغتنا العامية واللغة الفصحى مع أن جميعهم يندرجان تحت مسمى اللغة العربية.

  • تعدد اللغات أيضا يشكل مشكلة أخرى فهناك أكثر من ٦٥٠٠ حول العالم و كل لغة لها قواعد خاصة تختلف كليا عن اللغات الأخرى مما يزيد المشكلة تعقيدا.


فبينما التعامل مع هذه العوامل المختلفة لا يشكل أي مشكلة بالنسبة للإنسان لكن يجد الحاسوب صعوبة كبيرة في التعامل معها و استخلاص المعاني خلف اللغة الطبيعية .

كيف تعمل معالجة اللغات الطبيعية؟

تمر معالجة اللغة بمرحلتين أساسيتين هما المعالجة المسبقة للبيانات و اختيار الخوارزمية و تدريبها. دعونا نأخذ هذا النص و نقوم بمعالجته معا خطوة بخطوة: " اللغة العربية هي أكثر اللغات السامية تحدثاً، وهي إحدى أكثر اللغات انتشاراً في العالم، يتحدثها أكثر من 467 مليون نسمة، ويتوزع متحدثيها في الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة" :

١- المعالجة المسبقة للبيانات Data Pre-Processing

تعد هذه المرحلة الأولى في معالجة النص ومن خلالها يتم تنظيف البيانات و اعادة صياغة اللغة الى صيغة يمكن للحاسب فهمها و تفسيرها. يتم استعمال تقنيات عدة في هذه المرحلة و تختلف التقنيات باختلاف اللغة المستعملة، بعض من هذه التقنيات :

  • تجزئة الجمل Sentence Segmentation:

    هذه التقنية تهتم بتجزئة النص إلى جمل. بالرجوع إلى النص السابق يتم تجزئة النص كالتالي:

    -"اللغة العربية هي أكثر اللغات السامية تحدثاً"

    -"وهي إحدى أكثر اللغات انتشاراً في العالم "
    -" يتحدثها أكثر من 467 مليون نسمة"

    -" ويتوزع متحدثيها في الوطن العربي"

    -" بالإضافة إلى العديد من المناطق الأخرى المجاورة"

  • الحصول على الوحدات اللغوية Tokenization:

    هذه التقنية تهتم بتجزئة الجمل الى وحدات لغوية منفصلة Token وكل وحدة لغوية تمثل كلمة. لنأخذ الجملة الأولى و نطبق عليها، سنحصل على الكلمات التالية :

    "اللغة"، "العربية"،"هي"،"أكثر"،"اللغات"،"السامية"،"تحدثا".

  • تصنيف أقسام الكلام Part of speech tagging:

    هذه التقنية تهتم بإسناد كل وحدة لغوية الى قسم الكلام المناسب لها سواء كان فعلا او اسما او حرفا، و بعد معالجة الجملة السابقة سنحصل على النتيجة التالية:


    اللغة     العربية      هي       أكثر       اللغات     السامية      تحدثا       


  “اسم”     “اسم”     “اسم”     “اسم”     “اسم”      “اسم”      “اسم”


  • الرجوع إلى أصل الكلمات Lemmatization :

    هذه التقنية تهتم بارجاع الكلمة الى اصلها، مثلا كلمة "قال" اذا ردت الى اصلها تكون "قول"، و عند تطبيقها على الجملة السابقة نحصل على التالي:


    اللغة     العربية      هي       أكثر       اللغات     السامية      تحدثا

Join