أكبر أربع مشاكل مفتوحة في معالجة اللغات الطبيعية

قبل أن نتحدث عن مشاكل معالجة اللغات الطبيعية دعونا نبدأ بمثال معروف للجميع.

متى كانت آخر مرة طلبت فيها من سيري أو أليكسا أن تفعل شيئًا ولم تفهما ما تقوله؟ أو أجابتا بشيء لا علاقة له على الإطلاق بسؤالك؟

سيري وأليكسا هي روبوتات الكلام التي تعتمد بشكل أساسي على تقنية الذكاء الاصطناعي تسمى NLP. إذا كنت ترغب في معرفة المزيد حول معالجة اللغات الطبيعية (NLP) وما الذي يمكن أو لا يمكن تحقيقه بها واصل قراءة هذا المقال.

(Natural language processing) NLP تعني معالجة اللغات الطبيعية والتي تُعرف بأنها فرع من فروع علوم الكمبيوتر والذكاء الصنعي التي تهتم بمجال فهم أجهزة الكمبيوتر للغات الطبيعية البشرية وذلك من خلال تحليل كميات هائلة من البيانات المستخرجة من اللغة الطبيعية البشرية.

تتراوح مشاكل معالجة اللغات الطبيعية من مشاكل بسيطة مثل الإجابة على استفسار على شبكة الإنترنت إلى مشاكل معقدة للغاية تتطلب عدة تيرابايت من البيانات للتدريب، ولكن إلى أي مدى يمكن أن باستخدام معالجة اللغات الطبيعية فهم ما يقوله البشر؟ وما المدة التي سنستغرقها بالبحث والتدريب حتى نجري محادثة طبيعية مع جهاز كمبيوتر؟

سنناقش في هذه المقالة أربعة من أكثر مشكلات معالجة اللغات الطبيعية صعوبة.

1. الغموض في اللغات الطبيعية

في اللغة الطبيعية ، يمكن أن يكون للكلمة معاني مختلفة ويمكن استخلاص معنى الكلمة من سياق الجملة. على سبيل المثال، قد تعني الجملة “أَحْسِنْ إلى الناس تستعبد قلوبهم” أننا نتحدث عن الاستعباد المأخوذ من العبودية للانسان وهي تعطي معنى سيئ للجملة، ومن ناحية أخرى، قد تأخذ معنى ايجابي وهو أنك اذا عاملت الناس بشكل حسن أحبوك.

لا يستخدم البشر معرفتهم باللغة فقط لتحديد معنى النص، لكنهم يفكرون أيضًا في عدة عوامل أخرى تساعدهم مثل الرغبات والأهداف والمعتقدات لفهم النص الذي يقرؤونه أو الكلام يستمعون إليه. على سبيل المثال، قد تعني الجملة “لقد كان شعوراً لم يسبق لي أن شعرت به من قبل” أن الشخص قد عانى من شعور جيد للغاية أو سيء جدًا، معنى هذه الجملة يعتمد على عواطف الشخص في تلك اللحظة.

2. عدم وجود بيانات للتدريب

أحد أكبر التحديات في معالجة اللغات الطبيعية NLP هو نقص بيانات التدريب حيث يجب تدريب كل نموذج من نماذج ال NLP على تيرابايت من البيانات حتى يتمكن النموذج من فهم لغة معينة، التدريب النموذج موضوع معقد سيتم تغطيته في مقال منفصل آخر .

إن نقص البيانات التدريبية له عدة أسباب: السبب الأول هو أن اللغة هي من لغات الأقليات العرقية مما يعني أن عدداً قليلاً من سكان الأرض يتحدث بها مثل الكردية والأفريكانية. السبب الثاني هو قلة الموارد والنصوص المتوفرة على الويب، على سبيل المثال، لغة الزولو.

سبب آخر لعدم وجود بيانات التدريب هو أن الحافز للعمل على اللغة إما بسبب عدم توفر المهارات المناسبة أو صعوبة اللغة كما هو الحال في اللغة العربية.

3. الأخطاء الإملائية واستخراج الاسم

يعد تصحيح الكلمات التي بها أخطاء إملائية عملية أساسية في معالجة اللغات الطبيعية NLP ، حيث أن الأخطاء الإملائية شائعة جدًا عند استخدام الإنسان للحاسوب وسيكون من الصعب جدًا تحديد الاسم في الجملة من نص معين. على سبيل المثال: إذا كتب أحد المستخدمين على روبوت الدردشة (chatbot) “هل ستمطر اليوم في أميستدام؟” ، فسيكون من الصعب تحديد أمستردام كموقع.

4. استخراج المعاني الدلالية (يمكن أن يعتبرهذا جزءًا من غموض اللغات الطبيعية)

يجب أن لا يفهم الكمبيوتر مفردات النص فحسب، بل يجب أن يفهم أيضًا دلالات النص. على سبيل المثال: في الجملة “اتصل جون بزوجته ، وكذلك فعل سام” ، لا نعرف ما إذا كان سام قد اتصل بزوجته جون أم اتصل بزوجته.

هل تعلم أننا نستخدم كل هذا وتقنيات الذكاء الاصطناعي الأخرى في تطبيقنا؟ انظر إلى ما تقرأه الآن قيد التنفيذ. جرب تطبيق الميتا للأخبار. يمكنك تنزيله من متجر Google Play أو متجر تطبيقات Apple.

المراجع:

1- What are some of the challenges we face in NLP today?

2- The 4 Biggest Open Problems in NLP

3- Six challenges in NLP and NLU – and how boost.ai solves them

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *