الـAI يفشل في "قراءة ما بين السطور" خلال محادثات البشر
رغم التقدم الكبير الذي حققته أنظمة الذكاء الاصطناعي في السنوات الأخيرة لدرجة أنها تفوقت على الإنسان في مجالات عديدة، إلا أنها لا تزال متأخرة عن البشر في فهم الإشارات الاجتماعية التي تعبر عن المغزى أو الدلالة الحقيقية للتفاعلات الانسانية، وبمعنى آخر، لا تستطيع هذه الأنظمة الذكية حتى الآن أن تفهم "ما بين السطور" عندما يتحدث البشر مع بعضهم البعض.
وبحسب دراسة أجراها فريق بحثي بجامعة جون هوبكنز الأميركية، طلب الباحثون من 3 مجموعات من المتطوعين مشاهدة مقاطع فيديو لا يزيد طول كل منها عن ثلاث ثواني، وتقييم التفاعلات الاجتماعية بين الأشخاص الذين يظهرون في هذه المقاطع.
وفي الوقت نفسه، تم تحليل نفس المقاطع بواسطة أكثر من 350 منظومة للذكاء الاصطناعي متخصصة في مجالات تحليل اللغة والفيديو والصور بغرض فهم مدلول الإشارات الاجتماعية التي يقوم بها البشر في تلك المقاطع.
وأثبتت التجربة أن المتطوعين أنجزوا المهمة المطلوبة بسهولة ويسر، في حين أن أنظمة الذكاء الاصطناعي لم تنجح في تفسير دلالات أو معاني محادثات البشر في مقاطع الفيديو.
ويرى الباحثون المشاركون في الدراسة أن أنظمة الذكاء الاصطناعي مازال أمامها شوط طويل قبل أن تصل إلى فهم الإشارات الاجتماعية للبشر في بيئات التفاعل الحقيقية، وهو ما ينطوي على تداعيات خطيرة بالنسبة لصناعات صاعدة مثل السيارات ذاتية القيادة أو الروبوتات، وغيرها من المجالات التي تتطلب تفاعلات مستمرة بين الإنسان ومنظومات الذكاء الاصطناعي.
فهم الإشارات الاجتماعية لتلافي خطر وقوع الحوادث
وتقول الباحثة ليلى إيزيك، استاذ مساعد العلوم المعرفية بجامعة جون هوبكنز ورئيس فريق الدراسة إنه "إذا كنت تريد أن يتفاعل نظام الذكاء الاصطناعي مع الإنسان، فلا بد أن يفهم ما الذي يقصده، وكيف تتفاعل مجموعة من البشر سويا".
وأضافت في تصريحات للموقع الإلكتروني "بوبيولار ساينس" المتخصص في الأبحاث العلمية: "هذه الدراسة في حقيقة الأمر تسلط الضوء على سبب إخفاق أنظمة الذكاء الاصطناعي في أداء هذه المهمة". ورغم أن دراسات سابقة أثبتت قدرة أنظمة الذكاء الاصطناعي على وصف مغزى الصور الثابتة بدرجة تكاد تتساوى مع الانسان، فإن الدراسة الجديدة كانت تهدف إلى قياس ما إذا كان نفس الوضع يسري بالنسبة للصور المتحركة أو مقاطع الفيديو.
وتوضح إيزيك أنها اختارت مع فريقها البحثي المئات من مقاطع الفيديو من قاعدة بيانات خاصة، ثم قامت بتقصيرها إلى مدة زمنية لا تزيد عن ثلاث ثواني، مع التركيز على المقاطع التي يظهر فيها شخصان يتفاعلان سويا.
وتأتي هذه النتائج في الوقت الذي تتسابق فيه شركات التكنولوجيا لدمج أنظمة الذكاء الاصطناعي داخل عدد متزايد من الأجسام الروبوتية، وهم مفهوم يطلق عليه اسم "الذكاء الاصطناعي المتجسد"، وقد تم اختبار هذا المفهوم في عدة مدن أميركية مثل لوس أنجلوس وفينيكس وأوستن من خلال سيارات ذاتية القيادة تسير في الطرق بجانب السيارات التي يقودها البشر مثل سيارات الأجرة التابعة لشركات مثل "وايمو روبو تاكسي".
وقد اثبتت التجارب أن أنظمة الذكاء الاصطناعي لهذه السيارات تعاني من قصور في فهم بعض مواقف القيادة المركبة مثل القيادة الدائرية أو منحنيات الرجوع للخلف. ورغم أن بعض الدراسات الحديثة أثبتت أن السيارات ذاتية القيادة قد تكون أقل عرضة للحوادث مقارنة بقائدي السيارات، لا تزال السلطات الرقابية المختصة تجري تحقيقات بشأن ما تردد عن مخالفة بعض هذه السيارات لقواعد السلامة.
وقطعت شركات تكنولوجية أخرى مثل بوسطن ديناميكس وفيجر إيه أي وتسلا خطوات أبعد نحو تطوير روبوتات على هيئة بشر تعمل بأنظمة الذكاء الاصطناعي في أماكن صناعية جنبا إلى جنب مع عمال على خطوط الانتاج.
ويرى الباحثون أن تمكين أنظمة الذكاء الاصطناعي من فهم الإشارات الاجتماعية بين البشر داخل البيئات الصناعية ينطوي على أهمية بالغة لتلافي خطر وقوع الحوادث الصناعية. وفي ذات السياق، تقول الباحثة إيزيك إن "هذه الدراسة تسلط الضوء على أهمية دمج علوم الذكاء الاصطناعي وعلم الاعصاب والعلوم المعرفية بشكل أكبر مع عناصر العالم الحقيقي".