
وکاله آریا للأنباء - الدراسه شملت أشهر النماذج اللغویه للذکاء الاصطناعی فی العالم (شترستوک)
وجدت " غوغل " أن دقه روبوتات الدردشه المعتمده على النماذج اللغویه للذکاء الاصطناعی لا تصل إلى 70% فی الکثیر من الحالات، وذلک عقب دراسه مکثفه أجرتها حول دقه هذه النماذج وفق تقریر لموقع "دیجیتال تریندز".
ونشرت "غوغل" نتائج هذه الدراسه فی تقریر من 18 صفحه، وتطرقت إلى آلیه اختبار النماذج وأسباب حصولها على التقییمات المنخفضه.
ویشیر التقریر إلى أن النماذج اللغویه للذکاء الاصطناعی تخطئ فی واحد من کل ثلاثه أسئله موجهه إلیها حتى وإن کانت الإجابات تبدو منطقیه.
وحاز نموذج "جیمینای 3 برو"، الذی طرحته "غوغل" مؤخرا على أعلى درجه فی هذا الاختبار، إذ حقق نسبه جاوزت 69% یلیه "جیمینای 2.5 برو" بنسبه 62% ثم " جی بی تی 5″ بنسبه 61.8%، وأما "کلود أوبس 4.5″ فقد حقق نسبه 51% و" غروک " 53%.
آلیه اختبار مکثفه
اعتمدت مختبرات "دیب مایند" التابعه للشرکه والمسؤوله عن هذه الدراسه على 4 معاییر مختلفه للتقییم وهی:
معیار بارامیتری: ویقیس قدره نموذج الذکاء الاصطناعی على الوصول إلى بنک المعرفه الداخلی الموجود به بدقه فی حاله استخدام الأسئله الواقعیه. معیار بحثی: ویختبر هذا المعیار قدره النموذج على البحث فی الإنترنت واستخدام أدوات البحث بشکل عام لاسترجاع المعلومات وتجمیعها بشکل صحیح. معیار متعدد الوسائط: ویعتمد هذا الاختبار على قیاس قدره النموذج فی الإجابه على المطالبات المتعلقه بالصور المدخله بطریقه صحیحه وبشکل صحیح. معیار الأساس 2: وهو معیار موسع لاختبار قدره النموذج على تقدیم إجابات تستند إلى سیاق ذی توجه معین والتماشی مع هذا السیاق. وتأتی هذه الدراسه مع مجتمع "کاغل" (Kaggle) العلمی، الذی یعد أحد أکبر المجتمعات العلمیه المهتمه بعلوم البیانات، والتی توفر مصادر وأدوات رائده لدراسه البیانات وتحلیلها بشکل مناسب.

النسخه الأحدث من "جیمینای" کانت صاحبه النتیجه الأکبر فی الاختبار (موقع غوغل) ویولد کل معیار أکثر من 3500 نتیجه تمت مشارکتها مع المجتمعات العلمیه بصوره مفتوحه، کما احتفظت الشرکه بمجموعه من الاختبارات بشکل خاص، ویتم احتساب نتیجه کل معیار بناء على متوسط الاختبارات العامه والخاصه.
وتطرقت الدراسه أیضا إلى أداء نماذج الذکاء الاصطناعی فی مجموعه من القطاعات المخصصه والمحدده مثل الموسیقى والتکنولوجیا والتاریخ والعلوم والریاضات وحتى السیاسه وبرامج التلفاز الترفیهیه.
تباین واسع فی النتائج
اختلفت النتائج التی حققها کل نموذج بناء على نوعیه الأسئله والمعیار الموجه إلیه، فبینما کان "جیمینای 3 برو" هو الرائد فی المجمل، إلا أن المعاییر الفردیه تختلف کثیرا.
ویشیر تقریر "دیجیتال تریندز" إلى تفوق "شات جی بی تی 5" فی معیار الأساس ومعیار البحث، مع کون المعیار متعدد الوسائط هو النقطه الأضعف فی کافه النماذج.
ویلاحظ بأن نموذج "غروک 4 فاست" (Grok 4 Fast) هو أضعف نموذج ذکاء اصطناعی فی کافه الاختبارات مع نتیجه متوسطه وصلت إلى 36% وانخفضت إلى 17% فی المعیار متعدد الوسائط و15% فی المعیار البارامتری.
وتؤکد هذه الدراسه على قصور أدوات الذکاء الاصطناعی فی الاختبارات المخصصه والمفصله وفق ما جاء فی التقریر، إذ یضیف بأن الإجابات الخاطئه ولو بنسبه صغیره قد تسبب فی ضرر کبیر فی قطاعات مثل القطاعات الصحیه أو المالیه.
المصدر: دیجیتال تریندز