هوش مصنوعی اغلب عرصهها را فتح کرده؛ اما هنوز نمیتواند یک کار ساده را انجام دهد

هوش مصنوعی اغلب عرصهها را فتح کرده؛ اما هنوز نمیتواند یک کار ساده را انجام دهد
بیشتر کودکان در سنین شش یا هفت سالگی میتوانند زمان را از روی ساعت بخوانند، اما جالب است که هوش مصنوعی هنوز نمیتواند صفحه ساعت را درک کند و زمان را از آن استخراج کند.
پژوهشگران دانشگاه ادینبرو اسکاتلند متوجه شدهاند مدلهای هوش مصنوعی که قادر به پردازش متن و تصاویر هستند یعنی مدلهای زبانی بزرگ چندوجهی (MLLMs) فقط در ۲۵ درصد موارد میتوانند صفحه ساعت آنالوگ را بخوانند.
نویسندگان در مقالهای که هنوز تحت داوری همتا قرار نگرفته است، توضیح دادهاند که وقتی مدلهای هوش مصنوعی مختلف ازجمله مدلهای اوپنای آی، جمنای، انتروپیک و مدلهای دیگر را آزمایش کردند تا ببینند کدام یک بهتر میتواند صفحه ساعت و تقویمهای سالانه را بخواند، مدل جمنای گوگل بهترین عملکرد را نشان داد.
تمامی مدلهای هوش مصنوعی که آزمایش شدند، در خواندن زمان و تاریخها مشکل داشتند. مشکل اصلی این است که این مدلها نمیتوانند به خوبی ترکیب سه عامل مهم یعنی آگاهی فضایی، زمینه و ریاضیات پایه را درک کنند.
تمامی مدلهای هوش مصنوعی که آزمایش شدند، در خواندن زمان و تاریخها مشکل داشتند
پژوهشگران انواع مختلفی از طراحیهای ساعت را آزمایش کردند. این طراحیها شامل ساعتهایی با اعداد رومی، ساعتهایی با عقربه ثانیهشمار و بدون آن و ساعتهایی با صفحههای رنگی مختلف بودند سیستمهای هوش مصنوعی تنها در کمتر از یکچهارم مواقع میتوانستند موقعیت صحیح عقربههای ساعت را تشخیص دهند. اشتباهات بیشتر زمانی رخ میداد که ساعتها اعداد رومی داشتند یا عقربهها طراحی خاص و متفاوتی داشتند.
وقتی پژوهشگران آزمایش کردند که مدلهای هوش مصنوعی چگونه میتوانند تقویمها را بخوانند (مخصوصاً تقویمهای سالانه بزرگی که تمام ۱۲ ماه سال را در یک صفحه نمایش میدهند)، متوجه شدند مدلهای هوش مصنوعی در خواندن تاریخها نیز دچار مشکلاتی بودند، هرچند کمی بهتر از خواندن زمانها عمل کردند.
درنهایت، جیپیتی او ۱ (GPT-o1) اولین مدل استدلالی اوپن ایآی بالاترین امتیاز را در چالش تقویم کسب کرد و توانست ۸۰ درصد از سوالات تاریخ را به درستی پاسخ دهد. بااینحال، این مدل یکپنجم از سوالاتی که از آن پرسیده شد، مانند «اولین روز سال در چه روزی از هفته قرار دارد؟» یا «۱۵۳امین روز سال چه روزی است؟» را به اشتباه پاسخ داد.
- ترسناکترین و خندهدارترین شکستهای هوش مصنوعی در تصویرسازی17 تیر 02
مطالعه ‘6
- ۵۲ درصد از پاسخهای ChatGPT به سؤالهای برنامهنویسی اشتباهند4 خرداد 03
مطالعه ‘1
- وقتی چتباتها دربرابر توتفرنگی شکست میخورند12 شهریور 03
مطالعه ’10
روهیت ساکسنا، نویسنده اصلی مطالعه در بیانیهای گفت درحالیکه بیشتر افراد از سنین پایین قادر به خواندن زمان و استفاده از تقویمها هستند، هوش مصنوعی هنوز در این مهارتها مشکل دارد. او میگوید برای اینکه سیستمهای هوش مصنوعی بتوانند بهطور مؤثر در برنامههایی که به زمان حساس هستند و در دنیای واقعی استفاده میشوند (مانند زمانبندی، اتوماسیون و فناوریهای کمکی) تلفیق شوند، این مشکلات و کمبودها باید رفع شوند.
نیوساینتیست حدود سه سال پیش گزارش داد که پژوهشگران دانشگاه آکسفورد دریافتهاند وقتی مدل هوش مصنوعی خود را روی صفحه ساعتهای آنالوگ و خواندنهای صحیح آنها آموزش دادند، این مدل توانست زمان را بین ۷۴ تا ۸۴ درصد مواقع به درستی تشخیص دهد.
تناقضی که وجود دارد این است که هوش مصنوعی میتواند در انجام کارهای پیچیده و دشوار مانند حل مسائل ریاضی یا مسائل حقوقی به خوبی عمل کند، اما همچنان در انجام کارهای سادهای مثل خواندن زمان از روی ساعت مشکل دارد.
برای مشاهده محدودیتهای فعلی هوش مصنوعی، کافی است به شرکت بزرگ فناوری اپل نگاه کنیم. اپل مجبور شد برنامههای جاهطلبانهاش برای استفاده از هوش مصنوعی در دستیار صوتی سیری را در ماه گذشته به تعویق بیندازد.
گرچه هوش مصنوعی که تقریبا به همه سوالات ما پاسخ میدهد، نمایشی عالی از تکنولوژی بهنظر میرسد، اگر نتواند کارهای سادهای مانند تنظیم هشدار یا برنامهریزی قرار ملاقات را انجام دهد، کاربران زیادی ناامید خواهند شد. این مشکل حتی در شرکتهای بزرگ و با سرمایهگذاری بالا مانند اوپن ایآی، اپل و گوگل هم ممکن است رخ دهد.