وقتی هوش مصنوعی به دیوار ریاضی میخورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!

وقتی هوش مصنوعی به دیوار ریاضی میخورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!
در سالهای اخیر، حضور هوش مصنوعی در عرصههای مختلف علمی، بهویژه ریاضیات، روزبهروز پررنگتر شده است. حوزهای که تا مدتها بهعنوان عرصهای ناب برای استدلال انسانی تلقی میشد، اکنون شاهد قدرتنمایی مدلهای زبانی بزرگ (LLMS) است. اما آیا مدلهای هوش مصنوعی میتوانند پابهپای ذهن انسان، مسائل پیچیدهی ریاضی را حل کنند؟
مطالعات اخیر نشان دادهاند که مدلهای بهکار رفته در ChatGPT در آزمونهای معتبر ریاضی برای دانشآموزان دبیرستانی ازجمله AIME و HMMT که تنها پاسخ نهایی را میسنجند، عملکرد چشمگیری داشتهاند. بااینحال، این نوع ارزیابیها لزوماً معیار دقیقی برای سنجش توانایی منطقی و استدلالی این مدلها نیستند. تولید اثباتهای دقیق و مرحلهبهمرحله نیازمند مهارتهایی فراتر از محاسبهی پاسخ نهایی است.
-
دقت مدلهای زبانی در آزمون USAMO: کمتر از ۵درصد
-
شکست تمام عیار هوش مصنوعی در اثبات مسائل ریاضی پیچیده
-
مقایسه عملکرد مدلها در استدلال ریاضی
-
دلایل شکست هوش مصنوعی در ریاضی
-
پشت پرده خطاها؛ منطق گمشده هوش مصنوعی
-
هوش مصنوعی، داوری مهربانتر از انسان
-
مهارت یا تقلید؟
-
نوآوری گمشده؛ چرا ماشینها نمیتوانند بهخوبی استدلال کنند؟
در همین راستا، مطالعهای جدید به بررسی عملکرد مدلهای زبانی در سطحی بهمراتب دشوارتر پرداخته است: المپیاد ریاضی ایالات متحده آمریکا (USAMO). نتایج این پژوهش نشان میدهد که حتی پیشرفتهترین مدلها نیز در این آزمون عملکرد بسیار ضعیفی داشتهاند؛ بهطوریکه میانگین امتیاز آنها کمتر از ۵ درصد بوده است. ماجرا چیست؟
دقت مدلهای زبانی در آزمون USAMO: کمتر از ۵درصد
بهمنظور بررسی دقیقتر توانایی مدلهای زبانی در زمینهی استدلال ریاضی، پژوهشی جدید به ارزیابی عملکرد این مدلها در المپیاد ریاضی ایالات متحده آمریکا پرداخته است؛ رقابتی در سطح بالا که از شرکتکنندگان انتظار میرود پاسخهایی مبتنیبر اثباتهای کامل، شفاف و منسجم ارائه دهند.















