سایت خبری
famaserver
  • صفحه نخست
  • تکنولوژی
  • علم و دانش
  • بازی
  • فناوری
  • اینترنت
  • موبایل
سایت خبری
برترین عناوین خبری
  • خرید بیمه: سنتی یا آنلاین؟ کدامیک تجربه بهتری برای مشتریان ایجاد می‌کند؟

سرتیتر خبرها

با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

2 ماه پیش
معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

2 ماه پیش
جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

2 ماه پیش
شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

2 ماه پیش
آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

2 ماه پیش
وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

2 ماه پیش
قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

2 ماه پیش
چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

2 ماه پیش
کاهش 20 درصدی واردات تلفن همراه در 5 ماهه امسال

کاهش ۲۰ درصدی واردات تلفن همراه در ۵ ماهه امسال

2 ماه پیش
۵ عادت مخرب که گوشی هوشمند شما را نابود می‌کند

۵ عادت مخرب که گوشی هوشمند شما را نابود می‌کند

2 ماه پیش

نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

زمان انتشار: 19 آوریل 2025 ساعت 14:38

دسته بندی: تکنولوژی

شناسه خبر: 912821

زمان مطالعه: 4 دقیقه

نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

شرکت OpenAI اخیراً مدل‌های هوش مصنوعی o3 و o4-mini را معرفی کرد که در حوزه‌هایی مثل کدنویسی و ریاضیات عملکرد بهتری از خود نشان می‌دهند. اکنون بررسی‌های داخلی نشان می‌دهد این مدل‌ها بیش‌ از نسل‌های قبلی دچار «توهم» یا تولید اطلاعات نادرست می‌شوند؛ مشکلی قدیمی که حالا با شدت بیشتری بازگشته است.

مدل o3 در تست‌های OpenAI در ۳۳ درصد از پاسخ‌هایش در آزمون PersonQA دچار توهم شد؛ درحالی‌که مدل‌های قبلی مانند o1 و o3-mini نرخ‌هایی حدود ۱۵ درصد داشتند. عملکرد o4-mini حتی ضعیف‌تر بود و در ۴۸ درصد از موارد اطلاعات اشتباه ارائه کرد.

محققان Transluce گزارش داده‌اند که مدل o3 گاهی اقدامات ساختگی ازجمله اجرای کد در محیطی خارج از توانایی‌های خود را گزارش می‌کند. به گفته‌ی آن‌ها، نحوه‌ی آموزش تقویتی مدل‌ها می‌تواند عامل اصلی تقویت چنین رفتارهایی باشد.

مقاله‌های مرتبط:
  • ترند جدید ChatGPT خبرساز شد: پیداکردن موقعیت مکانی عکس‌ها!

  • درخواست‌های مؤدبانه از ChatGPT ده‌ها میلیون دلار هزینه اضافی به OpenAI تحمیل می‌کند

اگرچه مدل o3 در برخی کاربردهای واقعی مثل برنامه‌نویسی در شرکت Workera، نتایج رضایت‌بخشی داشت، اما پاسخ‌های ساختگی همچنان دقت آن را زیر سؤال می‌برند. این مسئله برای مشاغل حساس ازجمله وکالت یا درمان می‌تواند دردسرساز باشد.

یکی از راهکارهای مطرح برای کاهش توهم، استفاده از ابزار جست‌وجوی وب در مدل‌های زبانی است؛ قابلیتی که در GPT-4o باعث افزایش دقت شد به‌هرحال درصورتی‌که مدل‌های استدلالی با گسترش ویژگی‌هایشان، توهم بیشتری پیدا کنند، اهمیتِ یافتن راه‌حلی قطعی افزایش می‌یابد.

حتما بخوانید : مدیریت فسیلی، عامل ناترازی انرژی؛ هدررفت ۷۶ درصدی انرژی در مسیر تولید و انتقال
اشتراک گذاری

اخبار مرتبط

  • گوشی گلکسی A24 از این قابلیت‌های هوش مصنوعی محروم است
    گوشی گلکسی A24 از این قابلیت‌های هوش مصنوعی محروم است 12 ساعت پیش
  • اتحادیه اروپا «گوگل زیرو» را زیر ذره‌بین می‌برد
    اتحادیه اروپا «گوگل زیرو» را زیر ذره‌بین می‌برد 12 ساعت پیش
  • بهترین ابزارهای هوش مصنوعی کدام‌اند؟ نگاهی به جعبه‌ابزار تیم زومیت
    بهترین ابزارهای هوش مصنوعی کدام‌اند؟ نگاهی به جعبه‌ابزار تیم زومیت 12 ساعت پیش
  • مدیرعامل پیندو به ۷۴ ضربه شلاق محکوم شد/ مجوز این پلتفرم ابطال می‌شود
    مدیرعامل پیندو به ۷۴ ضربه شلاق محکوم شد/ مجوز این پلتفرم ابطال می‌شود 12 ساعت پیش

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دسته بندی موضوعات

  • ارتباطات 160
  • امنیت 293
  • اینترنت 3435
  • بازی 8814
  • برنامه نویسی 34
  • تبلیغات 21
  • تکنولوژی 29790
  • دانش‌بنیان 1
  • رمز ارز 1252
  • سیستم عامل 205
  • شبکه اجتماعی 627
  • علم و دانش 14927
  • فناوری 7462
  • کاریکاتور 556
  • کسب و کار 677
  • موبایل 724
  • میزبانی وب 40
  • نرم افزار - سخت افزار 416

جدیدترین مقالات

  • هر آنچه یک نویسنده تازه کار باید درباره چاپ اولین کتاب بداند
    هر آنچه یک نویسنده تازه کار باید درباره چاپ اولین کتاب بداند 13 ساعت پیش
  • مزایای استفاده از استابلایزر در محل کار و خانه هوشمند
    مزایای استفاده از استابلایزر در محل کار و خانه هوشمند 13 ساعت پیش
  • بهترین شرکت های نقد کننده درامد یوتیوب کدامند؟ (+8 شرکت های واسطه یوتیوب)
    بهترین شرکت های نقد کننده درامد یوتیوب کدامند؟ (+8 شرکت های واسطه یوتیوب) 13 ساعت پیش
  • هر ماه حدود ۲۰ درصد از رانندگان تاکسی اینترنتی ریزش دارند
    هر ماه حدود ۲۰ درصد از رانندگان تاکسی اینترنتی ریزش دارند 13 ساعت پیش
  • بهترین لپ تاپ تا ۴۰ میلیون کدام است؟
    بهترین لپ تاپ تا ۴۰ میلیون کدام است؟ 13 ساعت پیش

لینکهای پیشنهادی

سرور مجازی | خرید هاست | دانلود نرم افزار | کلاس آنلاین | رپورتاژ خارجی

میزبانی در هاست ویندوز فاماسرور