سایت خبری
famaserver
  • صفحه نخست
  • تکنولوژی
  • علم و دانش
  • بازی
  • فناوری
  • اینترنت
  • موبایل
سایت خبری

سرتیتر خبرها

آیفون ۱۸ بدون Face ID ارائه می شود

آیفون ۱۸ بدون Face ID ارائه می شود

19 ساعت پیش
عزم شیائومی برای رقابت جدی با  آیفون ۱۷

عزم شیائومی برای رقابت جدی با آیفون ۱۷

19 ساعت پیش
همه چیز درباره آیفون ۱۷، آیفون ایر و ایرپاد پرو ۳ در رویداد جدید اپل

همه چیز درباره آیفون ۱۷، آیفون ایر و ایرپاد پرو ۳ در رویداد جدید اپل

19 ساعت پیش
قاتل خاموش خواب: چگونه گوشی و لپ‌تاپ مغز شما را فریب می‌دهند؟

قاتل خاموش خواب: چگونه گوشی و لپ‌تاپ مغز شما را فریب می‌دهند؟

19 ساعت پیش
چرا بعد از نصب iOS ۲۶ باتری آیفون سریع‌تر خالی می‌شود؟

چرا بعد از نصب iOS ۲۶ باتری آیفون سریع‌تر خالی می‌شود؟

19 ساعت پیش
بررسی آیفون ایر؛ باریک‌ترین و سبک‌ترین گوشی اپل تا امروز

بررسی آیفون ایر؛ باریک‌ترین و سبک‌ترین گوشی اپل تا امروز

19 ساعت پیش
«اتاقک بخار» مشکل داغ کردن آیفون را حل کرد

«اتاقک بخار» مشکل داغ کردن آیفون را حل کرد

19 ساعت پیش
پشت پرده سوءاستفاده ۳۰ شرکت‌ در واردات غیرقانونی آیفون و سامسونگ

پشت پرده سوءاستفاده ۳۰ شرکت‌ در واردات غیرقانونی آیفون و سامسونگ

19 ساعت پیش
مدیرعامل شیائومی ادعای کپی‌برداری از اپل را رد کرد

مدیرعامل شیائومی ادعای کپی‌برداری از اپل را رد کرد

19 ساعت پیش
فاجعه طراحی یا نقص تولید؟ ماجرای آسیب‌پذیری آیفون ۱۷ پرو مکس در برابر ضربه

فاجعه طراحی یا نقص تولید؟ ماجرای آسیب‌پذیری آیفون ۱۷ پرو مکس در برابر ضربه

19 ساعت پیش

مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابی‌ها کمتر از انتظار امتیاز گرفت

زمان انتشار: 21 آوریل 2025 ساعت 14:39

دسته بندی: تکنولوژی

شناسه خبر: 913435

زمان مطالعه: 4 دقیقه

مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابی‌ها کمتر از انتظار امتیاز گرفت

مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابی‌ها کمتر از انتظار امتیاز گرفت

مدل هوش مصنوعی o3 که در دسامبر (آذر و دی ۱۴۰۳) معرفی شد، ابتدا با ادعای پاسخگویی به بیش از ۲۵ درصد از سؤالات مجموعه‌ی ریاضی FrontierMath توجهات را به خود جلب کرد؛ عددی که به‌مراتب بالاتر از عملکرد سایر مدل‌ها بود؛ اما حالا نتایج ارزیابی مستقل مؤسسه‌ی Epoch AI، این ادعاها را زیر سؤال برده است.

طبق گزارش Epoch، مدل o3 فقط حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده که این عدد بسیار پایین‌تر از ادعای اولیه‌ی OpenAI است.

همین اختلاف باعث شد بحث‌هایی درباره‌ی شفافیت و نحوه‌ی بنچمارک‌گرفتن OpenAI شکل بگیرد، به‌ویژه اینکه نسخه‌ی تست‌شده‌ی این شرکت احتمالاً به منابع پردازشی بیشتری دسترسی داشته است.

بنیاد ARC Prize اعلام کرد که نسخه‌ی عمومی مدل o3 با نسخه‌ی مورد استفاده در بنچمارک‌های اولیه تفاوت دارد و برای کاربردهای روزمره مانند چت بهینه‌سازی شده است. به عبارتی، نسخه‌ی نهایی عملکرد بهتری در دنیای واقعی دارد، اما در تست‌های سنگین امتیاز کمتری کسب می‌کند.

مقاله‌های مرتبط:
  • وقتی هوش مصنوعی به دیوار ریاضی می‌خورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!

  • نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

شرکت OpenAI نیز اذعان داشت که نسخه‌ی نهایی o3 به‌منظور افزایش سرعت پاسخ‌دهی و کاهش هزینه بهینه شده است و امکان دارد با نسخه‌ی نمایشی اولیه در نتایج بنچمارک تفاوت‌هایی داشته باشد. این شرکت همچنین وعده داد در آینده‌ی نزدیک مدل قدرتمندتری تحت عنوان o3-pro منتشر خواهد شد.

ماجرای نتایج عملکرد مدل o3 بار دیگر نشان می‌دهد که بنچمارک‌های مدل‌های هوش مصنوعی همیشه قابل اتکا نیستند؛ به‌ویژه زمانی‌ که از سوی شرکت‌های سازنده‌ی مدل‌ها منتشر شوند. در شرایط رقابتی فعلی بازار هوش مصنوعی، شرکت‌ها گاهی برای جلب‌ توجه، اطلاعات خود را به‌صورت گزینشی منتشر می‌کنند.

حتما بخوانید : طرح «خودروی متصل»؛ پلیس با اضافه کردن یک قطعه هوشمند به ماشین قصد رصد رفتار رانندگان را دارد
اشتراک گذاری

اخبار مرتبط

  • شیائومی ۱۷ اولترا در راه است؛ قوی‌تر و بهتر از مدل پرو مکس
    شیائومی ۱۷ اولترا در راه است؛ قوی‌تر و بهتر از مدل پرو مکس 13 ساعت پیش
  • آیفون ۱۷ پرو مکس و آیفون ایر در بنچمارک‌های مقدماتی زومیت قدرت‌نمایی کردند
    آیفون ۱۷ پرو مکس و آیفون ایر در بنچمارک‌های مقدماتی زومیت قدرت‌نمایی کردند 13 ساعت پیش
  • سیگنال تکرارشونده غیرممکن: کشف انفجاری مرموز که قوانین کیهان را به چالش می‌کشد
    سیگنال تکرارشونده غیرممکن: کشف انفجاری مرموز که قوانین کیهان را به چالش می‌کشد 13 ساعت پیش
  • اولین آیفون تاشو احتمالا شباهت زیادی به آیفون ایر خواهد داشت
    اولین آیفون تاشو احتمالا شباهت زیادی به آیفون ایر خواهد داشت 13 ساعت پیش

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دسته بندی موضوعات

  • ارتباطات 156
  • امنیت 283
  • اینترنت 3423
  • بازی 8800
  • برنامه نویسی 34
  • تبلیغات 18
  • تکنولوژی 27721
  • دانش‌بنیان 1
  • رمز ارز 1252
  • سیستم عامل 175
  • شبکه اجتماعی 554
  • علم و دانش 14386
  • فناوری 6720
  • کاریکاتور 556
  • کسب و کار 622
  • موبایل 706
  • میزبانی وب 40
  • نرم افزار - سخت افزار 381

جدیدترین مقالات

  • عرضه مرورگر وب جدید اوپن‌ای‌آی؛ آیا سلطه بلامنازع گوگل کروم پایان می‌یابد؟
    عرضه مرورگر وب جدید اوپن‌ای‌آی؛ آیا سلطه بلامنازع گوگل کروم پایان می‌یابد؟ 7 ساعت پیش
  • حذف قابلیت کلیدی از گوگل مپس اندروید؛ کاربران معترض!
    حذف قابلیت کلیدی از گوگل مپس اندروید؛ کاربران معترض! 7 ساعت پیش
  • قابلیت جدید واتس‌اپ: انتقال عکس پروفایل از فیس‌بوک و اینستاگرام
    قابلیت جدید واتس‌اپ: انتقال عکس پروفایل از فیس‌بوک و اینستاگرام 7 ساعت پیش
  • اسپاتیفای دوباره گران شد! تغییرات قیمت برای کاربران خاورمیانه و اروپا
    اسپاتیفای دوباره گران شد! تغییرات قیمت برای کاربران خاورمیانه و اروپا 7 ساعت پیش
  • اسکنر محبوب مایکروسافت لنز تعطیل می‌شود! راه‌حل جایگزین چیست؟
    اسکنر محبوب مایکروسافت لنز تعطیل می‌شود! راه‌حل جایگزین چیست؟ 7 ساعت پیش

لینکهای پیشنهادی

سرور مجازی | خرید هاست | دانلود نرم افزار | کلاس آنلاین | تجهیزات آزمایشگاهی

میزبانی در هاست ویندوز فاماسرور