سایت خبری
famaserver
  • صفحه نخست
  • تکنولوژی
  • علم و دانش
  • بازی
  • فناوری
  • اینترنت
  • موبایل
سایت خبری
برترین عناوین خبری
  • خرید بیمه: سنتی یا آنلاین؟ کدامیک تجربه بهتری برای مشتریان ایجاد می‌کند؟

سرتیتر خبرها

معرفی گیفت کارت آیتونز؛ کلید طلایی ورود به دنیای اپل

معرفی گیفت کارت آیتونز؛ کلید طلایی ورود به دنیای اپل

6 ماه پیش
با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

8 ماه پیش
معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

8 ماه پیش
جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

8 ماه پیش
شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

8 ماه پیش
آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

8 ماه پیش
وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

8 ماه پیش
قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

8 ماه پیش
چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

8 ماه پیش
کاهش 20 درصدی واردات تلفن همراه در 5 ماهه امسال

کاهش ۲۰ درصدی واردات تلفن همراه در ۵ ماهه امسال

8 ماه پیش

مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابی‌ها کمتر از انتظار امتیاز گرفت

زمان انتشار: 21 آوریل 2025 ساعت 14:39

دسته بندی: تکنولوژی

شناسه خبر: 913435

زمان مطالعه: 4 دقیقه

مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابی‌ها کمتر از انتظار امتیاز گرفت

مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابی‌ها کمتر از انتظار امتیاز گرفت

مدل هوش مصنوعی o3 که در دسامبر (آذر و دی ۱۴۰۳) معرفی شد، ابتدا با ادعای پاسخگویی به بیش از ۲۵ درصد از سؤالات مجموعه‌ی ریاضی FrontierMath توجهات را به خود جلب کرد؛ عددی که به‌مراتب بالاتر از عملکرد سایر مدل‌ها بود؛ اما حالا نتایج ارزیابی مستقل مؤسسه‌ی Epoch AI، این ادعاها را زیر سؤال برده است.

طبق گزارش Epoch، مدل o3 فقط حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده که این عدد بسیار پایین‌تر از ادعای اولیه‌ی OpenAI است.

همین اختلاف باعث شد بحث‌هایی درباره‌ی شفافیت و نحوه‌ی بنچمارک‌گرفتن OpenAI شکل بگیرد، به‌ویژه اینکه نسخه‌ی تست‌شده‌ی این شرکت احتمالاً به منابع پردازشی بیشتری دسترسی داشته است.

بنیاد ARC Prize اعلام کرد که نسخه‌ی عمومی مدل o3 با نسخه‌ی مورد استفاده در بنچمارک‌های اولیه تفاوت دارد و برای کاربردهای روزمره مانند چت بهینه‌سازی شده است. به عبارتی، نسخه‌ی نهایی عملکرد بهتری در دنیای واقعی دارد، اما در تست‌های سنگین امتیاز کمتری کسب می‌کند.

مقاله‌های مرتبط:
  • وقتی هوش مصنوعی به دیوار ریاضی می‌خورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!

  • نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

شرکت OpenAI نیز اذعان داشت که نسخه‌ی نهایی o3 به‌منظور افزایش سرعت پاسخ‌دهی و کاهش هزینه بهینه شده است و امکان دارد با نسخه‌ی نمایشی اولیه در نتایج بنچمارک تفاوت‌هایی داشته باشد. این شرکت همچنین وعده داد در آینده‌ی نزدیک مدل قدرتمندتری تحت عنوان o3-pro منتشر خواهد شد.

ماجرای نتایج عملکرد مدل o3 بار دیگر نشان می‌دهد که بنچمارک‌های مدل‌های هوش مصنوعی همیشه قابل اتکا نیستند؛ به‌ویژه زمانی‌ که از سوی شرکت‌های سازنده‌ی مدل‌ها منتشر شوند. در شرایط رقابتی فعلی بازار هوش مصنوعی، شرکت‌ها گاهی برای جلب‌ توجه، اطلاعات خود را به‌صورت گزینشی منتشر می‌کنند.

حتما بخوانید : طرح «خودروی متصل»؛ پلیس با اضافه کردن یک قطعه هوشمند به ماشین قصد رصد رفتار رانندگان را دارد
اشتراک گذاری

اخبار مرتبط

  • نبرد غول پهپادسازی با دولت آمریکا؛ کار به دادگاه کشانده می‌شود
    نبرد غول پهپادسازی با دولت آمریکا؛ کار به دادگاه کشانده می‌شود 4 ماه پیش
  • ویدیو رسمی سامسونگ از نمایشگر ضد جاسوسی گوشی گلکسی اس ۲۶ اولترا
    ویدیو رسمی سامسونگ از نمایشگر ضد جاسوسی گوشی گلکسی اس ۲۶ اولترا 4 ماه پیش
  • درآمد گیمینگ اپ استور به ۵۲٫۵ میلیارد دلار رسید
    درآمد گیمینگ اپ استور به ۵۲٫۵ میلیارد دلار رسید 4 ماه پیش
  • اوپو گوشی تاشو جدیدی با دوربین ۲۰۰ مگاپیکسلی می‌سازد
    اوپو گوشی تاشو جدیدی با دوربین ۲۰۰ مگاپیکسلی می‌سازد 4 ماه پیش

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دسته بندی موضوعات

  • ارتباطات 160
  • امنیت 295
  • اینترنت 3435
  • بازی 8824
  • برنامه نویسی 34
  • تبلیغات 23
  • تکنولوژی 31916
  • دانش‌بنیان 1
  • رمز ارز 1252
  • سیستم عامل 237
  • شبکه اجتماعی 656
  • علم و دانش 14927
  • فناوری 7871
  • کاریکاتور 556
  • کسب و کار 708
  • موبایل 725
  • میزبانی وب 40
  • نرم افزار - سخت افزار 447

جدیدترین مقالات

  • نقش رم در بهبود پاسخ‌گویی دیتابیس‌های سنگین
    نقش رم در بهبود پاسخ‌گویی دیتابیس‌های سنگین 3 روز پیش
  • گزینه‌های توسعه‌دهنده اندروید؛ تنظیمات پنهان برای افزایش سرعت گوشی
    گزینه‌های توسعه‌دهنده اندروید؛ تنظیمات پنهان برای افزایش سرعت گوشی 4 ماه پیش
  • iOS 26.3 منتشر شد؛ ۶ قابلیت جدید برای آیفون
    iOS 26.3 منتشر شد؛ ۶ قابلیت جدید برای آیفون 4 ماه پیش
  • اندروید ۱۷ بتا منتشر شد؛ تمرکز ویژه بر گوشی‌های تاشو
    اندروید ۱۷ بتا منتشر شد؛ تمرکز ویژه بر گوشی‌های تاشو 4 ماه پیش
  • رازهای اندروید؛ قابلیت‌هایی که استفاده از گوشی را ساده‌تر می‌کنند
    رازهای اندروید؛ قابلیت‌هایی که استفاده از گوشی را ساده‌تر می‌کنند 4 ماه پیش

لینکهای پیشنهادی

سرور مجازی | خرید هاست | دانلود نرم افزار | کلاس آنلاین | رپورتاژ خارجی

میزبانی در هاست ویندوز فاماسرور