سایت خبری
famaserver
  • صفحه نخست
  • تکنولوژی
  • علم و دانش
  • بازی
  • فناوری
  • اینترنت
  • موبایل
سایت خبری
برترین عناوین خبری
  • خرید بیمه: سنتی یا آنلاین؟ کدامیک تجربه بهتری برای مشتریان ایجاد می‌کند؟

سرتیتر خبرها

با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

2 ماه پیش
معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

2 ماه پیش
جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

2 ماه پیش
شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

2 ماه پیش
آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

2 ماه پیش
وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

2 ماه پیش
قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

2 ماه پیش
چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

2 ماه پیش
کاهش 20 درصدی واردات تلفن همراه در 5 ماهه امسال

کاهش ۲۰ درصدی واردات تلفن همراه در ۵ ماهه امسال

2 ماه پیش
۵ عادت مخرب که گوشی هوشمند شما را نابود می‌کند

۵ عادت مخرب که گوشی هوشمند شما را نابود می‌کند

2 ماه پیش

گوگل: دقت واقعی چت‌بات‌های هوش مصنوعی از ۷۰ درصد عبور نمی‌کند

زمان انتشار: 17 دسامبر 2025 ساعت 12:40

دسته بندی: فناوری

شناسه خبر: 972979

زمان مطالعه: 8 دقیقه

گوگل: دقت واقعی چت‌بات‌های هوش مصنوعی از ۷۰ درصد عبور نمی‌کند

گوگل: دقت واقعی چت‌بات‌های هوش مصنوعی از ۷۰ درصد عبور نمی‌کند

گوگل در ارزیابی تازه‌ای به این جمع‌بندی رسیده است که چت‌بات‌های هوش مصنوعی، حتی در بهترین حالت، تنها به حدود ۶۹ درصد دقت دست پیدا می‌کنند.

این شرکت با انتشار گزارشی صریح درباره میزان قابل‌اعتماد بودن چت‌بات‌های هوش مصنوعی فعلی، تصویری نه‌چندان امیدوارکننده ارائه داده است. بر اساس نتایج به‌دست‌آمده از مجموعه معیارهای جدید FACTS، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی نیز برای عبور از آستانه دقت واقعی ۷۰ درصد با دشواری مواجه‌ هستند.

در این میان، Gemini 3 Pro به‌عنوان دقیق‌ترین مدل بررسی‌شده، موفق به ثبت دقت کلی ۶۹ درصدی شده است. سایر مدل‌های پیشرو متعلق به شرکت‌هایی مانند OpenAI، Anthropic و xAI نیز عملکرد ضعیف‌تری از خود نشان داده‌اند. جمع‌بندی این یافته‌ها ساده اما نگران‌کننده است: این چت‌بات‌ها، حتی زمانی که پاسخ‌های خود را با اطمینان ارائه می‌کنند، به‌طور میانگین از هر سه پاسخ، یکی نادرست است.

به گزارش بیکینگ و به نقل از Digitaltrends، اهمیت این معیار از آن‌جا ناشی می‌شود که بسیاری از آزمون‌های رایج هوش مصنوعی، بیشتر بر توانایی انجام یک وظیفه تمرکز دارند تا صحت واقعی اطلاعات تولیدشده. این شکاف، به‌ویژه در حوزه‌هایی مانند امور مالی، مراقبت‌های بهداشتی و خدمات حقوقی، می‌تواند پیامدهای پرهزینه‌ای به همراه داشته باشد. پاسخ‌هایی که روان و قانع‌کننده به نظر می‌رسند اما حاوی خطا هستند، در شرایطی که کاربران به درستی اطلاعات اعتماد می‌کنند، می‌توانند خسارت‌های جدی ایجاد کنند.
 

آزمون دقت گوگل چه چیزی را نشان می‌دهد؟

مجموعه بنچمارک FACTS توسط تیم FACTS گوگل و با همکاری پلتفرم Kaggle طراحی شده است تا دقت واقعی مدل‌های هوش مصنوعی را در چهار سناریوی کاربردی دنیای واقعی به‌طور مستقیم ارزیابی کند.

در یکی از این آزمون‌ها، «دانش پارامتری» سنجیده می‌شود؛ یعنی بررسی می‌شود که آیا مدل می‌تواند صرفاً بر اساس دانسته‌های آموخته‌شده در زمان آموزش، به پرسش‌های مبتنی بر واقعیت پاسخ دهد یا خیر.
 

گوگل: دقت واقعی چت‌بات‌های هوش مصنوعی از ۷۰ درصد عبور نمی‌کند

آزمون دوم، عملکرد جست‌وجو را مورد ارزیابی قرار می‌دهد و میزان توانایی مدل‌ها در استفاده از ابزارهای وب برای بازیابی اطلاعات دقیق را می‌سنجد. آزمون سوم بر «پایبندی به منبع» تمرکز دارد؛ به این معنا که آیا مدل بدون افزودن جزئیات نادرست، به سند ارائه‌شده وفادار می‌ماند یا خیر. آزمون چهارم نیز به درک چندوجهی اختصاص دارد و توانایی مدل‌ها در تفسیر صحیح نمودارها، دیاگرام‌ها و تصاویر را بررسی می‌کند.

نتایج به‌دست‌آمده، اختلاف قابل‌توجهی میان مدل‌ها را نشان می‌دهد. Gemini 3 Pro با امتیاز ۶۹ درصد در صدر جدول FACTS قرار گرفته و پس از آن، Gemini 2.5 Pro و ChatGPT-5 از OpenAI با حدود ۶۲ درصد جایگاه‌های بعدی را به خود اختصاص داده‌اند.

مدل Claude 4.5 Opus با نزدیک به ۵۱ درصد و Grok 4 با حدود ۵۴ درصد در رتبه‌های پایین‌تر قرار دارند. در این میان، وظایف چندوجهی ضعیف‌ترین عملکرد را در کل جدول به ثبت رسانده‌اند و دقت آن‌ها در بسیاری موارد به کمتر از ۵۰ درصد رسیده است.

این موضوع از آن جهت حائز اهمیت است که چنین وظایفی شامل تفسیر نمودارها، دیاگرام‌ها و تصاویر می‌شوند؛ حوزه‌هایی که در آن‌ها یک چت‌بات ممکن است با اطمینان کامل، نمودار فروش را اشتباه بخواند یا عدد نادرستی را از یک سند استخراج کند و در نهایت، خطاهایی ایجاد شود که تشخیص آن‌ها دشوار اما جبرانشان پرهزینه است.

در نهایت، پیام اصلی این گزارش آن نیست که چت‌بات‌های هوش مصنوعی ابزارهایی بی‌فایده هستند، بلکه تأکید بر این نکته است که اعتماد بی‌چون‌وچرا به آن‌ها می‌تواند خطرناک باشد. داده‌های منتشرشده از سوی گوگل نشان می‌دهد که هرچند هوش مصنوعی در مسیر پیشرفت قرار دارد، اما همچنان پیش از آن‌که بتوان آن را به‌عنوان منبعی قابل‌اتکا برای حقیقت در نظر گرفت، به تأیید، نظارت و مداخله انسانی نیازمند است.

حتما بخوانید : ماهواره‌های استارلینک به‌سختی از برخورد با ماهواره‌های چینی اجتناب کردند
برچسب ها
چت‌بات
اشتراک گذاری

اخبار مرتبط

  • پایان نظارت گوگل: ابزار رایگان رصد دارک وب بازنشسته می‌شود
    پایان نظارت گوگل: ابزار رایگان رصد دارک وب بازنشسته می‌شود 1 ساعت پیش
  • جدیدترین قیمت رمزارزها
    جدیدترین قیمت رمزارزها 1 ساعت پیش
  • چرا گلکسی S26 Ultra می‌تواند بهترین گوشی اندرویدی 2026 باشد
    چرا گلکسی S26 Ultra می‌تواند بهترین گوشی اندرویدی 2026 باشد 1 ساعت پیش
  • ماهواره‌های استارلینک به‌سختی از برخورد با ماهواره‌های چینی اجتناب کردند
    ماهواره‌های استارلینک به‌سختی از برخورد با ماهواره‌های چینی اجتناب کردند 1 ساعت پیش

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دسته بندی موضوعات

  • ارتباطات 160
  • امنیت 293
  • اینترنت 3435
  • بازی 8815
  • برنامه نویسی 34
  • تبلیغات 21
  • تکنولوژی 30131
  • دانش‌بنیان 1
  • رمز ارز 1252
  • سیستم عامل 209
  • شبکه اجتماعی 632
  • علم و دانش 14927
  • فناوری 7523
  • کاریکاتور 556
  • کسب و کار 684
  • موبایل 724
  • میزبانی وب 40
  • نرم افزار - سخت افزار 424

جدیدترین مقالات

  • بازی‌های پلی‌استیشن ۲ روی اندروید: نوستالژی زنده شد!
    بازی‌های پلی‌استیشن ۲ روی اندروید: نوستالژی زنده شد! 4 ساعت پیش
  • افزایش قیمت گیم پس باعث موج لغو اشتراک‌ها شد
    افزایش قیمت گیم پس باعث موج لغو اشتراک‌ها شد 4 ساعت پیش
  • ۹۰ درصد بازی‌های ویندوزی روی لینوکس اجرا می‌شوند
    ۹۰ درصد بازی‌های ویندوزی روی لینوکس اجرا می‌شوند 4 ساعت پیش
  • راز طول عمر کنسول بازی شما؛ چند وقت یک‌بار باید تمیزش کنید؟
    راز طول عمر کنسول بازی شما؛ چند وقت یک‌بار باید تمیزش کنید؟ 4 ساعت پیش
  • هوش مصنوعی سراغ صنعت گیمینگ می‌رود
    هوش مصنوعی سراغ صنعت گیمینگ می‌رود 4 ساعت پیش

لینکهای پیشنهادی

سرور مجازی | خرید هاست | دانلود نرم افزار | کلاس آنلاین | رپورتاژ خارجی

میزبانی در هاست ویندوز فاماسرور