استارتاپ آنتروپیک از «پوکمون» برای تست مدلهایش استفاده میکند

استارتاپ آنتروپیک از «پوکمون» برای تست مدلهایش استفاده میکند
استفاده از بازیهای مختلف برای سنجش توانایی مدلهای هوش مصنوعی و ایجاد بنچمارکهای مختلف برای آنها، سابقهی طولانی دارد و حالا، آنتروپیک نیز به جمع شرکتهایی پیوسته است که از این گزینه برای محکزدن مدلهایش بهره میبرد.
بر اساس پست منتشرشده در Anthropic، این استارتاپ، تواناییهای Claude 3.7 Sonnet، جدیدترین مدل هوش مصنوعی خود را با بازی Pokémon Red کلاسیک که برای کنسول نینتندو Game Boy منتشر شده، آزمایش کرده است.
آنتروپیک، مدل Claude 3.7 را به حافظهی اصلی، صفحهی ورودی و قابلیت فراخوانی عملکرد برای فشار دادن دکمهها و حرکت در اطراف صفحه مجهز کرد تا این مدل بتواند بهطور مداوم پوکمون بازی کند.
ویژگی منحصربهفرد Claude 3.7، قابلیت تفکر و استدلال و پشتسر گذاشتن مشکلات چالشبرانگیز با انجام محاسبات بیشتر و صرف زمان طولانیتر است؛ توانایی خاصی که درحالحاضر، مدلهای o3-mini شرکت OpenAI و DeepSeek-R1 به آن مجهز هستند.
مدل Claude 3.7 در اجرای بازی Pokémon Red، عملکرد بهتری نسبت به نسخهی Claude 3.0 داشت و نهتنها از خانهای در Pallet Town، جایی که بازی شروع میشود، گذر کرد؛ بلکه توانست با سه رهبر باشگاه پوکمون مبارزه کند و نشان آنها را به دست بیاورد.
-
همبنیانگذار OpenAI که به انتروپیک پیوسته بود، از آن استارتاپ هم جدا شد
-
آمازون ۴ میلیارد دلار دیگر در استارتاپ انتروپیک سرمایهگذاری کرد
به گفتهی آنتروپیک، مدل Claude 3.7 با انجام ۳۵ هزار حرکت، توانست به آخرین رهبر باشگاه پوکمون برسد، اما اینکه برای رسیدن به این مرحله، دقیقاً چه تعداد محاسبات را در طی چه میزان زمانی انجام داده است، هنوز مشخص نیست.















