محققان برکلی: فناوری DeepSeek را با فقط ۳۰ دلار بازسازی کردیم!

محققان برکلی: فناوری DeepSeek را با فقط ۳۰ دلار بازسازی کردیم!
تیمی تحقیقاتی از دانشگاه کالیفرنیا برکلی به رهبری جیایی پان، دانشجوی دکتری، ادعا میکند که توانسته است فناوریهای اصلی دیپسیک R1-Zero را با تنها ۳۰ دلار بازتولید کند و نشان دهد که مدلهای پیشرفتهی هوش مصنوعی را میتوان با هزینهای بسیار کم پیادهسازی کرد.به گفتهی پان در پلتفرم Nitter، این تیم مدل دیپسیک R1-Zero را در بازی Countdown بازتولید کردهاند. این مدل زبانی کوچک که ۳ میلیارد پارامتر دارد، با استفاده از یادگیری تقویتی، قابلیتهایی مانند خودبازبینی و جستوجو را توسعه داده است.پان توضیح داد که تیمش کار را با مدل زبانی پایه و پرامپت اولیه (نقطه شروع برای مدل زبانی) و پاداش مبتنیبر دادههای صحیح آغاز کرد. سپس، فرایند یادگیری تقویتی را براساس بازی Countdown اجرا کردند. بازی Countdown از برنامهی تلویزیونی بریتانیایی الهام گرفته شده که در آن بازیکنان باید با استفاده از عملیات ریاضی ساده، عددی تصادفی را با ترکیب مجموعهای از اعداد دادهشده پیدا کنند.در ابتدای پروژهی تیم تحقیقاتی دانشگاه کالیفرنیا، مدل تنها خروجیهای تصادفی تولید میکرد؛ اما بهتدریج استراتژیهای اصلاح و جستوجو را توسعه داد تا پاسخ صحیح را بیابد. در نمونهای، مدل ابتدا جوابی را ارائه داد و سپس آن را بررسی و چندین بار اصلاح کرد تا به پاسخ درست رسید.