دیپ‌سیک از بروزرسانی مدل هوش مصنوعی با روش تازه Sparse Attention خبر داد

به گزارش پیوست به نقل از بلومبرگ، این هوش مصنوعی آزمایشی که با نام DeepSeek-V3.1-Exp معرفی شده است و در صفحه رسمی این شرکت در Hugging Face منتشر شد. براساس توضیحاتی که دیپ‌سیک در این صفحه منتشر کرده است، این نسخه «میان‌ مرحله‌ای در مسیر معماری نسل بعدی» هوش مصنوعی به حساب می‌آید و با همکاری برخی شرکت‌های سازنده تراشه در چین توسعه یافته است.

مدل تازه با بهره‌گیری از مکانیزم DeepSeek Sparse Attention یا به اختصارDSA طراحی شده که به گفته شرکت کارایی پردازش توالی‌های طولانی متن را بهبود دهد. دیپ‌سیک تاکید دارد این فناوری ماحصل بخشی از تحقیقات گسترده‌ این شرکت برای افزایش بازدهی آموزش و اجرای مدل‌های زبانی پیشرفته است.

این استارت‌آپ که اوایل سال جاری با مدل R1 توجه سیلیکون‌ولی و فعالان بین‌المللی را به خود جلب کرد، اکنون در تلاش است با معرفی نسخه‌های جدید جایگاه پیشروی خود را در صنعت هوش مصنوعی چین تثبیت کند. همزمان با این رونمایی، دیپ‌سیک اعلام کرده که هزینه استفاده از ابزارهای نرم‌افزاری خود را به نصف کاهش می‌دهد؛ اقدامی مشابه با دیگر شرکت‌های نوپای چینی که هدف آن جذب تعداد بیشتری از کاربران است.

شرکت‌های آمریکایی نیز با رویکردی مشابه به دنبال افزایش تعداد کاربران خود در بازارهای پرجمعیت به ویژه هند هستند. برای مثال شرکت اوپن‌ای‌آی یک اشتراک ارزان‌قیمت ۵ دلاری را برای کاربران هند عرضه کرده است و به تازگی نیز از اشتراک مشابهی برای کاربران خود در اندونزی رونمایی کرد. شرکت گوگل نیز طرح ویژه‌ای برای کاربران چینی دارد و پرپلکسیتی، استارت‌آپ فعال در حوزه جستجوی مبتنی بر هوش مصنوعی، نیز تمرکز ویژه‌ای بر بازار پرجمعیت هند دارد.

شرکت هواوی، غول تحت تحریم چینی که تمرکز ویژه‌ای بر تولید پردازنده‌های هوش مصنوعی دارد، نیز روز دوشنبه اعلام کرد تراشه‌های هوش مصنوعی این شرکت از نسخه تازه دیپ‌سیک پشتیبانی خواهند کرد. این همکاری می‌تواند توان پردازشی بیشتری را برای کاربران این مدل فراهم آورد.

دیپ‌سیک همچنین اعلام کرده که مدل‌های جدید از فرمت عددی FP8 (Floating Point 8) پشتیبانی می‌کنند و در حال توسعه قابلیت پشتیبانی از BF16 (Brain Floating Point 16) هستند. این دو فرمت عددی راهکارهایی برای ذخیره‌سازی داده و انجام محاسبات در مدل‌های یادگیری ماشین محسوب می‌شوند.

با اینکه FP8 دقت کمتری دارد، اما به دلیل کاهش نیاز به حافظه و افزایش سرعت محاسبات، گزینه‌ای مناسب برای بسیاری از وظایف هوش مصنوعی به شمار می‌رود. در مقابل، BF16 از دقت بالاتری برخوردار است و به‌ویژه در فرآیند آموزش مدل‌های بزرگ کاربرد دارد.

به گفته دیپ‌سیک، ترکیب این نوآوری‌ها می‌تواند اجرای مدل‌های عظیم هوش مصنوعی را روی سخت‌افزارهای محدود آسان‌تر کند که به ویژه برای استارت‌آپ‌های چینی و شرکت‌های فعال در کشور‌هایی که از لحاظ دسترسی به پردازنده‌های پیشرفته (عمدتا تولید شرکت انویدیا آمریکا) با محدودیت مواجه هستند،‌ مفید خواهد بود. این اقدام همچنین گامی مهم در رقابت فزاینده چین با ایالات متحده در حوزه فناوری‌های اهمیت خواهد داشت.

ساعی چهر

دیپ‌سیک از بروزرسانی مدل هوش مصنوعی با روش تازه Sparse Attention خبر داد

همچنین بخوانید...

دیدگاه خود را بنویسید

عضویت خبرنامه

بایگانی نوشته‌ها

{{item.title}} {{item.subtitle}}

{{item.total|number}} تومان

دیپ‌سیک از بروزرسانی مدل هوش مصنوعی با روش تازه Sparse Attention خبر داد

همچنین بخوانید...

دیدگاه خود را بنویسید

عضویت خبرنامه

بایگانی نوشته‌ها