دیپسیک
الگو:Short description الگو:Infobox company
دیپسیک الگو:به انگلیسی(الگو:Lang-zh) یک شرکت هوش مصنوعی چینی است که مدلهای زبانی بزرگ متنباز را توسعه میدهد. دفتر اصلی این شرکت در هانگژو، ژجیانگ مستقر است و مالکیت و تأمین مالی آن منحصراً برعهده شرکت های-فلایرالگو:یادچپ است که یک صندوق پوشش ریسک چینی است و یکی از بنیانگذاران آن، لیانگ ونفنگ، در سال ۲۰۲۳ این شرکت را تأسیس کرده و خودش نیز بهعنوان مدیرعامل فعالیت میکند.
دیپسیک قادر است وظایف استدلالی را به خوبی چتجیپیتی[۱] انجام دهد، با این حال طبق مقاله ارائه شده خود شرکت، هزینه توسعه آن به مراتب و منابع مصرفیاش نیز کمتر بوده است.[۲][۳][۴] این مدل هوش مصنوعی در شرایطی توسط دیپسیک توسعه یافت که ایالات متحده آمریکا برای محدود کردن توانایی چین در توسعه سامانههای هوش مصنوعی پیشرفته، بر روی تراشههای انویدیا تحریمهایی اعمال کرده بود.[۵][۶] در ۱۰ ژانویه ۲۰۲۵، این شرکت نخستین چتبات رایگان خود را منتشر کرد که تا ۲۷ ژانویه در اپ استور سیستم عامل iOS ایالات متحده جایگزین چتجیپیتی شد و تبدیل به پردانلودترین اپ رایگان گردید،[۷] و باعث شد ارزش سهام انویدیا ۱۸٪ افت کند.[۸][۹][۱۰]
دیپسیک چتبات هوش مصنوعی مولد خود را متنباز کرده است. بدین معنی که کد آن برای استفاده، اصلاح و مشاهده در دسترس قرار دارد و همچنین دسترسی به کد منبع و اسناد طراحی بهمنظور ساخت و توسعه مهیا است.[۱۱] این شرکت پژوهشگران جوان هوش مصنوعی را از برترین دانشگاههای چین جذب میکند،[۷] و حتی افرادی را در خارج از حوزه علوم رایانه استخدام میکند تا دانش و توانایی مدلهایش در حوزههای گوناگون گسترش یابد.[۳]
تاریخچه
در ۲ نوامبر ۲۰۲۳، دیپسیک اولین مدل خود با نام دیپسیک کدرالگو:یادچپ را معرفی کرد که برای استفاده تجاری رایگان و بهطور کامل متنباز بود.[۱۲]
در ۲۹ نوامبر ۲۰۲۳، دیپسیک مدل زبانی بزرگ خود با نام دیپسیک اِلاِلام را راهاندازی کرد که تا ۶۷ میلیارد پارامتر مقیاسپذیری داشت. این مدل برای رقابت با دیگر مدلهای زبانی بزرگ آن زمان توسعه یافت و عملکردی نزدیک به GPT-۴ داشت. البته، این مدل با چالشهایی در زمینه کارایی محاسباتی و مقیاسپذیری روبرو بود. نسخهای چتمحور از این مدل نیز با نام دیپسیک چتالگو:یادچپ منتشر شد.[۱۳]
در ۹ می ۲۰۲۴، دیپسیک-V2 معرفی شد. فایننشال تایمز گزارش داد که این مدل در مقایسه با رقبا ارزانتر بود و هزینه آن ۲ یوان برای هر میلیون توکن خروجی تعیین شده بود. رهبران آزمایشگاه تایگر دانشگاه واترلو، دیپسیک-V2 را در رتبهٔ هفتم در ردهبندی مدلهای زبانی بزرگ قرار دادند.[۱۴]
در نوامبر ۲۰۲۴، دیپسیک R1-Lite منتشر شد که برای انجام وظایفی مانند استنتاج منطقی، استدلال ریاضی و حل مسئله در زمان واقعی طراحی شده بود. دیپسیک ادعا کرد که این مدل در معیارهایی مانند شعر، AIME و ریاضیات، عملکرد بهتری نسبت به OpenAI o۱ دارد. با این حال، وال استریت ژورنال گزارش داد که وقتی از ۱۵ مسئله از نسخه ۲۰۲۴ AIME استفاده شد، OpenAI o۱ سریعتر از دیپسیک R۱ به راهحلها رسید.[۱۵]
در دسامبر ۲۰۲۴، دیپسیک-V3 معرفی شد. این مدل با ۶۷۱ میلیارد پارامتر و در مدت حدود ۵۵ روز با هزینه ۵٫۵۸ میلیون دلار آموزش داده شد و از منابع بسیار کمتری نسبت به رقبا استفاده کرد. این مدل بر روی مجموعهدادهای شامل ۱۴٫۸ تریلیون توکن آموزش دید. تستهای معیار نشان داد که عملکرد آن از لاما ۳ و Qwen 2.5 بهتر است و با چتجیپیتی ۴-o و کلود ۳٫۵ برابری میکند.
بهینهسازی دیپسیک در استفاده از منابع محدود، محدودیتهای احتمالی تحریمهای آمریکا بر توسعه هوش مصنوعی چین را نشان داد. هزینه کلی آموزش این مدل ۵٫۵۸ میلیون دلار بود و حدود دو ماه طول کشید.
این مدل یک ترکیب با ترنسفورمر است که شامل ۲۵۶ متخصص مسیردهی شده و ۱ متخصص مشترک میباشد. هر توکن ۳۷ میلیارد پارامتر را فعال میکند.
تاریخچه
در فوریه ۲۰۱۶، های-فلایر توسط لیانگ ونفنگ و دو نفر دیگر که فارغ التحصیلان دانشگاه ججیانگ بودن بنیانگذاری شد. او از زمان بحران مالی ۲۰۰۸–۲۰۰۷، همزمان با تحصیل در دانشگاه ججیانگ، در حال معامله سهام بود.[۱۶] تا سال ۲۰۱۹ او شرکت های-فلایر را به یک صندوق پوشش ریسک متمرکز بر توسعه و استفاده از الگوریتمهای معاملاتی هوش مصنوعی تبدیل کرد.
تا سال ۲۰۲۱ های-فلایر منحصراً از هوش مصنوعی در معاملات استفاده میکرد.[۱۷] دیپسیک، چتبات هوش مصنوعی مولد خود را متنباز کرد و کد آن بهصورت آزاد برای استفاده، اصلاح و مشاهده در دسترس عموم قرار داد. این شامل دسترسی و استفاده از کد منبع و همچنین اسناد طراحی نیز میشود.[۱۱]
طبق گزارش 36Kr، لیانگ پیش از اعمال محدودیتهای دولت ایالات متحده برای تراشههای هوش مصنوعی در چین، حدود دههزار انویدیا A۱00 تهیه کرده بود.[۱۷] برخی برآوردها نشان میدهد ممکن است تعداد آن به ۵۰ هزار هم برسد.[۱۶]
در آوریل ۲۰۲۳، های-فلایر یک آزمایشگاه هوش عمومی مصنوعی ایجاد کرد که روی پژوهش و توسعه ابزارهای هوش مصنوعی جدا از کسبوکار مالی های-فلایر متمرکز بود.[۱۸][۱۹]
در مه ۲۰۲۳، با همکاری یک سرمایهگذار جدید، یعنی های-فلایر، این آزمایشگاه به شرکتی مستقل تبدیل شد به نام دیپسیک.[۱۷][۲۰][۱۹] شرکتهای سرمایهگذاری خطرپذیر تمایل چندانی برای تأمین مالی از خود نشان نمیدادند، چرا که به نظر نمیرسید دیپسیک بتواند در زمان کوتاهی خروج سرمایه را مهیا کند.[۱۷]
پس از عرضه DeepSeek-V2 در مه ۲۰۲۴ که عملکرد قدرتمندی را با هزینه اندک ارائه میداد، دیپسیک بهعنوان عامل آغاز جنگ قیمتی در بازار مدلهای هوش مصنوعی چین شناخته شد. خیلی زود از آن با عنوان «پیندودوی هوش مصنوعی» یاد شد و سایر غولهای فناوری از جملهبایتدنس، تنسنت، بایدو و علیبابا بهمنظور رقابت با این شرکت، قیمت مدلهای هوش مصنوعی خود را کاهش دادند. باوجود هزینه اندکی که دیپسیک از مشتریان دریافت میکرد، همچنان سودآور بود، در حالی که رقبای آن زیانده بودند.[۲۱]
دیپسیک صرفاً بر پژوهش متمرکز است و برنامه مشخصی برای تجاریسازی ندارد؛[۲۱] این موضوع همچنین به فناوری دیپسیک اجازه میدهد از سختگیرانهترین مقررات چین در زمینه هوش مصنوعی، مانند قوانین مربوط به کنترل محتوای ارائهشده به مصرفکنندگان، تا حدی معاف بماند.[۳]
دیپسیک ترجیح میدهد که استخدامها مواکداً بر توانمندی فنی باشد، نه صرفاً سابقه کاری. در نتیجه بیشتر استخدامها یا از دانشآموختگان جدید دانشگاهها هستند یا توسعهدهندگانی با سابقه کمتر در حوزه هوش مصنوعی.[۱۹][۳] همچنین این شرکت افرادی را بدون پیشینه علمی در علوم رایانه جذب میکند تا توانایی فناوری آن در درک موضوعات و حوزههای دانشی دیگر افزایش یابد و بتواند مثلاً شعر بسراید یا در کنکور سخت دانشگاههای چین عملکرد خوبی نشان دهد.[۳]
تاریخچه انتشار محصولات
دیپسیک الالامالگو:یادچپ الگو:Anchor
در ۲ نوامبر ۲۰۲۳، دیپسیک نخستین سری مدل خود با نام الگو:Abbr الگو:یادچپ را منتشر کرد که رایگان و در دسترس پژوهشگران و کاربران تجاری قرار گرفت. کد مدل تحت پروانه امآیتی متنباز شد و برای خودِ مدل نیز، پروانه جداگانهای به نام «مجوز دیپسیک» در زمینه «استفاده آزاد و مسئولانه» اضافه شد.[۲۲]
این مدلها دارای همان معماری دیپسیک الالام هستند. این سری شامل ۸ مدل است: ۴ مدل پیشآموزششده (Base) و ۴ مدل تنظیم دقیق دستوری (Instruct) که همگی با طول متنالگو:یادچپ 16k ارائه شدهاند. مراحل آموزشی چنین بوده است:[۲۳][۲۴][۲۵]
- پیشآموزش: ۱٫۸ تریلیون توکن (۸۷٪ کد منبع، ۱۰٪ متن انگلیسی مرتبط با کد (مستندات مارکداون گیتهاب و Stack Exchange) و ۳٪ متن چینی نامرتبط با کد).
- پیشآموزش با طول متن بلند: ۲۰۰ میلیارد توکن. این مرحله طول متن را از ۴k به ۱۶k گسترش داد و مدلهای
Baseتولید شدند. - تنظیم دقیق نظارتشدهالگو:یادچپ (SFT): ۲ میلیارد توکن داده دستوری. این مرحله مدلهای
Instructرا تولید کرد.
این مدلها روی خوشهای از جیپییوهای A۱00 و H۸00 انویدیا آموزش دیدهاند که با اینفینیباند، انوی لینگ، و انوی سوئیچ به هم متصل شده بودند.[۲۳]
| الگو:Abbr. | |||||
|---|---|---|---|---|---|
| ۱.3B | ۲۴ | ۲۰۴۸ | ۵۵۰۴ | ۱۶ | ۱۶ |
| 5.7B | ۳۲ | ۴۰۹۶ | ۱۱۰۰۸ | ۳۲ | ۱ |
| 6.7B | ۳۲ | ۴۰۹۶ | ۱۱۰۰۸ | ۳۲ | ۳۲ |
| 33B | ۶۲ | ۷۱۶۸ | ۱۹۲۰۰ | ۵۶ | ۷ |
توجه کنید که تعداد سرها با تعداد سرهای KV برابر نیست (بهدلیل GQA) در مدلهای ۵٫۶ میلیاردی و ۳۳ میلیاردی
در ۲۹ نوامبر ۲۰۲۳، دیپسیک سری مدلهای دیپسیک الالام را با اندازههای ۷ میلیارد و ۶۷ میلیارد پارامتر در قالب Base و Chat (بدون Instruct) عرضه کرد. هدف آن رقابت با سایر مدلهای الالام موجود در زمان خود بود. در مقاله معرفی محصول، ادعا شد که دیپسیک در آزمونها از بیشتر مدلهای متنباز موجود در آن زمان، بهویژه لاما۲، عملکرد بهتری دارد.[۲۷] مشابه دیپسیک کدر، کد این مدلها تحت پروانه امآیتی بوده و خود مدل شامل مجوز پروانه دیپسیک است.[۲۸]
معماری دیپسیک الالام عملاً مشابه سری لاما است: ترنسفورمر رمزگشا-محور pre-LN با استفاده از RMSNorm بهعنوان روش نرمالسازی، تابع SwiGLU در پیشخور، دگرنمایی موقعیت چرخشیالگو:یادچپ (الگو:Abbr)، و grouped-query attention (GQA). هر دو مدل دارای اندازه واژگان ۱۰۲۴۰۰ و (BPE در سطح بایت) طول متن ۴۰۹۶ هستند. آموزش آنها بر روی ۲ تریلیون توکن متنی انگلیسی و چینی (با حذف تکرار) از خزنده عمومیالگو:یادچپ صورت گرفت.[۲۷]
| الگو:Abbr. | |||||
|---|---|---|---|---|---|
| 7B | ۳۰ | ۴۰۹۶ | ۱۱۰۰۸ | ۳۲ | ۳۲ |
| 67B | ۹۵ | ۸۱۹۲ | ۲۲۰۱۶ | ۶۴ | ۸ |
در مدل ۶۷ میلیاردی نیز بهدلیل GQA، تعداد سرها با تعداد سرهای KV یکسان نیست.
نسخههای Chat این دو مدل Base همزمان عرضه شدند که با تنظیم دقیق نظارتشده و سپس [[یادگیری تقویتی از بازخورد انسانی#بهینهسازی ترجیح مستقیم[ج]|بهینهسازی خطمشی مستقیم]] الگو:اختصاری از Base بهدست آمدهاند.[۲۷]
در آوریل ۲۰۲۴، سه مدل الگو:Abbr الگو:یادچپ عرضه شد که در ریاضیات تخصص داشتند: Base، Instruct و RL.
مراحل آموزشی آنها به این ترتیب بود:[۲۹]
- آغاز با مدل پیشآموزششده DeepSeek-Coder-Base-v۱٫۵ با ۷ میلیارد پارامتر.
- پیشآموزش بیشتر با استفاده از ۵۰۰ میلیارد توکن (۶٪ «مجموعه دیپسیک ریاضی»، ۴٪ «استک جبری»، ۱۰٪ دادههای آرکایو، ۲۰٪ کد گیتهاب، ۱۰٪ خزنده عمومی). خروجی این مرحله مدل
Baseبود. - آموزش یک مدل پیروی از دستورها با تنظیم دقیق نظارتشده روی ۷۷۶ هزار مسئله ریاضی بههمراه راهحلهای گامبهگام (همراه با ابزار). خروجی این مرحله مدل
Instructبود.
یادگیری تقویتی: مدل پاداش توسط یک «مدل پاداش فرایندی» در روش Math-Shepherd از Base آموزش دید.[۳۰] سپس با استفاده از همین مدل پاداش، مدل Instruct با روش جیآرپیاوالگو:یادچپ بر مجموعهای از ۱۴۴هزار پرسش ریاضی آموزش دید و مدل RL شکل گرفت.
V2
در ماه مه ۲۰۲۴، آنها سری DeepSeek-V2 را منتشر کردند. این سری شامل ۴ مدل است: ۲ مدل پایه (DeepSeek-V2، DeepSeek-V2-Lite) و ۲ چتبات (-Chat). دو مدل بزرگتر بهصورت زیر آموزش داده شدند:
- پیشآموزش بر روی مجموعه دادهای با ۸٫۱ تریلیون توکن، که در آن تعداد توکنهای چینی ۱۲٪ بیشتر از توکنهای انگلیسی است.
- افزایش طول متن از ۴ هزار به ۱۲۸ هزار با استفاده از YaRN. این منجر به مدل
DeepSeek-V2شد. - تنظیم دقیق نظارتشده با ۱٫۲ میلیون نمونه برای کمکرسانی و ۰٫۳ میلیون برای ایمنی. این منجر به
DeepSeek-V2-Chat (SFT)شد که منتشر نشد. - یادگیری تقویتی (RL) با استفاده از جیآرپیاو در دو مرحله.
- مرحله اول برای حل مسائل ریاضی و کدنویسی آموزش داده شد. در این مرحله از یک مدل پاداش استفاده شد که بر اساس بازخورد کامپایلر (برای کدنویسی) و برچسبهای واقعی (برای ریاضی) آموزش دیده بود.
- مرحله دوم برای کمکرسانی، ایمنی و پیروی از قوانین آموزش داده شد. در این مرحله از ۳ مدل پاداش استفاده شد. مدلهای پاداش کمکرسانی و ایمنی بر اساس دادههای ترجیح انسانی آموزش دیده بودند. مدل پاداش مبتنی بر قوانین بهصورت دستی برنامهریزی شده بود. همه مدلهای پاداش آموزشدیده از
DeepSeek-V2-Chat(SFT)ادامه داده شدند. این منجر به نسخه منتشرشدهDeepSeek-V2-Chatشد.
متخصصان این شرکت یادگیری تقویتی دو مرحلهای را انتخاب کردند، زیرا دریافتند که RL بر روی دادههای استدلالی دارای «ویژگیهای منحصربهفردی» است که با RL بر روی دادههای عمومی متفاوت است. بهعنوان مثال، RL بر روی استدلال میتواند با تعداد بیشتری از مراحل آموزش بهبود یابد.
دو مدل V2-Lite کوچکتر بودند و بهطور مشابه آموزش داده شدند، با این حال، مدل DeepSeek-V2-Lite-Chat تنها تحت پردازش الگو:Abbr قرار گرفت و نه RL. در ادامه، نسخه Lite را برای کمک به "تحقیقات و توسعه بیشتر در مورد MLA و DeepSeekMoE" آموزش دادند.
از نظر معماری، مدلهای V2 نسبت به سری قبلی الالام دیپسیک تغییر قابلتوجهی یافته بودند. آنها مکانیزم توجه استاندارد را با یک تقریب رتبه پایین به نام توجه نهفته چندسری (MLA) تغییر دادند و از ترکیب متخصصان (MoE) که قبلاً در ژانویه منتشر شده بود، استفاده کردند. در مقایسه با MoE استاندارد با دروازهگذاری پراکنده، این مدلهای مشتق شده دارای یک "متخصص مشترک" هستند که همیشه مورد پرسش قرار میگیرند و دیگر "متخصصان مسیردهیشده"، که ممکن است همیشه مورد پرسش قرار نگیرند.
| نام | پارامترها | پارامترهای فعال | طول بافت | |||
|---|---|---|---|---|---|---|
| V2-Lite | ۱۵٫۷ میلیارد | ۲٫۴ میلیارد | ۲۷ | ۳۲ هزار | ۲ | ۶۴ |
| V2 | ۲۳۶ میلیارد | ۲۱ میلیارد | ۶۰ | ۱۲۸ هزار | ۲ | ۱۰۸ |
فایننشال تایمز گزارش داد که این مدل در مقایسه با همتایان خود ارزانتر است و قیمت آن ۲ یوان برای هر میلیون توکن خروجی است. آزمایشگاه تایگر دانشگاه واترلو دیپسیک-V2 را در رتبه هفتم در رتبهبندی LLM خود قرار داد.
در ژوئن ۲۰۲۴، آنها ۴ مدل در سری DeepSeek-Coder-V2 منتشر کردند:
V2-BaseV2-Lite-BaseV2-InstructV2-Lite-Instruct.
این مدلها بهصورت زیر آموزش داده شدهاند:
- مدلهای
Baseاز نقاط بازرسی میانی مربوط پس از پیشآموزش بر روی ۴٫۲ تریلیون توکن (نه نسخه در پایان پیشآموزش)، مقداردهی اولیه شدند، سپس بر روی ۶ تریلیون توکن دیگر پیشآموزش داده شدند، سپس طول متن به ۱۲۸ هزار افزایش یافت. این منجر به تولید مدلهایBaseشد. DeepSeek-CoderوDeepSeek-Mathبرای تولید ۲۰ هزار داده دستورالعمل مرتبط با کد و ۳۰ هزار داده دستورالعمل مرتبط با ریاضی استفاده شدند، سپس با یک مجموعه داده دستورالعمل ۳۰۰ میلیون توکنی ترکیب شدند. این مدلها برای الگو:Abbr استفاده شدند.- RL با جیآرپیاو. پاداش برای مسائل ریاضی با مقایسه با برچسب واقعی محاسبه شد. پاداش برای مسائل کد توسط یک مدل پاداش تولید شد که برای پیشبینی اینکه آیا یک برنامه تستهای واحد را پاس میکند یا خیر، آموزش دیده بود.
DeepSeek-V2.5 در سپتامبر منتشر شد و در دسامبر بهروزرسانی شد. این مدل از ترکیب DeepSeek-V2-Chat و DeepSeek-Coder-V2-Instruct ساخته شد.
V3
در دسامبر ۲۰۲۴، شرکت دیپسیک یک مدل پایه DeepSeek-V3-Base و یک مدل چت DeepSeek-V3 منتشر کرد. معماری مدل اساساً همانند نسخه V2 است. این مدلها به این شکل آموزش داده شدند:[۳۱]
- پیشآموزش بر روی ۱۴٫۸ تریلیون توکن از یک پیکره چندزبانه، عمدتاً انگلیسی و چینی. نسبت محتوای ریاضی و برنامهنویسی در این مجموعه بیشتر از دیتاست پیشآموزش نسخه V2 بود.
- افزایش طول متن در دو مرحله از ۴هزار به ۳۲هزار و سپس به ۱۲۸هزار با استفاده از
YaRN.[۳۲] این کار منجر به تولیدDeepSeek-V3-Baseشد. - آموزش تنظیم دقیق نظارتشده به مدت ۲ دورهالگو:یادچپ بر روی ۱٫۵ میلیون نمونه داده استدلالی (ریاضی، برنامهنویسی، منطق) و غیر استدلالی (نوشتار خلاقانه، نقشآفرینی، پرسشوپاسخ ساده). دادههای استدلالی توسط «مدلهای متخصص» الگو:یادچپتولید شد. دادههای غیر استدلالی توسط
DeepSeek-V2.5ایجاد و سپس توسط انسانها بازبینی شد.- «مدلهای متخصص» با شروع از یک مدل پایه نامشخص، و سپس آموزش نظارتشده بر دادههایی با قالب
<مسئله، پاسخ اصلی>و دادههای مصنوعی با قالب<پرسش از سیستم، مسئله، پاسخ R1>تولیدشده توسط مدل داخلیDeepSeek-R1ساخته شدند. در اعلان سیستمی، بهR1دستور داده میشد در حین تفکر، بازخورد و بررسی داشته باشد. سپس مدلهای متخصص با استفاده از RL و تابع پاداش نامشخصی تقویت شدند. - هر مدل متخصص فقط برای تولید دادههای مصنوعی استدلالی در یک حوزه مشخص (ریاضی، برنامهنویسی، منطق) آموزش دیده بود.
- از مدلهای متخصص بهجای خودِ
R1استفاده شد، زیرا خروجیR1دچار «زیادهاندیشی، قالببندی ضعیف و طول متن خروجی بیشازحد» میشد.
- «مدلهای متخصص» با شروع از یک مدل پایه نامشخص، و سپس آموزش نظارتشده بر دادههایی با قالب
- الگو:Abbrالگو:یادچپ با شروع از یک الگو:Abbrالگو:یادچپ آموزش نظارتشده
V3و سپس تنظیم دقیق روی دادههای الگو:Abbrالگو:یادچپ حاوی هر دو پاداش نهایی و زنجیره تفکر منجر به آن پاداش، ساخته شدند. مدل پاداش برای پرسشهایی با پاسخ عینی اما آزاد و همچنین برای پرسشهایی بدون پاسخ عینی (مانند نوشتار خلاقانه) سیگنال پاداش تولید میکرد. - یک نقطه بازرسی آموزش نظارتشده از
V3با استفاده از روش جیآرپیاو و بهرهگیری از هر دو مدل پاداش و الگو:Abbrالگو:یادچپ آموزش دید. پاداش مبتنی بر قواعد برای مسائل ریاضی از طریق پاسخ نهایی (درون یک کادر)، و برای مسائل برنامهنویسی از طریق الگو:Abbr محاسبه میشد. این روند منجر به تولیدDeepSeek-V3شد.
| Name | الگو:Abbr | Active الگو:Abbr | Context length | |||
|---|---|---|---|---|---|---|
| V3 | 671B | 37B | ۶۱ | 128K | ۱ | ۲۵۶ |
برای دستیابی به کارایی بالاتر، مهندسی در سطح پایین را بهشکل گسترده انجام شد. آنها از محاسبات با دقتهای ناهمگون استفاده کردند. بخش زیادی از مرحله الگو:Abbr بجای قالب استاندارد ۳۲ بیتی، از اعداد ممیز شناور ۸ بیتی با قالب 5E2M (توان ۵ بیتی و الگو:Abbr ۲ بیتی) انجام شد، که نیازمند توابع ویژه GEMM (ضرب ماتریس عمومی) برای عمل جمع با دقت بالا بود. از یک قالب شناور ۱۲ بیتی (E5M6) سفارشی تنها برای ورودی لایههای خطی پس از ماژولهای توجه استفاده کردند. الگو:Abbrالگو:یادچپ در قالب ۱۶ بیتی (BF16) نگهداری میشد. برای به حداقل رساندن زمان نهفتگی در ارتباط بین پردازندههای گرافیکی، آنها همپوشانی گستردهای میان محاسبه و ارتباط ایجاد کردند. برای نمونه، تنها برای ارتباط بین جیپییوها، ۲۰ پردازنده چندجریانی از میان ۱۳۲ واحد موجود در H800 به این امر اختصاص داده شد. همچنین با تغییر مکرر (هر ۱۰ دقیقه) جای دقیق هر متخصص در ماشینها، از تمرکز پرسوجو بر برخی ماشینها کاستند، و هزینههای کمکی توزیع بار را به تابع هزینه آموزشی افزودند و از سایر تکنیکهای متعادلسازی بار بهره گرفتند.[۳۱]
پس از آموزش، این مدل روی خوشههای H800 مستقر شد. درون هر خوشه، H800ها از طریق NVLink به هم متصل شدند و خود خوشهها از طریق InfiniBand به هم وصل شوند.[۳۱]
| مرحله | هزینه (در هر هزار ساعت-GPU) | هزینه (بر حسب میلیون دلار آمریکا) |
|---|---|---|
| پیشآموزش | ۲٬۶۶۴ | ۵٫۳۲۸ |
| افزایش طول متن | ۱۱۹ | ۰٫۲۴ |
| تنظیم دقیق | ۵ | ۰٫۰۱ |
| کل هزینه | ۲٬۷۸۸ | ۵٫۵۷۶ |
آزمونهای بنچمارک نشان میدهد که دیپسیک-V3 از لاما نسخه ۳٫۱ و کوئن نسخه ۲٫۵ پیشی میگیرد و در حد جیپیتی ۴او و کلود نسخه ۳٫۵ سونت عمل میکند.[۱۹][۳۴][۳۵][۳۶]
R1
در تاریخ ۲۰ نوامبر ۲۰۲۴، مدل DeepSeek-R1-Lite-Preview از طریق واسط برنامهنویسی کاربردی دیپسیک در دسترس قرار گرفت.[۳۷] این مدل برای استنتاج منطقی، استدلال ریاضی و حل مسائل در زمان واقعی آموزش داده شده بود. شرکت دیپسیک ادعا کرد که این مدل در آزمونهای معیاری مانند آزمون ریاضی دعوتی آمریکا (AIME) و MATH عملکرد بهتری نسبت به مدل OpenAI o1 داشته است.[۳۸] با این حال، نشریه وال استریت ژورنال گزارش داد که هنگام بررسی ۱۵ مسئله از نسخه ۲۰۲۴ آزمون AIME، مدل o1 سریعتر از DeepSeek-R1-Lite-Preview به پاسخ صحیح رسید.[۳۹]
در تاریخ ۲۰ ژانویه ۲۰۲۵، دو مدل DeepSeek-R1 و DeepSeek-R1-Zero منتشر شدند.[۴۰] هر دو مدل ادامه آموزش بر روی DeepSeek-V3-Base بودند و از همان معماری بهره میبرند. علاوه بر این، شرکت دیپسیک مدلهای DeepSeek-R1-Distill را نیز منتشر کرد که برخلاف مدلهای اصلی، از V3-Base اولیهسازی نشدهاند، بلکه از مدلهای با وزن بازمانند لاما و کوئن اولیهسازی شده و سپس با دادههای مصنوعی تولیدشده توسط R1 تنظیم دقیق شدهاند.[۴۱]
مدل DeepSeek-R1-Zero بهطور انحصاری با استفاده از تقویت یادگیری با استفاده از الگو:Abbrالگو:یادچپ آموزش داده شد و از الگو:Abbr استفاده نکرد. برخلاف نسخههای قبلی، این مدل از پاداش مبتنی بر مدل استفاده نکرده و تمام تابعهای پاداش بهصورت قانونمحور بودند. دو نوع اصلی از پاداشها وجود داشت (سایر انواع مشخص نشدهاند):پاداش دقت و پاداش قالببندی (فرمت).
پاداش دقت بررسی میکرد آیا پاسخ ارائهشده در جعبه پاسخ صحیح است (برای مسائل ریاضی) یا آیا کد نوشتهشده آزمونها را با موفقیت پشت سر گذاشته است (برای برنامهنویسی).
پاداش قالببندی که بررسی میکرد آیا مدل فرایند فکری خود را درون برچسبهای ! ink | ... قرار داده است یا خیر.[۴۱]
از آنجا که مدل DeepSeek-R1-Zero در خوانایی و انسجام زبانی مشکلاتی داشت، مدل R1 برای برطرف کردن این مشکلات و بهبود استدلال آموزش داده شد:[۴۱]
- اجرای الگو:Abbr بر روی مدل
DeepSeek-V3-Baseبا استفاده از هزاران دادهٔ «آغاز سرد» که همگی در قالب استاندارد|special_token|<reasoning_process>|special_token|summary>بودند. - بهکارگیری فرایند تقویت یادگیری مشابه با R1-Zero، اما همراه با پاداش انسجام زبانی برای تشویق پاسخدهی بهصورت تکزبانه. این فرایند یک مدل داخلی تولید کرد که منتشر نشد.
- تولید ۶۰۰ هزار نمونه دادهٔ استدلالی مصنوعی از مدل داخلی، با نمونهگیری رد شده (rejection sampling) (یعنی اگر پاسخ نهایی استدلال اشتباه بود، نمونه حذف میشد). همچنین، ۲۰۰ هزار دادهٔ غیر استدلالی (مانند نگارش، پرسش و پاسخ دانشمحور، خودشناسی، و ترجمه) با استفاده از دیپسیک-V3 تولید شد.
- الگو:Abbr مدل
DeepSeek-V3-Baseبر روی ۸۰۰ هزار نمونه داده مصنوعی برای ۲ دوره. - تقویت یادگیری (GRPO RL) با استفاده از پاداش قانونمحور (برای وظایف استدلالی) و پاداش مبتنی بر مدل (برای وظایف غیر استدلالی، مفید بودن و بیضرر بودن). این فرایند مدل DeepSeek-R1 را تولید کرد.
الگو:Abbrالگو:یادچپ با SFT بر روی ۸۰۰ هزار دادهٔ مصنوعی تولیدشده از دیپسیک-R1، مشابه مرحله ۳ فوق، آموزش داده شدند. این مدلها برخلاف مدل اصلی، با تقویت یادگیری (RL) آموزش داده نشدند.[۴۱]
ارزیابی و واکنشها
دیپسیک نسخه دستیار هوش مصنوعی خود را منتشر کرد که از مدل V3 بهعنوان یک چتبات برای آیاواس و اندروید بهره میبرد. تا ۲۷ ژانویهٔ ۲۰۲۵، این اپلیکیشن در اَپاستور ایالات متحده از چتجیپیتی پیشی گرفت و بالاترین امتیاز را در میان اپلیکیشنهای رایگان کسب کرد. گفته میشود چتبات آن بر اساس آزمونهای مرجع مورد استفاده شرکتهای هوش مصنوعی آمریکایی میتواند در حد سایر چتباتهای موجود در بازار به پرسشها پاسخ دهد، مسائل منطقی را حل کند و برنامههای کامپیوتری بنویسد.[۳]
DeepSeek-V3 در مقایسه با همتایان خود بهطور قابلتوجهی از منابع کمتری استفاده میکند. برای نمونه، در حالی که شرکتهای پیشروی هوش مصنوعی جهان، چتباتهایشان را در ابررایانهها با استفاده از نزدیک به ۱۶٬۰۰۰ واحد پردازش گرافیکی یا حتی بیشتر آموزش میدهند، دیپسیک ادعا میکند تنها حدود ۲٬۰۰۰ GPU شامل چیپ سری H800 از انویدیا را به کار گرفته است.الگو:Citation needed این مدل در حدود ۵۵ روز با هزینه ۵٫۵۸ میلیون دلار آمریکا[۳۱] آموزش داده شد که تقریباً ۱۰ برابر کمتر از رقمی است که غول فناوری آمریکایی متا صرف ساخت جدیدترین فناوری هوش مصنوعیاش کرده است.[۳]
عملکرد رقابتی دیپسیک با هزینه نسبتاً پایین، به عنوان عاملی که ممکن است سلطه جهانی مدلهای هوش مصنوعی آمریکایی را به چالش بکشد، شناخته شده است.[۴۲] نشریات و رسانههای مختلف، نظیر هیل و گاردین، انتشار این چتبات را «لحظه اسپوتنیک» برای هوش مصنوعی آمریکا توصیف کردند.[۴۳][۴۴] گفته میشود عملکرد مدل R1 این شرکت، در کارهایی مانند ریاضیات، کدنویسی و استدلال زبان طبیعی، «همسطح با» یکی از جدیدترین مدلهای اوپنایآی است[۴۵] و به نقل از دیگر مفسران، سرمایهگذار خطرپذیر سیلیکونولی آمریکا، مارک آندرسن هم R1 را «لحظه اسپوتنیک هوش مصنوعی» توصیف کرده است.[۴۵]
بنیانگذار دیپسیک، لیانگ ونفِنگ، با مدیرعامل سم آلتمن در اوپنایآی مقایسه شده است. سیانان او را سم آلتمن چین و مبلّغ هوش مصنوعی خوانده است.[۴۶]

بهینهسازی منابع محدود در دیپسیک، محدودیتهای بالقوه تحریمهای آمریکا علیه توسعه هوش مصنوعی چین را برجسته کرده است که شامل محدودیتهای صادراتی بر تراشههای پیشرفته هوش مصنوعی به چین میشود.[۱۹][۴۷] موفقیت مدلهای هوش مصنوعی این شرکت بهدنبال آن «آشفتگی در بازار»[۴۸] به وجود آورد و باعث سقوط سهام شرکتهای بزرگ فناوری در ۲۷ ژانویه شد: سهام انویدیا تا حدود ۱۷–۱۸٪ افت کرد[۴۹] و سهام رقیبش برودکام نیز به همین سرنوشت دچار شد. دیگر شرکتهای فناوری نیز سقوط کردند، از جمله مایکروسافت (۲٫۵٪ کاهش)، شرکت مادر گوگل یعنی آلفابت (بیش از ۴٪ کاهش) و سازنده هلندی تجهیزات تراشه ایاسامال (بیش از ۷٪ کاهش).[۴۵] فروش گسترده سهام شرکتهای فناوری در نزدک، که با انتشار مدل R1 آغاز شد، منجر به زیان بیسابقه در حدود ۵۹۳ میلیارد دلار از ارزش بازار شرکتهای فعال در حوزه هوش مصنوعی و سختافزار کامپیوتر شد؛[۵۰] تا ۲۸ ژانویه، مجموعاً حدود یک تریلیون دلار از ارزش سهام شرکتهای آمریکایی کاسته شد.[۴۴]
چهرههای برجسته حوزه هوش مصنوعی در آمریکا نسبت به موفقیت و عملکرد دیپسیک واکنشهای متفاوتی نشان دادند.[۵۱] مدیرعامل مایکروسافت، ساتیا نادلا، و سم آلتمن (مدیرعامل اوپنایآی) — که شرکتهایشان در «پروژه استارگیت» مورد پشتیبانی دولت آمریکا برای توسعه زیرساخت هوش مصنوعی این کشور مشارکت دارند — هر دو دیپسیک را «فوقالعاده چشمگیر» خواندند.[۵۲][۵۳] رئیسجمهور آمریکا، دونالد ترامپ، که پروژه استارگیت را اعلام کرده بود، دیپسیک را زنگ بیدارباش[۵۴] و تحولی مثبت توصیف کرد.[۵۵][۴۴][۵۶][۵۷] دیگر رهبران این حوزه، از جمله مدیرعامل Scale AI الکساندر وانگ، یکی از بنیانگذاران و مدیرعامل آنتروپیک داریو آمودی، و ایلان ماسک نسبت به عملکرد این اپلیکیشن یا پایداری موفقیتش ابراز تردید کردند.[۵۱][۵۸][۵۹] شرکتهای مختلفی از جمله سرویسهای وب آمازون، تویوتا و استرایپ درصدد استفاده از این مدل در برنامههای خود هستند.[۶۰]
در ۲۷ ژانویه، دیپسیک به دنبال گزارش یک حمله سایبری که باعث کندی سرورها و سرویسهایش شد، ثبتنام کاربران جدید را صرفاً به شماره تلفنهای داخل سرزمین اصلی چین، ایمیل و ورود از طریق گوگل محدود کرد.[۶۱][۶۲]
سانسور
الگو:See also برخی منابع مشاهده کردهاند که نسخه رسمی API مدل R۱ دارای مکانیسمهای سانسور در موضوعات حساس، بهویژه موضوعاتی که برای دولت جمهوری خلق چین حساسیت دارند، است. برای نمونه، مدل از پاسخدادن دربارهٔ اعتراضات میدان تیانآنمن ۱۹۸۹، آزار اویغورها یا نقض حقوق بشر در چین امتناع میکند.[۶۳][۶۴] گاهی هوش مصنوعی در ابتدا پاسخی تولید میکند، اما اندکی بعد آن را پاک کرده و با پیامی نظیر «متأسفم، این فراتر از حیطه فعلی من است. بیایید دربارهٔ چیز دیگری صحبت کنیم.» جایگزین میکند.[۶۴] محدودیتها و مکانیسمهای سانسور در نسخه متنباز مدل R۱ فقط تا حدی قابل حذف هستند و بهمحض تماس با «ارزشهای سوسیالیستی پایه» تعیینشده توسط نهادهای ناظر اینترنتی چین یا مثلاً مطرحشدن وضعیت سیاسی تایوان، گفتوگو متوقف میشود.[۶۵] در آزمونی توسط انبیسی نیوز، R۱ دربارهٔ تایوان (جزیرهای با حاکمیت مستقل دموکراتیک) گفت که «تایوان بخشی جداییناپذیر از قلمرو چین است» و افزود: «ما قاطعانه با هر نوع فعالیت تجزیهطلبانه «استقلال تایوان» مخالفیم و متعهد به تحقق کامل اتحاد مجدد میهن از راههای مسالمتآمیز هستیم.»[۶۶]
یادداشتها
پانویس
الگو:پانویس
جستارهای وابسته
- الگو:Official website
- مجموعه مقالات دیپسیک در Hugging Face
- الگو:GitHub
- صنعت هوش مصنوعی در چین
- اوپنایآی
- ↑ الگو:Cite journal
- ↑ الگو:Cite web
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ ۳٫۵ ۳٫۶ الگو:Cite news
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ ۷٫۰ ۷٫۱ الگو:Cite news
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ ۱۱٫۰ ۱۱٫۱ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ title=The Chinese quant fund-turned-AI pioneer |url=https://www.ft.com/content/357f3c68-b866-4c2e-b678-0d075051a260
- ↑ {{Cite web |last=Huang |first=Raffaele |date=24 December 2024 |title=Don't Look Now, but China's AI Is Catching Up Fast |url=https://www.wsj.com/tech/ai/china-ai-advances-us-chips-7838fd20 |access-date=28 December 2024 |website=The Wall Street Journal
- ↑ ۱۶٫۰ ۱۶٫۱ الگو:Cite web
- ↑ ۱۷٫۰ ۱۷٫۱ ۱۷٫۲ ۱۷٫۳ الگو:Cite web
- ↑ الگو:Cite web
- ↑ ۱۹٫۰ ۱۹٫۱ ۱۹٫۲ ۱۹٫۳ ۱۹٫۴ الگو:Cite web
- ↑ الگو:Cite news
- ↑ ۲۱٫۰ ۲۱٫۱ الگو:Cite web
- ↑ الگو:Cite web
- ↑ ۲۳٫۰ ۲۳٫۱ ۲۳٫۲ الگو:Citation
- ↑ الگو:Cite web
- ↑ الگو:Citation
- ↑ الگو:Cite web
- ↑ ۲۷٫۰ ۲۷٫۱ ۲۷٫۲ ۲۷٫۳ الگو:Citation
- ↑ الگو:Citation
- ↑ الگو:Citation
- ↑ الگو:Citation
- ↑ ۳۱٫۰ ۳۱٫۱ ۳۱٫۲ ۳۱٫۳ ۳۱٫۴ ۳۱٫۵ الگو:Citation
- ↑ خطای یادکرد: برچسب
<ref>نامعتبر؛ متنی برای ارجاعهای با نام:۱۰وارد نشده است - ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ ۴۱٫۰ ۴۱٫۱ ۴۱٫۲ ۴۱٫۳ الگو:Citation
- ↑ الگو:Cite news
- ↑ الگو:Cite news
- ↑ ۴۴٫۰ ۴۴٫۱ ۴۴٫۲ الگو:Cite web
- ↑ ۴۵٫۰ ۴۵٫۱ ۴۵٫۲ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite news
- ↑ الگو:Cite web
- ↑ ۵۱٫۰ ۵۱٫۱ الگو:Cite magazine
- ↑ الگو:Cite web
- ↑ الگو:Cite news
- ↑ الگو:Cite news
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite news
- ↑ الگو:Cite web
- ↑ الگو:Cite news
- ↑ ۶۴٫۰ ۶۴٫۱ الگو:Cite web
- ↑ الگو:Cite news
- ↑ الگو:Cite web