دیپ‌سیک

از testwiki
پرش به ناوبری پرش به جستجو

الگو:Short description الگو:Infobox company

دیپ‌سیک الگو:به انگلیسی(الگو:Lang-zh) یک شرکت هوش مصنوعی چینی است که مدل‌های زبانی بزرگ متن‌باز را توسعه می‌دهد. دفتر اصلی این شرکت در هانگژو، ژجیانگ مستقر است و مالکیت و تأمین مالی آن منحصراً برعهده شرکت های-فلایرالگو:یادچپ است که یک صندوق پوشش ریسک چینی است و یکی از بنیان‌گذاران آن، لیانگ ونفنگ، در سال ۲۰۲۳ این شرکت را تأسیس کرده و خودش نیز به‌عنوان مدیرعامل فعالیت می‌کند.

دیپ‌سیک قادر است وظایف استدلالی را به خوبی چت‌جی‌پی‌تی[۱] انجام دهد، با این حال طبق مقاله ارائه شده خود شرکت، هزینه توسعه آن به مراتب و منابع مصرفی‌اش نیز کمتر بوده است.[۲][۳][۴] این مدل هوش مصنوعی در شرایطی توسط دیپ‌سیک توسعه یافت که ایالات متحده آمریکا برای محدود کردن توانایی چین در توسعه سامانه‌های هوش مصنوعی پیشرفته، بر روی تراشه‌های انویدیا تحریم‌هایی اعمال کرده بود.[۵][۶] در ۱۰ ژانویه ۲۰۲۵، این شرکت نخستین چت‌بات رایگان خود را منتشر کرد که تا ۲۷ ژانویه در اپ استور سیستم عامل iOS ایالات متحده جایگزین چت‌جی‌پی‌تی شد و تبدیل به پردانلودترین اپ رایگان گردید،[۷] و باعث شد ارزش سهام انویدیا ۱۸٪ افت کند.[۸][۹][۱۰]

دیپ‌سیک چت‌بات هوش مصنوعی مولد خود را متن‌باز کرده است. بدین معنی که کد آن برای استفاده، اصلاح و مشاهده در دسترس قرار دارد و همچنین دسترسی به کد منبع و اسناد طراحی به‌منظور ساخت و توسعه مهیا است.[۱۱] این شرکت پژوهشگران جوان هوش مصنوعی را از برترین دانشگاه‌های چین جذب می‌کند،[۷] و حتی افرادی را در خارج از حوزه علوم رایانه استخدام می‌کند تا دانش و توانایی مدل‌هایش در حوزه‌های گوناگون گسترش یابد.[۳]

تاریخچه

در ۲ نوامبر ۲۰۲۳، دیپ‌سیک اولین مدل خود با نام دیپ‌سیک کدرالگو:یادچپ را معرفی کرد که برای استفاده تجاری رایگان و به‌طور کامل متن‌باز بود.[۱۲]

در ۲۹ نوامبر ۲۰۲۳، دیپ‌سیک مدل زبانی بزرگ خود با نام دیپ‌سیک اِل‌اِل‌ام را راه‌اندازی کرد که تا ۶۷ میلیارد پارامتر مقیاس‌پذیری داشت. این مدل برای رقابت با دیگر مدل‌های زبانی بزرگ آن زمان توسعه یافت و عملکردی نزدیک به GPT-۴ داشت. البته، این مدل با چالش‌هایی در زمینه کارایی محاسباتی و مقیاس‌پذیری روبرو بود. نسخه‌ای چت‌محور از این مدل نیز با نام دیپ‌سیک چتالگو:یادچپ منتشر شد.[۱۳]

در ۹ می ۲۰۲۴، دیپ‌سیک-V2 معرفی شد. فایننشال تایمز گزارش داد که این مدل در مقایسه با رقبا ارزان‌تر بود و هزینه آن ۲ یوان برای هر میلیون توکن خروجی تعیین شده بود. رهبران آزمایشگاه تایگر دانشگاه واترلو، دیپ‌سیک-V2 را در رتبهٔ هفتم در رده‌بندی مدل‌های زبانی بزرگ قرار دادند.[۱۴]

در نوامبر ۲۰۲۴، دیپ‌سیک R1-Lite منتشر شد که برای انجام وظایفی مانند استنتاج منطقی، استدلال ریاضی و حل مسئله در زمان واقعی طراحی شده بود. دیپ‌سیک ادعا کرد که این مدل در معیارهایی مانند شعر، AIME و ریاضیات، عملکرد بهتری نسبت به OpenAI o۱ دارد. با این حال، وال استریت ژورنال گزارش داد که وقتی از ۱۵ مسئله از نسخه ۲۰۲۴ AIME استفاده شد، OpenAI o۱ سریع‌تر از دیپ‌سیک R۱ به راه‌حل‌ها رسید.[۱۵]

در دسامبر ۲۰۲۴، دیپ‌سیک-V3 معرفی شد. این مدل با ۶۷۱ میلیارد پارامتر و در مدت حدود ۵۵ روز با هزینه ۵٫۵۸ میلیون دلار آموزش داده شد و از منابع بسیار کم‌تری نسبت به رقبا استفاده کرد. این مدل بر روی مجموعه‌داده‌ای شامل ۱۴٫۸ تریلیون توکن آموزش دید. تست‌های معیار نشان داد که عملکرد آن از لاما ۳ و Qwen 2.5 بهتر است و با چت‌جی‌پی‌تی ۴-o و کلود ۳٫۵ برابری می‌کند.

بهینه‌سازی دیپ‌سیک در استفاده از منابع محدود، محدودیت‌های احتمالی تحریم‌های آمریکا بر توسعه هوش مصنوعی چین را نشان داد. هزینه کلی آموزش این مدل ۵٫۵۸ میلیون دلار بود و حدود دو ماه طول کشید.

این مدل یک ترکیب با ترنسفورمر است که شامل ۲۵۶ متخصص مسیردهی شده و ۱ متخصص مشترک می‌باشد. هر توکن ۳۷ میلیارد پارامتر را فعال می‌کند.

تاریخچه

در فوریه ۲۰۱۶، های-فلایر توسط لیانگ ونفنگ و دو نفر دیگر که فارغ التحصیلان دانشگاه ججیانگ بودن بنیان‌گذاری شد. او از زمان بحران مالی ۲۰۰۸–۲۰۰۷، هم‌زمان با تحصیل در دانشگاه ججیانگ، در حال معامله سهام بود.[۱۶] تا سال ۲۰۱۹ او شرکت های-فلایر را به یک صندوق پوشش ریسک متمرکز بر توسعه و استفاده از الگوریتم‌های معاملاتی هوش مصنوعی تبدیل کرد.

تا سال ۲۰۲۱ های-فلایر منحصراً از هوش مصنوعی در معاملات استفاده می‌کرد.[۱۷] دیپ‌سیک، چت‌بات هوش مصنوعی مولد خود را متن‌باز کرد و کد آن به‌صورت آزاد برای استفاده، اصلاح و مشاهده در دسترس عموم قرار داد. این شامل دسترسی و استفاده از کد منبع و همچنین اسناد طراحی نیز می‌شود.[۱۱]

طبق گزارش 36Kr، لیانگ پیش از اعمال محدودیت‌های دولت ایالات متحده برای تراشه‌های هوش مصنوعی در چین، حدود ده‌هزار انویدیا A۱00 تهیه کرده بود.[۱۷] برخی برآوردها نشان می‌دهد ممکن است تعداد آن به ۵۰ هزار هم برسد.[۱۶]

در آوریل ۲۰۲۳، های-فلایر یک آزمایشگاه هوش عمومی مصنوعی ایجاد کرد که روی پژوهش و توسعه ابزارهای هوش مصنوعی جدا از کسب‌وکار مالی های-فلایر متمرکز بود.[۱۸][۱۹]

در مه ۲۰۲۳، با همکاری یک سرمایه‌گذار جدید، یعنی های-فلایر، این آزمایشگاه به شرکتی مستقل تبدیل شد به نام دیپ‌سیک.[۱۷][۲۰][۱۹] شرکت‌های سرمایه‌گذاری خطرپذیر تمایل چندانی برای تأمین مالی از خود نشان نمی‌دادند، چرا که به نظر نمی‌رسید دیپ‌سیک بتواند در زمان کوتاهی خروج سرمایه را مهیا کند.[۱۷]

پس از عرضه DeepSeek-V2 در مه ۲۰۲۴ که عملکرد قدرتمندی را با هزینه اندک ارائه می‌داد، دیپ‌سیک به‌عنوان عامل آغاز جنگ قیمتی در بازار مدل‌های هوش مصنوعی چین شناخته شد. خیلی زود از آن با عنوان «پین‌دودوی هوش مصنوعی» یاد شد و سایر غول‌های فناوری از جملهبایت‌دنس، تنسنت، بایدو و علی‌بابا به‌منظور رقابت با این شرکت، قیمت مدل‌های هوش مصنوعی خود را کاهش دادند. باوجود هزینه اندکی که دیپ‌سیک از مشتریان دریافت می‌کرد، همچنان سودآور بود، در حالی که رقبای آن زیان‌ده بودند.[۲۱]

دیپ‌سیک صرفاً بر پژوهش متمرکز است و برنامه مشخصی برای تجاری‌سازی ندارد؛[۲۱] این موضوع همچنین به فناوری دیپ‌سیک اجازه می‌دهد از سخت‌گیرانه‌ترین مقررات چین در زمینه هوش مصنوعی، مانند قوانین مربوط به کنترل محتوای ارائه‌شده به مصرف‌کنندگان، تا حدی معاف بماند.[۳]

دیپ‌سیک ترجیح می‌دهد که استخدام‌ها مواکداً بر توانمندی فنی باشد، نه صرفاً سابقه کاری. در نتیجه بیشتر استخدام‌ها یا از دانش‌آموختگان جدید دانشگاه‌ها هستند یا توسعه‌دهندگانی با سابقه کمتر در حوزه هوش مصنوعی.[۱۹][۳] همچنین این شرکت افرادی را بدون پیشینه علمی در علوم رایانه جذب می‌کند تا توانایی فناوری آن در درک موضوعات و حوزه‌های دانشی دیگر افزایش یابد و بتواند مثلاً شعر بسراید یا در کنکور سخت دانشگاه‌های چین عملکرد خوبی نشان دهد.[۳]

تاریخچه انتشار محصولات

دیپ‌سیک ال‌ال‌امالگو:یادچپ الگو:Anchor

در ۲ نوامبر ۲۰۲۳، دیپ‌سیک نخستین سری مدل خود با نام الگو:Abbr الگو:یادچپ را منتشر کرد که رایگان و در دسترس پژوهشگران و کاربران تجاری قرار گرفت. کد مدل تحت پروانه ام‌آی‌تی متن‌باز شد و برای خودِ مدل نیز، پروانه جداگانه‌ای به نام «مجوز دیپ‌سیک» در زمینه «استفاده آزاد و مسئولانه» اضافه شد.[۲۲]

این مدل‌ها دارای همان معماری دیپ‌سیک ال‌ال‌ام هستند. این سری شامل ۸ مدل است: ۴ مدل پیش‌آموزش‌شده (Base) و ۴ مدل تنظیم دقیق دستوری (Instruct) که همگی با طول متنالگو:یادچپ 16k ارائه شده‌اند. مراحل آموزشی چنین بوده است:[۲۳][۲۴][۲۵]

  1. پیش‌آموزش: ۱٫۸ تریلیون توکن (۸۷٪ کد منبع، ۱۰٪ متن انگلیسی مرتبط با کد (مستندات مارک‌داون گیت‌هاب و Stack Exchange) و ۳٪ متن چینی نامرتبط با کد).
  2. پیش‌آموزش با طول متن بلند: ۲۰۰ میلیارد توکن. این مرحله طول متن را از ۴k به ۱۶k گسترش داد و مدل‌های Base تولید شدند.
  3. تنظیم دقیق نظارت‌شدهالگو:یادچپ (SFT): ۲ میلیارد توکن داده دستوری. این مرحله مدل‌های Instruct را تولید کرد.

این مدل‌ها روی خوشه‌ای از جی‌پی‌یوهای A۱00 و H۸00 انویدیا آموزش دیده‌اند که با اینفینی‌باند، ان‌وی لینگ، و ان‌وی سوئیچ به هم متصل شده بودند.[۲۳]

مشخصات کدگذار دیپ‌سیک[۲۳][۲۶]
الگو:Abbr. nlayers dmodel dintermediate nheads nkv-heads
۱.3B ۲۴ ۲۰۴۸ ۵۵۰۴ ۱۶ ۱۶
5.7B ۳۲ ۴۰۹۶ ۱۱۰۰۸ ۳۲ ۱
6.7B ۳۲ ۴۰۹۶ ۱۱۰۰۸ ۳۲ ۳۲
33B ۶۲ ۷۱۶۸ ۱۹۲۰۰ ۵۶ ۷

توجه کنید که تعداد سرها با تعداد سرهای KV برابر نیست (به‌دلیل GQA) در مدل‌های ۵٫۶ میلیاردی و ۳۳ میلیاردی

در ۲۹ نوامبر ۲۰۲۳، دیپ‌سیک سری مدل‌های دیپ‌سیک ال‌ال‌ام را با اندازه‌های ۷ میلیارد و ۶۷ میلیارد پارامتر در قالب Base و Chat (بدون Instruct) عرضه کرد. هدف آن رقابت با سایر مدل‌های ال‌ال‌ام موجود در زمان خود بود. در مقاله معرفی محصول، ادعا شد که دیپ‌سیک در آزمون‌ها از بیشتر مدل‌های متن‌باز موجود در آن زمان، به‌ویژه لاما۲، عملکرد بهتری دارد.[۲۷] مشابه دیپ‌سیک کدر، کد این مدل‌ها تحت پروانه ام‌آی‌تی بوده و خود مدل شامل مجوز پروانه دیپ‌سیک است.[۲۸]

معماری دیپ‌سیک ال‌ال‌ام عملاً مشابه سری لاما است: ترنسفورمر رمزگشا-محور pre-LN با استفاده از RMSNorm به‌عنوان روش نرمال‌سازی، تابع SwiGLU در پیشخور، دگرنمایی موقعیت چرخشیالگو:یادچپ (الگو:Abbr)، و grouped-query attention (GQA). هر دو مدل دارای اندازه واژگان ۱۰۲۴۰۰ و (BPE در سطح بایت) طول متن ۴۰۹۶ هستند. آموزش آن‌ها بر روی ۲ تریلیون توکن متنی انگلیسی و چینی (با حذف تکرار) از خزنده عمومیالگو:یادچپ صورت گرفت.[۲۷]

مشخصات کدگذار دیپ‌سیک[۲۷]
الگو:Abbr. nlayers dmodel dintermediate nheads nkv-heads
7B ۳۰ ۴۰۹۶ ۱۱۰۰۸ ۳۲ ۳۲
67B ۹۵ ۸۱۹۲ ۲۲۰۱۶ ۶۴ ۸

در مدل ۶۷ میلیاردی نیز به‌دلیل GQA، تعداد سرها با تعداد سرهای KV یکسان نیست.

نسخه‌های Chat این دو مدل Base هم‌زمان عرضه شدند که با تنظیم دقیق نظارت‌شده و سپس [[یادگیری تقویتی از بازخورد انسانی#بهینه‌سازی ترجیح مستقیم[ج]|بهینه‌سازی خط‌مشی مستقیم]] الگو:اختصاری از Base به‌دست آمده‌اند.[۲۷]

در آوریل ۲۰۲۴، سه مدل الگو:Abbr الگو:یادچپ عرضه شد که در ریاضیات تخصص داشتند: Base، Instruct و RL.

مراحل آموزشی آن‌ها به این ترتیب بود:[۲۹]

  1. آغاز با مدل پیش‌آموزش‌شده DeepSeek-Coder-Base-v۱٫۵ با ۷ میلیارد پارامتر.
  2. پیش‌آموزش بیشتر با استفاده از ۵۰۰ میلیارد توکن (۶٪ «مجموعه دیپ‌سیک ریاضی»، ۴٪ «استک جبری»، ۱۰٪ داده‌های آرکایو، ۲۰٪ کد گیت‌هاب، ۱۰٪ خزنده عمومی). خروجی این مرحله مدل Base بود.
  3. آموزش یک مدل پیروی از دستورها با تنظیم دقیق نظارت‌شده روی ۷۷۶ هزار مسئله ریاضی به‌همراه راه‌حل‌های گام‌به‌گام (همراه با ابزار). خروجی این مرحله مدل Instruct بود.

یادگیری تقویتی: مدل پاداش توسط یک «مدل پاداش فرایندی» در روش Math-Shepherd از Base آموزش دید.[۳۰] سپس با استفاده از همین مدل پاداش، مدل Instruct با روش جی‌آرپی‌اوالگو:یادچپ بر مجموعه‌ای از ۱۴۴هزار پرسش ریاضی آموزش دید و مدل RL شکل گرفت.

V2

در ماه مه ۲۰۲۴، آن‌ها سری DeepSeek-V2 را منتشر کردند. این سری شامل ۴ مدل است: ۲ مدل پایه (DeepSeek-V2، DeepSeek-V2-Lite) و ۲ چت‌بات (-Chat). دو مدل بزرگ‌تر به‌صورت زیر آموزش داده شدند:

  1. پیش‌آموزش بر روی مجموعه داده‌ای با ۸٫۱ تریلیون توکن، که در آن تعداد توکن‌های چینی ۱۲٪ بیشتر از توکن‌های انگلیسی است.
  2. افزایش طول متن از ۴ هزار به ۱۲۸ هزار با استفاده از YaRN. این منجر به مدل DeepSeek-V2 شد.
  3. تنظیم دقیق نظارت‌شده با ۱٫۲ میلیون نمونه برای کمک‌رسانی و ۰٫۳ میلیون برای ایمنی. این منجر به DeepSeek-V2-Chat (SFT) شد که منتشر نشد.
  4. یادگیری تقویتی (RL) با استفاده از جی‌آرپی‌او در دو مرحله.
    1. مرحله اول برای حل مسائل ریاضی و کدنویسی آموزش داده شد. در این مرحله از یک مدل پاداش استفاده شد که بر اساس بازخورد کامپایلر (برای کدنویسی) و برچسب‌های واقعی (برای ریاضی) آموزش دیده بود.
    2. مرحله دوم برای کمک‌رسانی، ایمنی و پیروی از قوانین آموزش داده شد. در این مرحله از ۳ مدل پاداش استفاده شد. مدل‌های پاداش کمک‌رسانی و ایمنی بر اساس داده‌های ترجیح انسانی آموزش دیده بودند. مدل پاداش مبتنی بر قوانین به‌صورت دستی برنامه‌ریزی شده بود. همه مدل‌های پاداش آموزش‌دیده از DeepSeek-V2-Chat(SFT) ادامه داده شدند. این منجر به نسخه منتشرشده DeepSeek-V2-Chat شد.

متخصصان این شرکت یادگیری تقویتی دو مرحله‌ای را انتخاب کردند، زیرا دریافتند که RL بر روی داده‌های استدلالی دارای «ویژگی‌های منحصربه‌فردی» است که با RL بر روی داده‌های عمومی متفاوت است. به‌عنوان مثال، RL بر روی استدلال می‌تواند با تعداد بیشتری از مراحل آموزش بهبود یابد.

دو مدل V2-Lite کوچک‌تر بودند و به‌طور مشابه آموزش داده شدند، با این حال، مدل DeepSeek-V2-Lite-Chat تنها تحت پردازش الگو:Abbr قرار گرفت و نه RL. در ادامه، نسخه Lite را برای کمک به "تحقیقات و توسعه بیشتر در مورد MLA و DeepSeekMoE" آموزش دادند.

از نظر معماری، مدل‌های V2 نسبت به سری قبلی ال‌ال‌ام دیپ‌سیک تغییر قابل‌توجهی یافته بودند. آن‌ها مکانیزم توجه استاندارد را با یک تقریب رتبه پایین به نام توجه نهفته چندسری (MLA) تغییر دادند و از ترکیب متخصصان (MoE) که قبلاً در ژانویه منتشر شده بود، استفاده کردند. در مقایسه با MoE استاندارد با دروازه‌گذاری پراکنده، این مدل‌های مشتق شده دارای یک "متخصص مشترک" هستند که همیشه مورد پرسش قرار می‌گیرند و دیگر "متخصصان مسیردهی‌شده"، که ممکن است همیشه مورد پرسش قرار نگیرند.

ویژگی‌های DeepSeek V2
نام پارامترها پارامترهای فعال nlayers طول بافت nshared experts nrouted experts
V2-Lite ۱۵٫۷ میلیارد ۲٫۴ میلیارد ۲۷ ۳۲ هزار ۲ ۶۴
V2 ۲۳۶ میلیارد ۲۱ میلیارد ۶۰ ۱۲۸ هزار ۲ ۱۰۸

فایننشال تایمز گزارش داد که این مدل در مقایسه با همتایان خود ارزان‌تر است و قیمت آن ۲ یوان برای هر میلیون توکن خروجی است. آزمایشگاه تایگر دانشگاه واترلو دیپ‌سیک-V2 را در رتبه هفتم در رتبه‌بندی LLM خود قرار داد.

در ژوئن ۲۰۲۴، آن‌ها ۴ مدل در سری DeepSeek-Coder-V2 منتشر کردند:

  • V2-Base
  • V2-Lite-Base
  • V2-Instruct
  • V2-Lite-Instruct.

این مدل‌ها به‌صورت زیر آموزش داده شده‌اند:

  1. مدل‌های Base از نقاط بازرسی میانی مربوط پس از پیش‌آموزش بر روی ۴٫۲ تریلیون توکن (نه نسخه در پایان پیش‌آموزش)، مقداردهی اولیه شدند، سپس بر روی ۶ تریلیون توکن دیگر پیش‌آموزش داده شدند، سپس طول متن به ۱۲۸ هزار افزایش یافت. این منجر به تولید مدل‌های Base شد.
  2. DeepSeek-Coder و DeepSeek-Math برای تولید ۲۰ هزار داده دستورالعمل مرتبط با کد و ۳۰ هزار داده دستورالعمل مرتبط با ریاضی استفاده شدند، سپس با یک مجموعه داده دستورالعمل ۳۰۰ میلیون توکنی ترکیب شدند. این مدل‌ها برای الگو:Abbr استفاده شدند.
  3. RL با جی‌آرپی‌او. پاداش برای مسائل ریاضی با مقایسه با برچسب واقعی محاسبه شد. پاداش برای مسائل کد توسط یک مدل پاداش تولید شد که برای پیش‌بینی اینکه آیا یک برنامه تست‌های واحد را پاس می‌کند یا خیر، آموزش دیده بود.

DeepSeek-V2.5 در سپتامبر منتشر شد و در دسامبر به‌روزرسانی شد. این مدل از ترکیب DeepSeek-V2-Chat و DeepSeek-Coder-V2-Instruct ساخته شد.

V3

در دسامبر ۲۰۲۴، شرکت دیپ‌سیک یک مدل پایه DeepSeek-V3-Base و یک مدل چت DeepSeek-V3 منتشر کرد. معماری مدل اساساً همانند نسخه V2 است. این مدل‌ها به این شکل آموزش داده شدند:[۳۱]

  1. پیش‌آموزش بر روی ۱۴٫۸ تریلیون توکن از یک پیکره چندزبانه، عمدتاً انگلیسی و چینی. نسبت محتوای ریاضی و برنامه‌نویسی در این مجموعه بیشتر از دیتاست پیش‌آموزش نسخه V2 بود.
  2. افزایش طول متن در دو مرحله از ۴هزار به ۳۲هزار و سپس به ۱۲۸هزار با استفاده از YaRN.[۳۲] این کار منجر به تولید DeepSeek-V3-Base شد.
  3. آموزش تنظیم دقیق نظارت‌شده به مدت ۲ دورهالگو:یادچپ بر روی ۱٫۵ میلیون نمونه داده استدلالی (ریاضی، برنامه‌نویسی، منطق) و غیر استدلالی (نوشتار خلاقانه، نقش‌آفرینی، پرسش‌وپاسخ ساده). داده‌های استدلالی توسط «مدل‌های متخصص» الگو:یادچپتولید شد. داده‌های غیر استدلالی توسط DeepSeek-V2.5 ایجاد و سپس توسط انسان‌ها بازبینی شد.
    • «مدل‌های متخصص» با شروع از یک مدل پایه نامشخص، و سپس آموزش نظارت‌شده بر داده‌هایی با قالب <مسئله، پاسخ اصلی> و داده‌های مصنوعی با قالب <پرسش از سیستم، مسئله، پاسخ R1> تولیدشده توسط مدل داخلی DeepSeek-R1 ساخته شدند. در اعلان سیستمی، به R1 دستور داده می‌شد در حین تفکر، بازخورد و بررسی داشته باشد. سپس مدل‌های متخصص با استفاده از RL و تابع پاداش نامشخصی تقویت شدند.
    • هر مدل متخصص فقط برای تولید داده‌های مصنوعی استدلالی در یک حوزه مشخص (ریاضی، برنامه‌نویسی، منطق) آموزش دیده بود.
    • از مدل‌های متخصص به‌جای خودِ R1 استفاده شد، زیرا خروجی R1 دچار «زیاده‌اندیشی، قالب‌بندی ضعیف و طول متن خروجی بیش‌ازحد» می‌شد.
  4. الگو:Abbrالگو:یادچپ با شروع از یک الگو:Abbrالگو:یادچپ آموزش نظارت‌شده V3 و سپس تنظیم دقیق روی داده‌های الگو:Abbrالگو:یادچپ حاوی هر دو پاداش نهایی و زنجیره تفکر منجر به آن پاداش، ساخته شدند. مدل پاداش برای پرسش‌هایی با پاسخ عینی اما آزاد و همچنین برای پرسش‌هایی بدون پاسخ عینی (مانند نوشتار خلاقانه) سیگنال پاداش تولید می‌کرد.
  5. یک نقطه بازرسی آموزش نظارت‌شده از V3 با استفاده از روش جی‌آرپی‌او و بهره‌گیری از هر دو مدل پاداش و الگو:Abbrالگو:یادچپ آموزش دید. پاداش مبتنی بر قواعد برای مسائل ریاضی از طریق پاسخ نهایی (درون یک کادر)، و برای مسائل برنامه‌نویسی از طریق الگو:Abbr محاسبه می‌شد. این روند منجر به تولید DeepSeek-V3 شد.
ویژگی‌های DeepSeek V3[۳۱][۳۳]
Name الگو:Abbr Active الگو:Abbr nlayers Context length nshared experts nrouted experts
V3 671B 37B ۶۱ 128K ۱ ۲۵۶

برای دستیابی به کارایی بالاتر، مهندسی در سطح پایین را به‌شکل گسترده انجام شد. آنها از محاسبات با دقت‌های ناهمگون استفاده کردند. بخش زیادی از مرحله الگو:Abbr بجای قالب استاندارد ۳۲ بیتی، از اعداد ممیز شناور ۸ بیتی با قالب 5E2M (توان ۵ بیتی و الگو:Abbr ۲ بیتی) انجام شد، که نیازمند توابع ویژه GEMM (ضرب ماتریس عمومی) برای عمل جمع با دقت بالا بود. از یک قالب شناور ۱۲ بیتی (E5M6) سفارشی تنها برای ورودی لایه‌های خطی پس از ماژول‌های توجه استفاده کردند. الگو:Abbrالگو:یادچپ در قالب ۱۶ بیتی (BF16) نگهداری می‌شد. برای به حداقل رساندن زمان نهفتگی در ارتباط بین پردازنده‌های گرافیکی، آن‌ها هم‌پوشانی گسترده‌ای میان محاسبه و ارتباط ایجاد کردند. برای نمونه، تنها برای ارتباط بین جی‌پی‌یوها، ۲۰ پردازنده چندجریانی از میان ۱۳۲ واحد موجود در H800 به این امر اختصاص داده شد. همچنین با تغییر مکرر (هر ۱۰ دقیقه) جای دقیق هر متخصص در ماشین‌ها، از تمرکز پرس‌وجو بر برخی ماشین‌ها کاستند، و هزینه‌های کمکی توزیع بار را به تابع هزینه آموزشی افزودند و از سایر تکنیک‌های متعادل‌سازی بار بهره گرفتند.[۳۱]

پس از آموزش، این مدل روی خوشه‌های H800 مستقر شد. درون هر خوشه، H800ها از طریق NVLink به هم متصل شدند و خود خوشه‌ها از طریق InfiniBand به هم وصل شوند.[۳۱]

هزینه آموزش مدل دیپ‌سیک-V3[۳۱]
مرحله هزینه (در هر هزار ساعت-GPU) هزینه (بر حسب میلیون دلار آمریکا)
پیش‌آموزش ۲٬۶۶۴ ۵٫۳۲۸
افزایش طول متن ۱۱۹ ۰٫۲۴
تنظیم دقیق ۵ ۰٫۰۱
کل هزینه ۲٬۷۸۸ ۵٫۵۷۶

آزمون‌های بنچمارک نشان می‌دهد که دیپ‌سیک-V3 از لاما نسخه ۳٫۱ و کوئن نسخه ۲٫۵ پیشی می‌گیرد و در حد جی‌پی‌تی ۴او و کلود نسخه ۳٫۵ سونت عمل می‌کند.[۱۹][۳۴][۳۵][۳۶]

R1

در تاریخ ۲۰ نوامبر ۲۰۲۴، مدل DeepSeek-R1-Lite-Preview از طریق واسط برنامه‌نویسی کاربردی دیپ‌سیک در دسترس قرار گرفت.[۳۷] این مدل برای استنتاج منطقی، استدلال ریاضی و حل مسائل در زمان واقعی آموزش داده شده بود. شرکت دیپ‌سیک ادعا کرد که این مدل در آزمون‌های معیاری مانند آزمون ریاضی دعوتی آمریکا (AIME) و MATH عملکرد بهتری نسبت به مدل OpenAI o1 داشته است.[۳۸] با این حال، نشریه وال استریت ژورنال گزارش داد که هنگام بررسی ۱۵ مسئله از نسخه ۲۰۲۴ آزمون AIME، مدل o1 سریع‌تر از DeepSeek-R1-Lite-Preview به پاسخ صحیح رسید.[۳۹]

در تاریخ ۲۰ ژانویه ۲۰۲۵، دو مدل DeepSeek-R1 و DeepSeek-R1-Zero منتشر شدند.[۴۰] هر دو مدل ادامه آموزش بر روی DeepSeek-V3-Base بودند و از همان معماری بهره می‌برند. علاوه بر این، شرکت دیپ‌سیک مدل‌های DeepSeek-R1-Distill را نیز منتشر کرد که برخلاف مدل‌های اصلی، از V3-Base اولیه‌سازی نشده‌اند، بلکه از مدل‌های با وزن بازمانند لاما و کوئن اولیه‌سازی شده و سپس با داده‌های مصنوعی تولیدشده توسط R1 تنظیم دقیق شده‌اند.[۴۱]

الگو:Quote box

مدل DeepSeek-R1-Zero به‌طور انحصاری با استفاده از تقویت یادگیری با استفاده از الگو:Abbrالگو:یادچپ آموزش داده شد و از الگو:Abbr استفاده نکرد. برخلاف نسخه‌های قبلی، این مدل از پاداش مبتنی بر مدل استفاده نکرده و تمام تابع‌های پاداش به‌صورت قانون‌محور بودند. دو نوع اصلی از پاداش‌ها وجود داشت (سایر انواع مشخص نشده‌اند):پاداش دقت و پاداش قالب‌بندی (فرمت).

پاداش دقت بررسی می‌کرد آیا پاسخ ارائه‌شده در جعبه پاسخ صحیح است (برای مسائل ریاضی) یا آیا کد نوشته‌شده آزمون‌ها را با موفقیت پشت سر گذاشته است (برای برنامه‌نویسی).

پاداش قالب‌بندی که بررسی می‌کرد آیا مدل فرایند فکری خود را درون برچسب‌های ! ink | ... قرار داده است یا خیر.[۴۱]

از آنجا که مدل DeepSeek-R1-Zero در خوانایی و انسجام زبانی مشکلاتی داشت، مدل R1 برای برطرف کردن این مشکلات و بهبود استدلال آموزش داده شد:[۴۱]

  1. اجرای الگو:Abbr بر روی مدل DeepSeek-V3-Base با استفاده از هزاران دادهٔ «آغاز سرد» که همگی در قالب استاندارد |special_token|<reasoning_process>|special_token|summary> بودند.
  2. به‌کارگیری فرایند تقویت یادگیری مشابه با R1-Zero، اما همراه با پاداش انسجام زبانی برای تشویق پاسخ‌دهی به‌صورت تک‌زبانه. این فرایند یک مدل داخلی تولید کرد که منتشر نشد.
  3. تولید ۶۰۰ هزار نمونه دادهٔ استدلالی مصنوعی از مدل داخلی، با نمونه‌گیری رد شده (rejection sampling) (یعنی اگر پاسخ نهایی استدلال اشتباه بود، نمونه حذف می‌شد). همچنین، ۲۰۰ هزار دادهٔ غیر استدلالی (مانند نگارش، پرسش و پاسخ دانش‌محور، خودشناسی، و ترجمه) با استفاده از دیپ‌سیک-V3 تولید شد.
  4. الگو:Abbr مدل DeepSeek-V3-Base بر روی ۸۰۰ هزار نمونه داده مصنوعی برای ۲ دوره.
  5. تقویت یادگیری (GRPO RL) با استفاده از پاداش قانون‌محور (برای وظایف استدلالی) و پاداش مبتنی بر مدل (برای وظایف غیر استدلالی، مفید بودن و بی‌ضرر بودن). این فرایند مدل DeepSeek-R1 را تولید کرد.

الگو:Abbrالگو:یادچپ با SFT بر روی ۸۰۰ هزار دادهٔ مصنوعی تولیدشده از دیپ‌سیک-R1، مشابه مرحله ۳ فوق، آموزش داده شدند. این مدل‌ها برخلاف مدل اصلی، با تقویت یادگیری (RL) آموزش داده نشدند.[۴۱]

ارزیابی و واکنش‌ها

دیپ‌سیک نسخه دستیار هوش مصنوعی خود را منتشر کرد که از مدل V3 به‌عنوان یک چت‌بات برای آی‌اواس و اندروید بهره می‌برد. تا ۲۷ ژانویهٔ ۲۰۲۵، این اپلیکیشن در اَپ‌استور ایالات متحده از چت‌جی‌پی‌تی پیشی گرفت و بالاترین امتیاز را در میان اپلیکیشن‌های رایگان کسب کرد. گفته می‌شود چت‌بات آن بر اساس آزمون‌های مرجع مورد استفاده شرکت‌های هوش مصنوعی آمریکایی می‌تواند در حد سایر چت‌بات‌های موجود در بازار به پرسش‌ها پاسخ دهد، مسائل منطقی را حل کند و برنامه‌های کامپیوتری بنویسد.[۳]

DeepSeek-V3 در مقایسه با همتایان خود به‌طور قابل‌توجهی از منابع کمتری استفاده می‌کند. برای نمونه، در حالی که شرکت‌های پیشروی هوش مصنوعی جهان، چت‌بات‌هایشان را در ابررایانه‌ها با استفاده از نزدیک به ۱۶٬۰۰۰ واحد پردازش گرافیکی یا حتی بیشتر آموزش می‌دهند، دیپ‌سیک ادعا می‌کند تنها حدود ۲٬۰۰۰ GPU شامل چیپ سری H800 از انویدیا را به کار گرفته است.الگو:Citation needed این مدل در حدود ۵۵ روز با هزینه ۵٫۵۸ میلیون دلار آمریکا[۳۱] آموزش داده شد که تقریباً ۱۰ برابر کمتر از رقمی است که غول فناوری آمریکایی متا صرف ساخت جدیدترین فناوری هوش مصنوعی‌اش کرده است.[۳]

عملکرد رقابتی دیپ‌سیک با هزینه نسبتاً پایین، به عنوان عاملی که ممکن است سلطه جهانی مدل‌های هوش مصنوعی آمریکایی را به چالش بکشد، شناخته شده است.[۴۲] نشریات و رسانه‌های مختلف، نظیر هیل و گاردین، انتشار این چت‌بات را «لحظه اسپوتنیک» برای هوش مصنوعی آمریکا توصیف کردند.[۴۳][۴۴] گفته می‌شود عملکرد مدل R1 این شرکت، در کارهایی مانند ریاضیات، کدنویسی و استدلال زبان طبیعی، «هم‌سطح با» یکی از جدیدترین مدل‌های اوپن‌ای‌آی است[۴۵] و به نقل از دیگر مفسران، سرمایه‌گذار خطرپذیر سیلیکون‌ولی آمریکا، مارک آندرسن هم R1 را «لحظه اسپوتنیک هوش مصنوعی» توصیف کرده است.[۴۵]

بنیان‌گذار دیپ‌سیک، لیانگ ونفِنگ، با مدیرعامل سم آلتمن در اوپن‌ای‌آی مقایسه شده است. سی‌ان‌ان او را سم آلتمن چین و مبلّغ هوش مصنوعی خوانده است.[۴۶]

خطای ورود به حساب کاربری که دیپ‌سیک در ۲۸ ژانویه ۲۰۲۵ پس از یک حمله سایبری نشان داد

بهینه‌سازی منابع محدود در دیپ‌سیک، محدودیت‌های بالقوه تحریم‌های آمریکا علیه توسعه هوش مصنوعی چین را برجسته کرده است که شامل محدودیت‌های صادراتی بر تراشه‌های پیشرفته هوش مصنوعی به چین می‌شود.[۱۹][۴۷] موفقیت مدل‌های هوش مصنوعی این شرکت به‌دنبال آن «آشفتگی در بازار»[۴۸] به وجود آورد و باعث سقوط سهام شرکت‌های بزرگ فناوری در ۲۷ ژانویه شد: سهام انویدیا تا حدود ۱۷–۱۸٪ افت کرد[۴۹] و سهام رقیبش برودکام نیز به همین سرنوشت دچار شد. دیگر شرکت‌های فناوری نیز سقوط کردند، از جمله مایکروسافت (۲٫۵٪ کاهش)، شرکت مادر گوگل یعنی آلفابت (بیش از ۴٪ کاهش) و سازنده هلندی تجهیزات تراشه ای‌اس‌ام‌ال (بیش از ۷٪ کاهش).[۴۵] فروش گسترده سهام شرکت‌های فناوری در نزدک، که با انتشار مدل R1 آغاز شد، منجر به زیان بی‌سابقه در حدود ۵۹۳ میلیارد دلار از ارزش بازار شرکت‌های فعال در حوزه هوش مصنوعی و سخت‌افزار کامپیوتر شد؛[۵۰] تا ۲۸ ژانویه، مجموعاً حدود یک تریلیون دلار از ارزش سهام شرکت‌های آمریکایی کاسته شد.[۴۴]

چهره‌های برجسته حوزه هوش مصنوعی در آمریکا نسبت به موفقیت و عملکرد دیپ‌سیک واکنش‌های متفاوتی نشان دادند.[۵۱] مدیرعامل مایکروسافت، ساتیا نادلا، و سم آلتمن (مدیرعامل اوپن‌ای‌آی) — که شرکت‌هایشان در «پروژه استارگیت» مورد پشتیبانی دولت آمریکا برای توسعه زیرساخت هوش مصنوعی این کشور مشارکت دارند — هر دو دیپ‌سیک را «فوق‌العاده چشمگیر» خواندند.[۵۲][۵۳] رئیس‌جمهور آمریکا، دونالد ترامپ، که پروژه استارگیت را اعلام کرده بود، دیپ‌سیک را زنگ بیدارباش[۵۴] و تحولی مثبت توصیف کرد.[۵۵][۴۴][۵۶][۵۷] دیگر رهبران این حوزه، از جمله مدیرعامل Scale AI الکساندر وانگ، یکی از بنیان‌گذاران و مدیرعامل آنتروپیک داریو آمودی، و ایلان ماسک نسبت به عملکرد این اپلیکیشن یا پایداری موفقیتش ابراز تردید کردند.[۵۱][۵۸][۵۹] شرکت‌های مختلفی از جمله سرویس‌های وب آمازون، تویوتا و استرایپ درصدد استفاده از این مدل در برنامه‌های خود هستند.[۶۰]

در ۲۷ ژانویه، دیپ‌سیک به دنبال گزارش یک حمله سایبری که باعث کندی سرورها و سرویس‌هایش شد، ثبت‌نام کاربران جدید را صرفاً به شماره تلفن‌های داخل سرزمین اصلی چین، ایمیل و ورود از طریق گوگل محدود کرد.[۶۱][۶۲]

سانسور

الگو:See also برخی منابع مشاهده کرده‌اند که نسخه رسمی API مدل R۱ دارای مکانیسم‌های سانسور در موضوعات حساس، به‌ویژه موضوعاتی که برای دولت جمهوری خلق چین حساسیت دارند، است. برای نمونه، مدل از پاسخ‌دادن دربارهٔ اعتراضات میدان تیان‌آن‌من ۱۹۸۹، آزار اویغورها یا نقض حقوق بشر در چین امتناع می‌کند.[۶۳][۶۴] گاهی هوش مصنوعی در ابتدا پاسخی تولید می‌کند، اما اندکی بعد آن را پاک کرده و با پیامی نظیر «متأسفم، این فراتر از حیطه فعلی من است. بیایید دربارهٔ چیز دیگری صحبت کنیم.» جایگزین می‌کند.[۶۴] محدودیت‌ها و مکانیسم‌های سانسور در نسخه متن‌باز مدل R۱ فقط تا حدی قابل حذف هستند و به‌محض تماس با «ارزش‌های سوسیالیستی پایه» تعیین‌شده توسط نهادهای ناظر اینترنتی چین یا مثلاً مطرح‌شدن وضعیت سیاسی تایوان، گفت‌وگو متوقف می‌شود.[۶۵] در آزمونی توسط ان‌بی‌سی نیوز، R۱ دربارهٔ تایوان (جزیره‌ای با حاکمیت مستقل دموکراتیک) گفت که «تایوان بخشی جدایی‌ناپذیر از قلمرو چین است» و افزود: «ما قاطعانه با هر نوع فعالیت تجزیه‌طلبانه «استقلال تایوان» مخالفیم و متعهد به تحقق کامل اتحاد مجدد میهن از راه‌های مسالمت‌آمیز هستیم.»[۶۶]

یادداشت‌ها


پانویس

الگو:پانویس

جستارهای وابسته

الگو:Commons category

الگو:Generative AI chatbots

الگو:هوش مصنوعی مولد

  1. الگو:Cite journal
  2. الگو:Cite web
  3. ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ ۳٫۵ ۳٫۶ الگو:Cite news
  4. الگو:Cite web
  5. الگو:Cite web
  6. الگو:Cite web
  7. ۷٫۰ ۷٫۱ الگو:Cite news
  8. الگو:Cite web
  9. الگو:Cite web
  10. الگو:Cite web
  11. ۱۱٫۰ ۱۱٫۱ الگو:Cite web
  12. الگو:Cite web
  13. الگو:Cite web
  14. title=The Chinese quant fund-turned-AI pioneer |url=https://www.ft.com/content/357f3c68-b866-4c2e-b678-0d075051a260
  15. {{Cite web |last=Huang |first=Raffaele |date=24 December 2024 |title=Don't Look Now, but China's AI Is Catching Up Fast |url=https://www.wsj.com/tech/ai/china-ai-advances-us-chips-7838fd20 |access-date=28 December 2024 |website=The Wall Street Journal
  16. ۱۶٫۰ ۱۶٫۱ الگو:Cite web
  17. ۱۷٫۰ ۱۷٫۱ ۱۷٫۲ ۱۷٫۳ الگو:Cite web
  18. الگو:Cite web
  19. ۱۹٫۰ ۱۹٫۱ ۱۹٫۲ ۱۹٫۳ ۱۹٫۴ الگو:Cite web
  20. الگو:Cite news
  21. ۲۱٫۰ ۲۱٫۱ الگو:Cite web
  22. الگو:Cite web
  23. ۲۳٫۰ ۲۳٫۱ ۲۳٫۲ الگو:Citation
  24. الگو:Cite web
  25. الگو:Citation
  26. الگو:Cite web
  27. ۲۷٫۰ ۲۷٫۱ ۲۷٫۲ ۲۷٫۳ الگو:Citation
  28. الگو:Citation
  29. الگو:Citation
  30. الگو:Citation
  31. ۳۱٫۰ ۳۱٫۱ ۳۱٫۲ ۳۱٫۳ ۳۱٫۴ ۳۱٫۵ الگو:Citation
  32. خطای یادکرد: برچسب <ref> نامعتبر؛ متنی برای ارجاع‌های با نام :۱۰ وارد نشده است
  33. الگو:Cite web
  34. الگو:Cite web
  35. الگو:Cite web
  36. الگو:Cite web
  37. الگو:Cite web
  38. الگو:Cite web
  39. الگو:Cite web
  40. الگو:Cite web
  41. ۴۱٫۰ ۴۱٫۱ ۴۱٫۲ ۴۱٫۳ الگو:Citation
  42. الگو:Cite news
  43. الگو:Cite news
  44. ۴۴٫۰ ۴۴٫۱ ۴۴٫۲ الگو:Cite web
  45. ۴۵٫۰ ۴۵٫۱ ۴۵٫۲ الگو:Cite web
  46. الگو:Cite web
  47. الگو:Cite web
  48. الگو:Cite web
  49. الگو:Cite news
  50. الگو:Cite web
  51. ۵۱٫۰ ۵۱٫۱ الگو:Cite magazine
  52. الگو:Cite web
  53. الگو:Cite news
  54. الگو:Cite news
  55. الگو:Cite web
  56. الگو:Cite web
  57. الگو:Cite web
  58. الگو:Cite web
  59. الگو:Cite web
  60. الگو:Cite web
  61. الگو:Cite news
  62. الگو:Cite web
  63. الگو:Cite news
  64. ۶۴٫۰ ۶۴٫۱ الگو:Cite web
  65. الگو:Cite news
  66. الگو:Cite web