پیش‌نویس:ترکیب متخصصان

الگو:یادگیری ماشین

ترکیب متخصصان الگو:اختصاری یک تکنیک یادگیری ماشینی است که در آن از چندین شبکه متخصص (یادگیرنده) به منظور تقسیم‌بندی یک فضای مسئله، به مناطق همگن استفاده می شود. ^[۱] تفاوت آن با تکنیک‌های یادگیری گروهی در این است که در MoE بر روی هر ورودی، تنها یک یا چند مدل متخصص اجرا می‌شوند، برخلاف تکنیک‌های گروهی، که همه مدل‌ها بر روی همه ورودی‌ها اجرا می‌شوند.

نظریه پایه

ترکیب متخصصان، همیشه دارای موارد زیر است. این عوامل متفاوت از هم ساخته و نهایتاً ترکیب می‌شوند.

متخصصان $f_{1}, ..., f_{n}$ را داریم، که همه آنها ورودی یکسان $x$ را دریافت می کنند، و خروجی‌های $f_{1} (x), ..., f_{n} (x)$ را تولید می‌کند.
یک تابع وزن‌دهی واحد (با نام مستعار تابع دروازه) $w$ وجود دارد، که $x$ را به عنوان ورودی دریافت کرده و بردار خروجی‌های $(w (x)_{1}, ..., w (x)_{n})$ را تولید می کند.
$θ = (θ_{0}, θ_{1}, ..., θ_{n})$ مجموعه ای از پارامترها است. پارامتر $θ_{0}$ برای وزن‌دهی تابع به کار می‌رود.
ترکیب متخصصان با داشتن ورودی $x$ ، با توجه به وزن های $w (x)_{1}, ..., w (x)_{n}$ ، مقادیر $f_{1} (x), ..., f_{n} (x)$ را تجمیع کرده و یک خروجی مرکب تولید می کند.

به منظور به حداقل رساندن تابع هزینه، هم متخصصان و هم تابع وزن‌دهی با استفاده از روش گرادیان کاهشی، آموزش داده می‌شوند. در انتخاب تابع وزن‌دهی و تابع هزینه که شکل‌بندی دقیق متخصصان را تعیین کند، محدودیتی وجود ندارد.

شبکه متا-پی

شبکه متا-پی^{[پاورقی ۱]}، که توسط همپشایر و وایبل ارائه شده است،^[۲] از $f (x) = \sum_{i} w (x)_{i} f_{i} (x)$ به عنوان تابع خروجی استفاده می‌کند. آموزش این مدل با اعمال گرادیان کاهشی بر روی افت خطای میانگین مربع $L := \frac{1}{N} \sum_{k} ‖ y_{k} - f (x_{k}) ‖^{2}$ انجام می‌شود. متخصصان می‌توانند هر تابع دلخواهی باشند.

نویسندگان مقاله در انتشار اولیه آن، مسئله طبقه‌بندی واج‌ها در سیگنال گفتاری 6 سخنران مختلف ژاپنی، شامل 2 زن و 4 مرد، را حل کردند. آنها 6 متخصص را آموزش دادند که هر کدام یک «شبکه عصبی با تأخیر زمانی» (در اصل یک شبکه کانولوشن چندلایه بر روی طیف‌نگار mel ) بودند. سپس دریافتند که ترکیب متخصصان بدست آمده، 5 متخصص را به 5 سخنران اختصاص داده است، اما گوینده ششم (مرد) متخصص اختصاصی ندارد. در عوض صدای او توسط ترکیب خطی متخصصان مرتبط با 3 سخنران مرد دیگر طبقه‌بندی شده است.

ترکیب‌های تطبیقی از متخصصان محلی

ترکیب تطبیقی متخصصان محلی ^[۳]^[۴] از یک مدل ترکیبی گاوسی استفاده می کند. هر متخصص یک توزیع گاوسی را پیش‌بینی می‌کند و ورودی را کاملاً نادیده می‌گیرد. به بیان دقیق‌تر، متخصص $i$ -ام پیش‌بینی می‌کند که خروجی $y \sim N (μ_{i}, I)$ است، به طوری که $μ_{i}$ یک پارامتر آموزش‌پذیر است. تابع وزن‌دهی یک تابع بیشینه هموار خطی ^{[پاورقی ۲]} است: $w (x)_{i} = \frac{e^{k_{i}^{T} x + b_{i}}}{\sum_{j} e^{k_{j}^{T} x + b_{j}}}$ ترکیب متخصصان پیش‌بینی می‌کند که خروجی بر اساس تابع توزیع چگالی احتمال تولید می‌شود: $f_{θ} (y | x) = \ln [\sum_{i} \frac{e^{k_{i}^{T} x + b_{i}}}{\sum_{j} e^{k_{j}^{T} x + b_{j}}} N (y | μ_{i}, I)] = \ln [(2 π)^{- d / 2} \sum_{i} \frac{e^{k_{i}^{T} x + b_{i}}}{\sum_{j} e^{k_{j}^{T} x + b_{j}}} e^{- \frac{1}{2} ‖ y - μ_{i} ‖^{2}}]$ این تابع با روش تخمین حداکثر احتمال، یعنی گرادیان صعودی بر روی $f (y | x)$ آموزش می‌بیند. گرادیان برای متخصص $i$ -ام به قرار زیر خواهد بود: $\nabla_{μ_{i}} f_{θ} (y | x) = \frac{w (x)_{i} N (y | μ_{i}, I)}{\sum_{j} w (x)_{j} N (y | μ_{j}, I)} (y - μ_{i})$ و گرادیان، برای تابع وزنی به قرار زیر است: $\nabla_{[k_{i}, b_{i}]} f_{θ} (y | x) = [\begin{matrix} x \\ 1 \end{matrix}] \frac{w (x)_{i}}{\sum_{j} w (x)_{j} N (y | μ_{j}, I)} (f_{i} (x) - f_{θ} (y | x))$ تابع وزن‌دهی برای هر جفت ورودی-خروجی $(x, y)$ تغییر می‌کند تا وزن همه متخصصانی که بالاتر از میانگین کار کرده‌اند افزایش یابد و وزن همه متخصصانی که کمتر از میانگین کار کرده‌اند کاهش یابد. با این کار تابع وزن‌دهی تشویق می‌شود تا یاد بگیرد فقط متخصصانی را انتخاب کند که پیش‌بینی‌های درست را برای هر ورودی انجام می‌دهند.

متخصص $i$ -ام برای نزدیک‌تر کردن پیش‌بینی خود به $y$ تغییر می‌کند. میزان این تغییر متناسب با $w (x)_{i} N (y | μ_{i}, I)$ است. در واقع این کار یک استنباط بیزی است. با داشتن ورودی $x$ ، احتمال پیشین که متخصص $i$ پاسخ درست بدهد $w (x)_{i}$ است. و $N (y | μ_{i}, I)$ احتمال شاهد $y$ است.

بنابراین، $\frac{w (x)_{i} N (y | μ_{i}, I)}{\sum_{j} w (x)_{j} N (y | μ_{j}, I)}$ احتمال پسین برای متخصص $i$ -ام است. در نتیجه نرخ تغییر برای متخصص $i$ -ام متناسب با احتمال پسین آن است.

به بیان دیگر می‌توان گفت: از متخصصانی که در گذشته، متخصصان خوبی برای مشورت به نظر می‌رسیدند، خواسته می‌شود تا بر روی داده ها آموزش ببینند. متخصصانی که در گذشته برای مشورت مناسب نبودند، رها شده‌اند.

اثر ترکیبی بدین گونه است که متخصصان تبهر پیدا می‌کنند: فرض کنید دو متخصص هر دو در پیش‌بینی یک ورودی خاص خوب هستند، اما یکی کمی بهتر است، در این صورت تابع وزن‌دهی در نهایت یاد می‌گیرد که به نفع آن یکی که بهتر بوده تمایل پیدا کند. پس از این اتفاق، متخصص ضعیف‌تر قادر به دریافت سیگنال گرادیان بالاتر نیست و در پیش‌بینی ورودی بدتر و بدتر می‌شود. برعکس، متخصص ضعیف‌تر می‌تواند در پیش‌بینی دیگر انواع ورودی‌ بهتر عمل کند و به طور فزاینده‌ای به منطقه دیگری کشیده شود. این روش یک اثر بازخوردی مثبت دارد و باعث می‌شود هر متخصص از بقیه جدا شود و به تنهایی یک منطقه محلی را تحت نظر بگیرد. بنابراین در این لحظه نام "متخصصان محلی" معنادار می‌شود.

ترکیب متخصصان سلسله مراتبی

لایه MoE - اثر دروازه بر روی ورودی و توابع

ترکیب متخصصان سلسله مراتبی ^[۵]^[۶] از چندین سطح مختلف دروازه در یک [ساختار] درخت استفاده می‌کند. هر دروازه یک توزیع احتمال جهت اعمال بر روی سطح بعدی دروازه‌ها است. متخصصان روی [گره های] برگ درخت هستند. این ساختار بسیار شبیه به درختان تصمیم است.

یک MoE سلسله مراتبی 2 سطحی نوعی به عنوان مثال، یک تابع دروازه ای مرتبه اول $w_{i}$ ، توابع دروازه‌ای مرتبه دوم $w_{j | i}$ و متخصصان $f_{j | i}$ را شامل می‌شود. لذا پیش‌بینی کل $\sum_{i} w_{i} (x) \sum_{j} w_{j | i} (x) f_{j | i} (x)$ خواهد بود.

انواع

ترکیب متخصصان، که شبیه به مدل ترکیبی گاوسی است، می‌تواند مشابه به روش الگوریتم حداکثرسازی انتظارات آموزش ببیند، که همانند مدل‌های مخلوط گاوسی است. به عنوان یک مثال خاص، در مرحله انتظار، "بار" (که برای توضیح هر نقطه داده به کار می رود) بین متخصصان توزیع می‌شود. در مرحله حداکثر سازی، دو کار انجام می‌شود.

متخصصان، آموزش می‌بینند تا توضیحاتی را بهبود بخشند، که برای آنها بار زیادی دریافت کرده‌اند
دروازه‌ها، برای بهبود سهمیه‌بندی و توزیع "بار" آموزش می‌بیند.

با این روش تابع درست‌نمایی لگاریتمی سریعتر از روش گرادیان صعودی می‌تواند همگرا شود. ^[۶]^[۷]

انتخاب تابع دروازه‌ای اغلب انتخاب تابعی از نوع یک بیشینه هموار است. به علاوه، ^[۸] استفاده از توزیع های گاوسی و ^[۷] استفاده از خانواده توابع نمایی پیشنهاد شده است.

به جای پیاده‌سازی مجموع وزنی از همه متخصصان، در MoE سخت، ^[۹] تنها از متخصص با بالاترین رتبه استفاده می‌شود. به این معنا که، $f (x) = f_{\arg \max_{i} w_{i} (x)} (x)$ . با این کار زمان آموزش و استنتاج تسریع می‌شود.

متخصصان می توانند از انواع کلی‌تری از توزیع‌های گاوسی چند‌متغیره استفاده کنند. به عنوان مثال، مقاله ^[۵] پیشنهاد کرد $f_{i} (y | x) = N (y | A_{i} x + b_{i}, Σ_{i})$ ، که همگی $A_{i}$ ، $b_{i}$ ، و $Σ_{i}$ پارامترهای قابل یادگیری هستند. به بیان دیگر، هر متخصص یاد می‌گیرد که رگرسیون خطی را با استفاده از روش تخمین عدم‌قطعیت قابل‌یادگیری انجام دهد.

می توان در متخصصان متفاوت از توبعی به غیر از توزیع‌های گاوسی استفاده کرد. به عنوان مثال، می‌توان از توزیع لاپلاس، ^[۱۰] یا توزیع تی-استیودنت استفاده کرد. ^[۱۱] برای طبقه‌بندی باینری نیز، متخصص رگرسیون لجستیک توصیه شده است با $f_{i} (y | x) = {\begin{matrix} \frac{1}{1 + e^{β_{i}^{T} x + β_{i, 0}}}, & y = 0 \\ 1 - \frac{1}{1 + e^{β_{i}^{T} x + β_{i, 0}}}, & y = 1 \end{matrix}$ به طوری که $β_{i}$ و $β_{i, 0}$ پارامترهای قابل یادگیری هستند. با تعمیم این فرمول می‌توان به طبقه‌بندی چندگروهی دست یافت، که با استفاده از متخصصان رگرسیون لجستیک چند جمله‌ای انجام می‌شود. ^[۱۲]

یادگیری عمیق

در بخش قبلی MoE توصیف شد و باید توجه کرد که روش‌های بالا پیش از عصر یادگیری عمیق مورد استفاده قرار می گرفت. در دوره پیش از یادگیری عمیق، MoE کاربردهای دیگری از جمله، در پیاده‌سازی مدل‌های بسیار بزرگتر پیدا کرد. در این کاربرد از MoE به عنوان یک روش ساده برای انجام محاسبات شرطی بهره می‌بریم. یعنی به جای استفاده از کل مدل، فقط بخش‌هایی از مدل استفاده می‌شود، که متناسب با ورودی انتخاب می‌شوند. ^[۱۳]

اولین مقاله‌ای که MoE را برای یادگیری عمیق به کار می‌برد، «یادگیری بازنمایی‌های عامل‌دار در ترکیبی عمیق از متخصصان» (Eigen, Ranzato, Sutskever) ^[۱۴] است که پیشنهاد می‌کند از یک شبکه دروازه‌ای متفاوت در هر لایه در یک شبکه عصبی عمیق استفاده شود. به طوری که، هر دروازه یک شبکه بیشینه هموار-خطی-ReLU-خطی، و هر متخصص یک شبکه ReLU-خطی انتخاب شود.

هدف اصلی استفاده از MoE در یادگیری عمیق، کاهش هزینه محاسبات است. در نتیجه، برای هر پرس و جو، تنها یک زیرمجموعه کوچک از متخصصان باید پرس و جو شود. این باعث می شود که MoE در یادگیری عمیق با MoEکلاسیک متفاوت باشد. در MoE کلاسیک به ازای هر پرس و جو، خروجی مجموع وزنی خروجی‌های متخصصان است. ولی در MoE یادگیری عمیق، خروجی نهایی در هر پرس و جو می‌تواند تنها شامل خروجی‌های زیر مجموعه ای از کل متخصصان باشد. در نتیجه، انتخاب کلیدی طراحی در این MoE معطوف به به مسیریابی می‌شود:

مسیریابی و جهت‌دهی ورودی ها (پرس و جوها) به بهترین متخصصان چگونه انجام بپذیرد‌.

لایه MoE با دروازه پراکنده

لایه MoE با پراکندگی دروازه‌، ^[۱۵] ^{[پاورقی ۳]} که توسط محققان گوگل برین منتشر شده است، از شبکه‌های پیش‌خور به‌ عنوان متخصص و از بیشینه هموار خطی به عنوان دروازه استفاده می‌کند. مشابه پیشنهادهای ارائه شده در بالا برای MoE سخت، به مظور دستیابی به هدف پراکندگی، آنها به جای استفاده از جمع وزنی همه متخصصان، از جمع وزنی k متخصص برتر استفاده می‌کنند. به بیان خاص‌تر، در یک لایه MoE، شبکه‌های پیشخور $f_{1}, ..., f_{n}$ و یک شبکه دروازه $w$ وجود دارد . شبکه دروازه توسط رابطه $w (x) = s o f t m a x ({t o p}_{k} (W x + noise))$ تعریف می‌شود. ${t o p}_{k}$ تابعی است که ورودی های به k واحد برتر را دست نخورده و یکسان نگه می‌دارد، ولی همه ورودی‌های دیگر را به $- \infty$ تغییر می‌دهد. باید بهایننکته اشاره کرد که اضافه شدن نویز به تعادل بار کمک می کند.

انتخاب $k$ یک فراپارامتر است که با توجه به کاربرد انتخاب می‌شود. $k = 1, 2$ مقادیر معمول و کاربردی هستند. با فرض $k = 1$ ، این نسخه از شبکه، ترانسفورمر سوئیچی الگو:به‌انگلیسینامیده می شود. ^[۱۶]

نویسندگان مقاله برای ارائه نتایج خود، با استفاده از لایه‌های متناوب MoE و LSTM، مجموعه‌ای از مدل‌ها را برای کاربرد به عنوان ترجمه ماشینی آموزش دادند و نتیجه را با مدل‌های عمیق LSTM مقایسه کردند. جدول 3 نشان می دهد که مدل های MoE علیرغم داشتن 30 برابر پارامترهای بیشتر، از زمان محاسبه استنتاج کمتری استفاده می کنند.

Vanilla MoE معمولاً مشکلاتی در تعادل بار دارد: با برخی از متخصصان اغلب مشورت می شود، در حالی که متخصصان دیگر به ندرت یا اصلاً مشورت نمی کنند. برای تشویق گیت به انتخاب هر متخصص با فرکانس برابر (تعادل بار مناسب) در هر دسته، هر لایه MoE دارای دو تابع تلفات کمکی است. این با ^[۱۶] به یک تابع تلفات کمکی بهبود یافته است. به طور خاص، اجازه دهید $n$ تعداد متخصصان باشد، سپس برای یک دسته معین از پرس و جوها ${x_{1}, x_{2}, ..., x_{T}}$ ، ضرر کمکی برای دسته است

مسیریابی

در MoE با دروازه‌های پراکنده، فقط از k متخصصان برتر پرس و جو می‌شود و خروجی‌های آن‌ها وزن‌دهی و به هم افزوده می‌شود. روش های دیگری نیز وجود دارد. ^[۱۷]

در Hash MoE، ^[۱۸] مسیریابی توسط یک تابع هش انجام می شود که قبل از شروع یادگیری تثبیت و بدون تغییر در نظر گرفته شده است. به عنوان مثال، اگر مدل یک ترانسفورماتور 4 لایه باشد و ورودی، نشانه‌ای (توکن) متناظر با کلمه "eat" باشد و هش "eat" $(1, 4, 2, 3)$ باشد. آنگاه توکن به متخصص 1 در لایه 1، متخصص 4 در لایه 2، متخصص 2 در لایه و متخصص 3 در لایه 4 هدایت می شود. با وجود سادگی، این روش از لحاظ بازدهی در سطح MoE با دروازه پراکندگی با پارمتر $k = 1$ است.

در MoE نرم، فرض کنید در هر دسته، هر متخصص می تواند تعداد $p$ پرس و جو را پردازش کند. در نتیجه $n \times p$ پرس و جو وجود دارد که می‌توان به هر دسته تخصیص داد. حال برای هر دسته از پرس و جوهای ${x_{1}, x_{2}, ..., x_{T}}$ ، لایه MoE نرم، یک آرایه نوعی $w_{i, j, k}$ را محاسبه می کند، به طوری که $(w_{i, j, 1}, ..., w_{i, j, T})$ توزیع احتمال بر روی پرس و جوها است، و پرس و جو $j$ -ام به متخصص $i$ -ام با رابطه $\sum_{k} w_{i, j, k} x_{k}$ محاسبه می‌شود.^[۱۹] با این حال، این روش با مدل‌سازی مدل خودهمبسته کار نمی‌کند، زیرا وزن‌ $w_{i, j, k}$ بغیر از خود توکن، به همه توکن‌های دیگر بستگی دارد. ^[۲۰]

روش‌های دیگر عبارتند از

حل مسئله با روش برنامه‌ریزی خطی مقید^[۲۱]
وادار کردن هر متخصص به انتخاب k پرس و جو برتر به انتخاب خودش (به جای اینکه هر پرس و جو k متخصص برتر را انتخاب کند)^[۲۲]
استفاده از یادگیری تقویتی برای آموزش الگوریتم مسیریابی (از آنجایی که انتخاب یک متخصص یک اقدام مجزا است، مانند RL). ^[۲۳]

فاکتور ظرفیت

فرض کنید $n$ متخصص در یک لایه وجود دارند. برای یک دسته میعن از پرس و جوی ${x_{1}, x_{2}, ..., x_{T}}$ ، هر پرس و جو به یک یا چند متخصص هدایت می شود. به عنوان مثال، اگر هر پرس و جو به یک متخصص مانند ترانسفوماتور سوئیچی هدایت شود، و اگر تقسیم بار بین متخصصان صورت گرفته باشد، هر متخصص باید به طور متوسط انتظار دریافت $T / n$ از دسته پرس و جوها را داشته باشد. در عمل، متصخصصان نمی‌توانند انتظار تعادل بار کامل را داشته باشند: در برخی از دسته پرس و جوها، یک متخصص ممکن است کم کار شود، در حالی که در دسته های دیگر، بیش از حد کار می کند.

تعادل بار از آن جهت اهمیت پیدا می‌کند به بدانیم ورودی‌‌ها به هر لایه نمی‌توانند از آن عبور کرده و به لایه بعدی بروند، تا زمانی که همه متخصص‌ها در همان لایه پرس و جوهایی را که به آنها منتسب شده را به پایان برساند. فاکتور ظرفیت به شکل یک محدودیت سخت در تعادل بار ایجاد شده است. فاکتور ظرفیت بدین معنی که: هر متخصص فقط مجاز به پردازش حداکثر تا $c \cdot T / n$ پرس و جوی دسته ای^[۱۷] را دارد. در مقاله عملاً مقدار $c \in [1.25, 2]$ نتیجه خوبی به دست داد.

کاربرد در مدل های ترنسفورماتور

لایه‌های MoE در بزرگترین مدل‌های ترنسفورماتور استفاده می‌شوند، زیرا که مراحل آموزش و استنباط مدل کامل بسیار پرهزینه است. آنها معمولاً دارای دروازه‌های پراکنده با پراکندگی 1 یا 2 هستند. در مدل‌های ترانسفورماتور، لایه‌های MoE اغلب برای انتخاب لایه‌های پیش‌خور (معمولاً یک شبکه-خطی-ReLU-خطی) استفاده می‌شوند. بدین صورت که پس از توجه چند سر در مسیر هر بلوک ترانسفورماتور ظاهر می‌شوند. به این که با بزرگتر شدن مدل‌ها، لایه‌های پیش‌خور بخش فزاینده‌ای از هزینه محاسبات را به خود اختصاص می‌دهند. به عنوان مثال در مدل Palm-540B حدود 90 درصد پارامترها در لایه های پیشخور آن قرار دارند. ^[۲۴]

الگو:تا تاریخ، مدل‌هایی به اندازه کافی بزرگ که از MoE استفاده کنند، معمولا مدل‌های زبان بزرگ هستند که هر متخصص در آن حدود 10 میلیارد پارامتر دارد.

فارغ از مدل‌های زبانی، Vision MoE نیز یک مدل ترنسفورمر با لایه‌های MoE است. نویسندگان مقاله با آموزش یک مدل با 15 میلیارد پارامتر، کاربرد دیگر MoE را نشان دادند.

یک سری از مدل های زبان بزرگ گوگل از MoE استفاده می کردند. GShard^[۲۵] از MoE با حداکثر 2 متخصص در هر لایه استفاده می کند. بدین سان که، ابتدا متخصص برتر اول انتخاب می‌شود و متخصص برتر دوم با احتمالی متناسب با وزن محاسبه شده توسط تابع دروازه انتخاب می‌شود. پس از آن، مدل GLaM ^[۲۶] که یک مدل زبانی با 1.2 تریلیون پارامتر را رونمایی شد که هر در لایه MoE آن از 2 متخصص برتر (از بین 64 متخصص) استفاده می کرد. ترنسفورماتورهای سوئیچی^[۱۶] از 1 متخصص برتر در تمام لایه های MoE استفاده می کنند.

NLLB-200 از متا ای‌آی یک مدل ترجمه ماشینی است با پشتبانی از 200 زبان انسانی. ^[۲۷] هر لایه MoE از یک MoE سلسله مراتبی با دو سطح استفاده می کند. در سطح اول، تابع دروازه تصمیم می‌گیرد که از یک لایه پیشخور "به اشتراک گذاشته شده" استفاده کند یا متخصصان. اگر از متخصصان استفاده شود، یک تابع دروازه‌ای دیگر وزن‌ها را محاسبه می‌کند و 2 متخصص برتر را انتخاب می کند. ^[۲۸]

مدل‌های زبان بزرگ MoE را می‌توان با تنظیم دستورالعمل برای کارهای پایین دستی سازگار کرد. ^[۲۹]

در دسامبر 2023، شرکت میسترال ای‌آی مدل Mixtral 8x7B خود را تحت مجوز آپاچی 2.0 منتشر کرد. این یک مدل زبان MoE با 46.7B پارامتر، 8 متخصص، و پراکندگی دروازه 2 است. آنها همچنین نسخه ای را منتشر کردند که به منظور فرمان‌بری از دسورات تنظیم شده بود. ^[۳۰]^[۳۱]

در مارس 2024، شرکت الگو:پم مدل الگو:پم را منتشر کرد. این یک مدل زبان MoE با 132B پارامتر، 16 متخصص و پراکندگی دروازه 4 است. آنها همچنین نسخه ای را منتشر کردند که برای آموزش زیر تنظیم شده بود. ^[۳۲]^[۳۳]

در صورت نیاز به مطالعات بیشتر

قبل از دوران یادگیری عمیق
دوران یادگیری عمیق
- الگو:Cite arXiv

مشاهدات بیشتر

پاورقی‌ها

↑ Meta-pi network
↑ linear-softmax function
↑ sparsely-gated MoE layer

منابع

الگو:پانویس

↑ الگو:Cite journal
↑ الگو:Cite journal
↑ الگو:Cite journal
↑ الگو:Cite journal
↑ ^۵٫۰ ^۵٫۱ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:0» چندین بار با محتوای متفاوت تعریف شده است
↑ ^۶٫۰ ^۶٫۱ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:2» چندین بار با محتوای متفاوت تعریف شده است
↑ ^۷٫۰ ^۷٫۱ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:3» چندین بار با محتوای متفاوت تعریف شده است
↑ الگو:Cite journal
↑ الگو:Cite journal
↑ الگو:Cite journal
↑ الگو:Cite journal
↑ الگو:Cite journal
↑ الگو:Cite arXiv
↑ الگو:Cite arXiv
↑ الگو:Cite arXiv
↑ ^۱۶٫۰ ^۱۶٫۱ ^۱۶٫۲ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:1» چندین بار با محتوای متفاوت تعریف شده است
↑ ^۱۷٫۰ ^۱۷٫۱ الگو:Cite arXiv خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:4» چندین بار با محتوای متفاوت تعریف شده است
↑ الگو:Cite journal
↑ الگو:Cite arXiv
↑ الگو:Citation
↑ الگو:Cite journal
↑ الگو:Cite journal
↑ الگو:Cite arXiv
↑ الگو:Cite web
↑ الگو:Cite arXiv
↑ الگو:Cite arXiv
↑ الگو:Cite web
↑ الگو:Cite arXiv
↑ الگو:Cite arXiv
↑ الگو:Cite web
↑ الگو:Citation
↑ الگو:Cite web
↑ الگو:Cite news

[:0-2] Meta-pi network

[:1-6] r-softmax function

[:2-18] sparsely-gated MoE layer

[1] الگو:Cite journal

[3] الگو:Cite journal

[4] الگو:Cite journal

[5] الگو:Cite journal

[:0-7] ۵٫۰ ^۵٫۱ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:0» چندین بار با محتوای متفاوت تعریف شده است

[:2-8] ۶٫۰ ^۶٫۱ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:2» چندین بار با محتوای متفاوت تعریف شده است

[:3-9] ۷٫۰ ^۷٫۱ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:3» چندین بار با محتوای متفاوت تعریف شده است

[10] الگو:Cite journal

[11] الگو:Cite journal

[12] الگو:Cite journal

[13] الگو:Cite journal

[14] الگو:Cite journal

[15] الگو:Cite arXiv

[16] الگو:Cite arXiv

[17] الگو:Cite arXiv

[:1-19] ۱۶٫۰ ^۱۶٫۱ ^۱۶٫۲ الگو:Cite journal خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:1» چندین بار با محتوای متفاوت تعریف شده است

[:4-20] ۱۷٫۰ ^۱۷٫۱ الگو:Cite arXiv خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:4» چندین بار با محتوای متفاوت تعریف شده است

[21] الگو:Cite journal

[22] الگو:Cite arXiv

[23] الگو:Citation

[24] الگو:Cite journal

[25] الگو:Cite journal

[26] الگو:Cite arXiv

[27] الگو:Cite web

[28] الگو:Cite arXiv

[29] الگو:Cite arXiv

[30] الگو:Cite web

[31] الگو:Cite arXiv

[32] الگو:Cite arXiv

[33] الگو:Cite web

[34] الگو:Citation

[:02-35] الگو:Cite web

[36] الگو:Cite news

[۱]

[پاورقی ۱]

[۲]

[۳]

[۴]

[پاورقی ۲]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[پاورقی ۳]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]

[۲۲]

[۲۳]

[۲۴]

[۲۵]

[۲۶]

[۲۷]

[۲۸]

[۲۹]

[۳۰]

[۳۱]

[۳۲]

[۳۳]

پیش‌نویس:ترکیب متخصصان

فهرست

نظریه پایه

شبکه متا-پی

ترکیب‌های تطبیقی از متخصصان محلی

ترکیب متخصصان سلسله مراتبی

انواع

یادگیری عمیق

لایه MoE با دروازه پراکنده

مسیریابی

فاکتور ظرفیت

کاربرد در مدل های ترنسفورماتور

در صورت نیاز به مطالعات بیشتر

مشاهدات بیشتر

پاورقی‌ها

منابع

منوی ناوبری

پیش‌نویس:ترکیب متخصصان

نظریه پایه

شبکه متا-پی

ترکیب‌های تطبیقی از متخصصان محلی

ترکیب متخصصان سلسله مراتبی

انواع

یادگیری عمیق

لایه MoE با دروازه پراکنده

مسیریابی

فاکتور ظرفیت

کاربرد در مدل های ترنسفورماتور

در صورت نیاز به مطالعات بیشتر

مشاهدات بیشتر

پاورقی‌ها

منابع

منوی ناوبری

جستجو