گرادیان کاهشی تصادفی

گرادیان کاهشی تصادفی الگو:به انگلیسی (اغلب به اختصار SGD خوانده می‌شود) روشی مبتنی بر تکرار برای بهینه‌سازی یک تابع مشتق‌پذیر به نام تابع هدف (تابع هزینه) است که یک تقریب تصادفی از روش گرادیان کاهشی می‌باشد. در حقیقت گرادیان کاهشی تصادفی الگوریتمی در اختیار ما قرار می‌دهد که طی چند حلقهٔ تکرار مقدار کمینه یک تابع و مقادیری را که با ازای آن‌ها تابع کمینه مقدار خود را می‌گیرد، بدست بیاوریم. به تازگی مقاله‌ای^[۱] ابداع این روش را به هربرت رابینز و ساتِن مونرو (به انگلیسی: Herbert Robins and Sutton Monro) برای انتشار مقاله‌ای در باب گرادیان کاهشی تصادفی در سال ۱۹۵۱ نسبت داده‌است. تفاوت گرادیان کاهشی تصادفی با گرادیان کاهشی استاندارد در این است که برخلاف گرادیان کاهشی استاندارد که برای بهینه‌سازی تابع هدف از تمام داده‌های آموزشی استفاده می‌کند، گرادیان کاهشی تصادفی از گروهی از داده‌های آموزشی که به‌طور تصادفی انتخاب می‌شود برای بهینه‌سازی استفاده می‌کند. این روش در مسائل آماری و یادگیری ماشین کاربرد فراوانی دارد.

پیشینه

در برآوردهای آماری و یادگیری ماشین معمولاً مسائلی به‌وجود می‌آید که در آن‌ها نیاز است تابعی مانند $𝒻$ از داده‌های آماری با یک یا چند پارامتر (به شکل ضریب یا اشکال دیگر) تعریف کنیم و سپس این پارامترها را طوری مشخص کنیم که مجموع (یا میانگین) مقادیر تابع $𝒻$ به ازای تک تک داده‌های آماری، حداقل مقدار ممکن خود بشود. فرض کنید مجموعه‌ای از داده‌های آماری داریم و تابع $𝒻$ را برای این داده‌ها فقط بر حسب یک پارامتر $θ$ تعریف کرده‌ایم، در این صورت با دادن داده $𝒊$ ام از مجموعهٔ داده‌ها به تابع $𝒻$ یک تابع از $θ$ بدست می‌آوریم که آن را $𝒥_{𝒊} (θ)$ می‌نامیم. حال مسئله به پیدا کردن $θ$ ای که عبارت زیر را کمینه می‌کند، ساده می‌شود: الگو:وسط‌چین $𝒥 (θ) = (\frac{1}{n}) \sum_{𝒊 = 1}^{n} 𝒥_{i} (θ)$ الگو:پایان وسط‌چین یا به عبارت دیگر: الگو:وسط‌چین $𝒥 (θ) = E [𝒥_{i} (θ)]$ الگو:پایان وسط‌چین که $𝒥 (θ)$ همان تابع هدف یا تابع هزینه است.

برای حل چنین مسئله‌ای از گرادیان کاهشی استاندارد یا در مواردی از گرادیان کاهشی تصادفی استفاده می‌شود. در آمار کلاسیک زمینه‌هایی مثل کمترین مربعات یا برآورد درست‌نمایی بیشینه، مسائلی مشابه در باب کمینه‌سازی مجموع جملات مطرح می‌شود. همچنین مسئلهٔ مینیمم‌سازی جمع جملات در اصل کمینه‌سازی خطر تجربی (Empirical risk minimization) نیز مطرح می‌شود.

در بسیاری از موارد تابع هدف تابعی ساده می‌شود که اعمال روش گرادیان کاهشی روی آن پیچیده و زمان‌بر نیست در این موارد از روش گرادیان کاهشی استاندارد استفاده می‌شود، مانند خانوادهٔ توابع نمایی یک پارامتره که در ارزیابی توابع اقتصادی استفاده می‌شود. اما از آنجا که در روش گرادیان کاهشی استاندارد یا تصادفی به محاسبهٔ گرادیان تابع هدف در هر حلقه نیاز است، در بعضی از موارد که پارامترهای تابع هدف زیاد اند یا مجموعهٔ داده‌های آموزشی بسیار بزرگ است محاسبهٔ انجام شده در هر حلقه می‌تواند بسیار زمان‌بر و پیچیده باشد به همین دلیل در این موارد از گرادیان کاهشی تصادفی استفاده می‌شود که در هر حلقه این عملیات را تنها برای بخشی از مجموعهٔ داده‌های آموزشی که در اختیار داریم، انجام می‌دهد. در روش گرادیان کاهشی تصادفی در هر حلقه عملیات موردنظر بر روی تنها یک عضو مجموعهٔ داده‌های آموزشی که در هر حلقه یه‌صورت تصادفی انتخاب می‌شود انجام نمی‌شود و در عوض بر روی زیرمجموعه‌ای از آن انجام می‌شود؛ این امر دو دلیل دارد:^[۲]

پراکندگی مقدار بدست آمده برای پارامتر را در هر حلقه کم می‌کند و همگرایی پایدارتر پیش می‌رود.
بهره‌گیری از عملیات ماتریسی که پیاده‌سازی بسیار سریعی دارد.

کاربردها

گرادیان کاهشی تصادفی یک الگوریتم محبوب و متداول برای یادگیری طیف گسترده‌ای از مدل‌ها در یادگیری ماشین است، از جمله ماشین‌های بردار پشتیبانی، رگرسیون لجستیک و مدل‌های گرافیکی.^[۳] الگوریتم بازگشت به عقب که عملاً الگوریتم استاندارد برای یادگیری شبکه‌های عصبی مصنوعی است در واقع روشی برای پیدا کردن گرادیان شبکه برای استفاده در گرادیان کاهشی تصادفی است.^[۴] گرادیان کاهشی تصادفی در جامعه ژئوفیزیک نیز کاربردهایی دارد مانند مسئله وارونگی کامل شکل‌موج (FWI).^[۵]

روش پیاده‌سازی

در پیاده‌سازی کلی گرادیان کاهشی تصادفی ابتدا بردار پارامترها که برداری است که شامل تمام پارامترهای تابع هزینه است را $θ$ می‌نامیم. $θ$ را برابر برداری دلخواه قرار می‌دهیم سپس برای هر بار به‌روزرسانی این بردار یک عضو از مجموعهٔ داده‌های آموزشی را به صورت تصادفی انتخاب کرده و با نرخ $α$ ، بردار حاصل از گرادیان تابع هزینه در نقطه $θ$ را از $θ$ کم می‌کنیم: الگو:وسط‌چین $θ = θ - α \nabla_{θ} 𝒥_{𝒊} (θ; x^{(i)}, y^{(i)})$ الگو:پایان وسط‌چین که در آن $𝒥$ تابع هزینه و $(x^{(i)}, y^{(i)})$ یک عضو از داده‌های آموزشی است که به صورت تصادفی انتخاب شده‌است و $𝒥_{𝒊} (θ; x^{(i)}, y^{(i)})$ نشان‌دهندهٔ جملهٔ $𝒊$ ام از جملات تابع هدف است. $α$ نرخی است که با آن $θ$ را به‌روزرسانی می‌کنیم و مقداری تجربی دارد که اگر خیلی کوچک باشد زمان رسیدن به همگرایی را طولانی می‌کند و اگر خیلی بزرگ باشد ممکن است همگرایی رخ ندهد.^[۶]

در پیاده‌سازی دیگر در هر حلقه عضوی تصادفی از مجموعهٔ داده‌ها انتخاب نمی‌شود بلکه در هر حلقه کل مجموعه داده‌ها یک بار به‌صورت تصادفی بازچینی می‌شود سپس به عملیات به‌روزرسانی به ترتیب به ازای $𝒥_{1}, 𝒥_{1}, . . ., 𝒥_{𝒏}$ انجام می‌شود که $𝒏$ نشان‌دهندهٔ اندازهٔ مجموعهٔ داده‌های آموزشی است. شبه کد زیر این پیاده‌سازی را نشان می‌دهد:

به  $θ$ و  $α$  مقدار اولیه بده
تا زمانی که کمینه بدست بیاید تکرار کن
داده‌های آموزشی را به صورت تصادفی بازچینی کن
برای   $𝒊$  از ۱ تا n تکرار کن:
     $θ = θ - α \nabla_{θ} 𝒥_{𝒊} (θ; x^{(i)}, y^{(i)})$

همان‌طور که پیشتر اشاره شد معمولاً عملیات به‌روز رسانی برای

𝒥

حاصل از یک تک عضو مجموعهٔ داده‌های آموزشی انجام نمی‌شود و برای زیرمجموعه‌ای از این داده‌ها انجام می‌شود که به آن دستهٔ کوچک می‌گویند.

نحوهٔ عملکرد گرادیان کاهشی برای تابع یک ورودی
نحوهٔ عملکرد گرادیان کاهشی برای تابع دو ورودی

مثال

فرض کنید در یک مسئلهٔ یادگیری ماشین می‌خواهیم از روش کمترین مربعات استفاده کنیم به طوری که مجموعه‌ای از داده‌های آموزشی به شکل $(x^{(i)}, y^{(i)})$ داریم که در هر دوتایی، $x^{(i)}$ نشان‌دهندهٔ مساحت یک خانه و $y^{(i)}$ نشان‌دهندهٔ قیمت خانه به آن مساحت باشد حال اگر بخواهیم نمودار $y$ را بر حسب $x$ با یک نمدار خطی تقریب بزنیم نیاز به روش کمترین مربعات داریم. طبق این روش بهترین تقریب این نمودار با خط $a x + b$ زمانی اتفاق می‌افتد که تابع $𝒥 (a, b) = (\frac{1}{2 n}) \sum_{i = 1}^{n} ((a x^{i} + b) - y^{i})$ کمینه مقدار خود را داشته باشد. حال در این مثال $𝒥 (a, b)$ تابع هزینه است و به روش گرادیان کاهشی تصادفی می‌شود مقدار $a, b$ را بدست آورد که با ازای آن‌ها تابع هزینه کمینه شود و بهترین تقریب خطی یرای نمودار بدست بیاید.^[۷]

بسط

تا به حال چندین روش نوین برای کاهش سریع‌تر گرادیان کاهشی ابداع شده که ذیلاً بعضی مورد بررسی قرار گرفته‌اند.^[۸]^[۹]^[۱۰]^[۱۱]^[۱۲]

تکانه (Momentum)

این روش برای اولین بار توسط روملهارت، هیلتون و ویلیامز معرفی شد.^[۸] در این روش میزان تغییر پارامتر $Δ θ$ در هر مرحله از بهینه‌سازی ذخیره شده تا در مرحله بعدی به شکل پایین از آن استفاده شود: الگو:وسط‌چین $Δ θ = η Δ θ - α \nabla 𝒥 (θ)$

$θ = θ + Δ θ$ الگو:پایان وسط‌چین که با ترکیب این دو به عبارت پایین می‌رسیم: الگو:وسط‌چین $θ = θ - α \nabla 𝒥_{𝒾} (θ) + η Δ θ$ الگو:پایان وسط‌چین روش momentum باعث می‌شود که مسیر پارامتر $θ$ خیلی تغییر نکند و نوسانات شدیدی نداشته باشد. استفاده از این روش در شبکه‌های عصبی مصنوعی متداول است و معمولاً موجب بهبود دقت شبکه‌های عصبی می‌شود.^[۱۳]

میانگین (Averaging)

در این روش در هر مرحله پارامترهای $t$ مرحله پیشین ذخیره می‌شود و در نهایت میانگین آنها به عنوان پارامتر بهینه برگردانده می‌شود^[۹] یعنی $\bar{θ} = \frac{1}{t} \sum_{i = 0}^{t - 1} θ_{i}$ .

گرادیان تطبیقی (AdaGrad)

روش آداگراد یا گرادیان تطبیقی برای اولین بار در سال ۲۰۱۱ معرفی و منتشر شد.^[۱۰]^[۱۴] این روش برای هر بُعدِ پارامتر یک نرخ یادگیری جداگانه‌ای در نظر می‌گیرد؛ نرخ یادگیری همان $α$ در معادله بالاست. برای ابعاد خلوت‌تر (sparse) معمولاً این روش نرخ یادگیری را افزایش می‌دهد و برای ابعادی که مقادیر صفر کمتری دارند نرخ یادگیری را کاهش می‌دهد. این روش اغلب برای مسائلی که با داده‌های خلوت سروکار دارند مانند پردازش تصویر یا زبانهای طبیعی بهینه‌تر است و همگرایی را تسریع می‌بخشد.^[۱۰]

نرخ یادگیری برای ابعاد مختلف پارامتر از قطر اصلی ضرب خارجی $G = \sum_{τ = 1}^{t} g_{τ} g_{τ}^{𝖳}$ بدست می‌آید. در این معادله $g_{τ} = \nabla 𝒥_{i} (θ)$ گرادیان در مرحله $τ$ است و نرخ یادگیری برای بُعدِ $j$ برابر خواهد بود با: الگو:وسط‌چین $G_{j, j} = \sum_{τ = 1}^{t} g_{τ, j}^{2}$ الگو:پایان وسط‌چین حال می‌توان پارامتر را به صورت پایین به‌روز کرد: الگو:وسط‌چین $θ = θ - η d i a g (G)^{- \frac{1}{2}} \circ g$ الگو:پایان وسط‌چین این معادله برای بعد $j$ برابر خواهد بود با: الگو:وسط‌چین $θ_{j} = θ_{j} - \frac{α}{\sqrt{G_{j, j}}} g_{j} .$ الگو:پایان وسط‌چین از آنجا که در نرخ یادگیری $α$ برای بُعدِ j ام پارامتر بر مقدار $\sqrt{G_{i}} = \sqrt{\sum_{τ = 1}^{t} g_{τ}^{2}}$ تقسیم می‌شود، ابعدای که خلوت‌ترند سریعتر نرخ یادگیری‌شان کاهش می‌یابد.^[۱۵] اگرچه روش گرادیان تطبیقی برای مسائل محدب طراحی شده‌است ولی برای مسائل غیر محدب نیز نتایج خوبی به بار آورده‌است.^[۱۶]

RMSProp

در این روش همانند گرادیان تطبیقی برای هر بُعدِ پارامتر نرخ یادگیری جداگانه‌ای در نظر گرفته می‌شود.^[۱۱] ایده اصلی این است که نرخ یادگیری را برای یک بُعد بر میانگین گرادیان‌های آن بُعد تقسیم کنیم؛ بنابراین، ابتدا میانگین را به این شکل محاسبه می‌کنیم: الگو:وسط‌چین $v (θ, t) = γ v (θ, t - 1) + (1 - γ) (\nabla 𝒥_{i} (θ))^{2}$ الگو:پایان وسط‌چین در این معادله $γ$ ضریب فراموشی است و پارامترها به این صورت بروز می‌شوند: الگو:وسط‌چین $θ = θ - \frac{α}{\sqrt{v (θ, t)}} \nabla 𝒥_{i} (θ)$ الگو:پایان وسط‌چین این روش نتایج بسیار خوبی برای مسائل مختلف بهینه‌سازی داده‌است.^[۱۷]

Adam

این روش مشابه روش RMSProp است با این تفاوت که هم از میانگین گرادیان و هم از گشتاورهای دوم آن به شکل پایین استفاده می‌شود.^[۱۲] الگو:وسط‌چین $m_{θ}^{(t + 1)} \leftarrow β_{1} m_{θ}^{(t)} + (1 - β_{1}) \nabla_{θ} J^{(t)}$

$v_{θ}^{(t + 1)} \leftarrow β_{2} v_{θ}^{(t)} + (1 - β_{2}) (\nabla_{θ} J^{(t)})^{2}$

${\hat{m}}_{θ} = \frac{m_{θ}^{(t + 1)}}{1 - (β_{1})^{t + 1}}$

${\hat{v}}_{θ} = \frac{v_{θ}^{(t + 1)}}{1 - (β_{2})^{t + 1}}$

$θ^{(t + 1)} \leftarrow θ^{(t)} - α \frac{{\hat{m}}_{θ}}{\sqrt{{\hat{v}}_{θ}} + ϵ}$ الگو:پایان وسط‌چین در اینجا $ϵ$ برای جلوگیری از صفر شدن مخرج است، $β_{1}$ و $β_{2}$ ضرایب فراموشی گرادیان و گشتاور دوم گرادیان هستند. مربع گرادیان‌ها مولفه‌ای است. کاربرد ضرایب فراموشی گرادیان و گشتاور دوم گرادیان بیشتر برای جبران فاصله مقدار تقریبی از مقدار واقعی گرادیان می باشد،که معمولا برای زمانی که t کوچک است مفید می باشد. روش Adam رایج ترین روش در شبکه های عصبی عمیق برای تعلیم شبکه می باشد

جستارهای وابسته

منابع

الگو:پانویس

↑ الگو:Cite journal
↑ الگو:یادکرد وب
↑ Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008). Efficient, Feature-based, Conditional Random Field Parsing الگو:Webarchive. Proc. Annual Meeting of the ACL.
↑ الگو:یادکرد وب
↑ Díaz, Esteban and Guitton, Antoine. "Fast full waveform inversion with random shot decimation". SEG Technical Program Expanded Abstracts, 2011. 2804-2808 الگو:پیوند مرده
↑ الگو:یادکرد وب
↑ الگو:یادکرد وب
↑ ^۸٫۰ ^۸٫۱ الگو:Cite journal
↑ ^۹٫۰ ^۹٫۱ الگو:Cite journal
↑ ^۱۰٫۰ ^۱۰٫۱ ^۱۰٫۲ الگو:Cite journal
↑ ^۱۱٫۰ ^۱۱٫۱ Tieleman, Tijmen and Hinton, Geoffrey (2012). Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning
↑ ^۱۲٫۰ ^۱۲٫۱ الگو:Cite arXiv
↑ الگو:Cite arXiv
↑ الگو:Cite web
↑ الگو:Cite arXiv
↑ الگو:Cite journal
↑ الگو:Cite web

[1] الگو:Cite journal

[2] الگو:یادکرد وب

[3] Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008). Efficient, Feature-based, Conditional Random Field Parsing الگو:Webarchive. Proc. Annual Meeting of the ACL.

[4] الگو:یادکرد وب

[5] Díaz, Esteban and Guitton, Antoine. "Fast full waveform inversion with random shot decimation". SEG Technical Program Expanded Abstracts, 2011. 2804-2808 الگو:پیوند مرده

[6] الگو:یادکرد وب

[7] الگو:یادکرد وب

[Rumelhart19862-8] ۸٫۰ ^۸٫۱ الگو:Cite journal

[:0-9] ۹٫۰ ^۹٫۱ الگو:Cite journal

[duchi-10] ۱۰٫۰ ^۱۰٫۱ ^۱۰٫۲ الگو:Cite journal

[:1-11] ۱۱٫۰ ^۱۱٫۱ Tieleman, Tijmen and Hinton, Geoffrey (2012). Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning

[Adam2014-12] ۱۲٫۰ ^۱۲٫۱ الگو:Cite arXiv

[Zeiler_20122-13] الگو:Cite arXiv

[14] الگو:Cite web

[Zeiler_20124-15] الگو:Cite arXiv

[16] الگو:Cite journal

[17] الگو:Cite web

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

گرادیان کاهشی تصادفی

فهرست

پیشینه

کاربردها

روش پیاده‌سازی

مثال

بسط

تکانه (Momentum)

میانگین (Averaging)

گرادیان تطبیقی (AdaGrad)

RMSProp

Adam

جستارهای وابسته

منابع

منوی ناوبری

گرادیان کاهشی تصادفی

پیشینه

کاربردها

روش پیاده‌سازی

مثال

بسط

تکانه (Momentum)

میانگین (Averaging)

گرادیان تطبیقی (AdaGrad)

RMSProp

Adam

جستارهای وابسته

منابع

منوی ناوبری

جستجو