پس‌انتشار

پس‌انتشار^[۱] (الگو:Lang-en) یا انتشار معکوس، روشی در یادگیری عمیق برای آموزش شبکه‌های عصبی پیشخور است (روش‌های مشابهی برای آموزش سایر شبکه‌های عصبی مصنوعی به وجود آمده‌است). در این روش با استفاده از قاعده زنجیره‌ای، گرادیان تابع هزینه برای تک‌تک وزن‌ها محاسبه می‌شود. برای این کار برای محاسبه گرادیان هر لایه نسبت به تابع هزینه، از مشتق جزئی تابع هزینه نسبت به لایه بعدی استفاده می‌شود. در واقع از آخرین لایه (نزدیک‌ترین لایه به خروجی) محاسبه مشتق‌ها شروع می‌شود و تا ابتدای شبکه (نزدیک‌ترین لایه به ورودی‌ها) ادامه پیدا می‌کند.

روش معمول محاسبه گرادیان (محاسبه اثر هر وزن در خروجی هر نمونه) برای شبکه‌های عصبی پیشخور و به خصوص شبکه‌های عمیق بسیار زمان‌بر و در عمل غیرممکن است. با استفاده از روش پس‌انتشار و با کمک قاعده زنجیره‌ای و مشتق جزئی، در محاسبه گرادیان هر لایه از مشتقات لایه‌های جلوتر استفاده می‌شود و زمان اجرا تا حد زیادی کاهش پیدا می‌کند.^[۲] استفاده از روش پس‌انتشار در کنار روش گرادیان کاهشی تصادفی، امکان اضافه کردن لایه‌های بیش‌تر به مدل به دلیل صرفه‌جویی زمانی به وجود می‌آید. این افزایش تعداد لایه‌ها از سوی دیگر باعث امکان یادگیری الگوهای پیچیده‌تر می‌شود.

ساختار ریاضی الگوریتم

برای سلول عصبی $c$ ورودیی که از سلول عصبی $p$ به این سلول وارد می‌شود را با $b_{p c}$ نشان می‌دهیم. وزن این ورودی $w_{p c}$ است و مجموع ضرب ورودی‌ها با وزنهایشان را با $a_{c}$ نمایش می‌دهیم، یعنی $a_{c} = \sum w_{p c} \times b_{p c}$ . حال باید بر روی $a_{c}$ یک تابع غیر خطی اعمال کنیم، این تابع را $θ_{c}$ می‌نامیم و خروجی آن را با $b_{c}$ نمایش می‌دهیم به این معنی که $b_{c} = θ_{c} (a_{c})$ . به همین شکل خروجی‌هایی که از سلول عصبی $c$ خارج شده و به سلول $n$ وارد می‌شوند را با $b_{c n}$ نمایش می‌دهیم و وزن آن را با $w_{c n}$ . اگر تمام وزنهای این شبکه عصبی را در مجموعه‌ای به اسم $W$ بگنجانیم، هدف در واقع یادگیری این وزنهاست.^[۳] اگر ورودی ما $x$ باشد و خروجی $y$ و خروجی شبکه عصبی ما $h_{W} (x)$ ، هدف ما پیدا کردن $W$ است به قسمی که برای همه داده‌ها $y$ و $h_{W} (x)$ به هم خیلی نزدیک شوند. به عبارت دیگر هدف کوچک کردن یک تابع ضرر بر روی تمام داده هاست، اگر داده‌ها را با $(x_{1}, y_{1}), \dots, (x_{n}, y_{n})$ و تابع ضرر را با $l$ نشان دهیم هدف کمینه کردن تابع پایین بر حسب $W$ است:^[۴] الگو:وسط‌چین $Q (W) = \sum_{i = 1}^{n} l (h_{W} (x_{i}), y_{i})$ الگو:پایان وسط‌چین به عنوان مثال اگر مسئله رگرسیون است برای $l$ می‌توانیم خطای مربعات را در نظر بگیریم و اگر مسئله دسته‌بندی است برای $l$ می‌شود منفی لگاریتم بازنمایی را استفاده کرد.

برای به‌دست آوردن کمینه $Q (W)$ می‌توان از روش گرادیان کاهشی استفاده کرد، به این معنی که گرادیان تابع را در حساب کرد و کمی در خلاف جهت آن حرکت کرد و این کار را آنقدر ادامه داد تا تابع ضرر خیلی کوچک شود. روش بازگشت به عقب در واقع روشی برای پیدا کردن گرادیان تابع است.

حال فرض کنیم می‌خواهیم گرادیان تابع $Q (W)$ را نسبت به وزن $w_{p c}$ به‌دست بیاوریم. برای این کار نیاز به قاعده زنجیری در مشتق‌گیری داریم. قاعده زنجیری به این شکل کار می‌کند: اگر تابعی داشته باشیم به اسم $f$ که وابسته به سه ورودی $u$ ، $v$ و $w$ باشد و هرکدام از این سه ورودی به نوبه خود وابسته به $t$ باشند، مشتق $f$ به $t$ به این شکل محاسبه می‌شود: الگو:وسط‌چین $\frac{\partial f (u (t), v (t), w (t))}{\partial t} = \frac{\partial f}{\partial u} \frac{\partial u}{\partial t} + \frac{\partial f}{\partial v} \frac{\partial v}{\partial t} + \frac{\partial f}{\partial w} \frac{\partial w}{\partial t}$ الگو:پایان وسط‌چین با استفاده از این قاعده زنجیری روش بازگشت به عقب را به این شکل دنبال می‌کنیم: الگو:وسط‌چین $δ_{c} = \frac{\partial Q}{\partial a_{c}}$ الگو:پایان وسط‌چین الگو:وسط‌چین $a_{c} = \sum_{p} w_{p c} \times b_{p c}$ الگو:پایان وسط‌چین الگو:وسط‌چین $b_{c} = θ_{c} (a_{c})$ الگو:پایان وسط‌چین الگو:وسط‌چین $δ_{c} = \frac{\partial Q}{\partial a_{c}} = \frac{\partial Q}{\partial b_{c}} \frac{\partial b_{c}}{\partial a_{c}} = \frac{\partial Q}{\partial b_{c}} \times {\overset{´}{θ}}_{c} (a_{c}) = (\sum_{n} \frac{\partial Q}{\partial a_{n}} \frac{\partial a_{n}}{\partial b_{c}}) \times {\overset{´}{θ}}_{c} (a_{c}) = (\sum_{n} w_{c n} δ_{n}) \times {\overset{´}{θ}}_{c} (a_{c})$ الگو:پایان وسط‌چین الگو:وسط‌چین $\frac{\partial Q}{\partial w_{p c}} = \frac{\partial Q}{\partial a_{c}} \frac{\partial a_{c}}{\partial w_{p c}} = δ_{c} b_{p}$ الگو:پایان وسط‌چین همان‌طور که در خط پیشین دیدیم برای به‌دست آوردن گرادیان نسبت به $w_{p c}$ به دو مقدار نیاز داریم ورودی به سلول عصبی $c$ از سلول عصبی $p$ که همان $b_{p}$ است و راحت به‌دست می‌آید و $δ_{c}$ که از روش بازگشتی به‌دست می‌آید و بستگی به آن $δ$ ‌هایی لابه بعد دارد که سلول $c$ به آن‌ها وصل است، به‌طور دقیقتر $δ_{c} = (\sum_{n} w_{c n} δ_{n}) \times {\overset{´}{θ}}_{c} (a_{c})$ .

روش بازگشتی برای به‌دست آوردن $δ$ ‌ها به این شکل کار می‌کند که ابتدا $δ$ را برای سلول‌های لایه خروجی حساب می‌کنیم، و بعد لایه‌ها را به نوبت پایین می‌روم و برای هر سلول $δ$ آن را با ترکیت $δ$ ‌های لایه‌های بالایی آن طبق فرمول حساب می‌کنیم. محاسبه کردن $δ$ برای لایه خروجی آسان است و مستقیماً با مشتق گرفتن از $Q$ به‌دست می‌آید.^[۵]

شهود

می‌دانیم هدف هر یادگیری با نظارت پیدا کردن تابعی است که از ورودی‌های مشاهده شده به خروجی‌های واقعی برسد. استفاده از ایده کاهش گرادیان در شبکه‌های عصبی منجر به تلاش برای پیدا کردن پارامترها در لایه‌های پنهان مدل به کمک پس‌انتشار می‌شود.

پیدا کردن مشتق وزن‌ها نسبت به تابع هزینه

به کمک قاعده زنجیره‌ای می‌توانیم مشتق تابع هزینه را نسبت به هر یک از وزن‌های شبکه عصبی ( $w_{i j}$ ) به‌دست بیاوریم:الگو:NumBlkحال سعی می‌کنیم آخرین کسر سمت راست را ساده کنیم (در ${net}_{j}$ فقط همان ترکیب خطی خروجی نورون فعلی به $w_{i j}$ وابسته است) :الگو:NumBlkمی‌دانیم مشتق خروجی نورون $j$ نسبت به ورودی‌های آن همان مشتق جزئی نسبت به تابع فعال‌سازی است. در واقع دلیل اصلی این‌که تابع فعال‌سازی باید مشتق‌پذیر باشد، محاسبه همین مشتق است:الگو:NumBlkبرای مثال در حالتی که تابع فعال سازی، تابع لجستیک باشد:

$\frac{\partial o_{j}}{\partial {net}_{j}} = \frac{\partial}{\partial {net}_{j}} φ ({net}_{j}) = φ ({net}_{j}) (1 - φ ({net}_{j})) = o_{j} (1 - o_{j})$

حال طبق معادله ۱ یکی یکی بخش‌های مختلف را محاسبه می‌کنیم. کسر اول (مانند آنچه در زیر آمده‌است) با مشخص بودن خروجی و تابع هزینه به راحتی قابل محاسبه است.الگو:NumBlkبرای مثال اگر تابع هزینه همان مربعات خطاها باشد،

$\frac{\partial E}{\partial o_{j}} = \frac{\partial E}{\partial y} = \frac{\partial}{\partial y} \frac{1}{2} (t - y)^{2} = y - t$

با فرض اینکه $E$ تابعی از همه نورون‌هایی است که از نورون $j$ ام به آن‌ها یال دارد ( $L = {u, v, \dots, w}$ ):

$\frac{\partial E (o_{j})}{\partial o_{j}} = \frac{\partial E ({n e t}_{u}, {net}_{v}, \dots, {n e t}_{w})}{\partial o_{j}}$

حال با گرفتن مشتق نسبت به $o_{j}$ فرم بازگشتی زیر به‌دست می‌آید که همان شکل کلی پس‌انتشار است.الگو:NumBlk با استفاده از معادله ۱ تا ۵ و حذف بخش‌های مشترک، می‌توانیم مشتق $E$ را نسبت به وزن دلخواه $w_{i j}$ محاسبه کنیم.

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} \frac{\partial {net}_{j}}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} o_{i}

\frac{\partial E}{\partial w_{i j}} = o_{i} δ_{j}

که در آن تابع دلتا به صورت زیر است:

$δ_{j} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} = {\begin{matrix} \frac{\partial L (o_{j}, t)}{\partial o_{j}} \frac{d φ ({net}_{j})}{d {net}_{j}} & if j is an output neuron, \\ (\sum_{ℓ \in L} w_{j ℓ} δ_{ℓ}) \frac{d φ ({net}_{j})}{d {net}_{j}} & if j is an inner neuron. \end{matrix}$

برای مثال اگر $φ$ تابع لجستیک باشد:

$δ_{j} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} = {\begin{matrix} (o_{j} - t_{j}) o_{j} (1 - o_{j}) & if j is an output neuron, \\ (\sum_{ℓ \in L} w_{j ℓ} δ_{ℓ}) o_{j} (1 - o_{j}) & if j is an inner neuron. \end{matrix}$ در نهایت فرم تغییرات وزن به صورت زیر است:

$Δ w_{i j} = - η \frac{\partial E}{\partial w_{i j}} = - η o_{i} δ_{j}$

جستارهای وابسته

منابع

الگو:پانویس

[1] مقایسه دو الگوریتم پس انتشار خطا و ژنتیک در یادگیری شبکه عصبی برای پیش‌بینی سری زمانی آشوبگونه. زهرا عربسرخی، محمدرضا اصغری اسکویی

[2] الگو:یادکرد وب

[3] الگو:Cite journal

[4] الگو:Cite journal

[5] الگو:یادکرد کتاب

[۱]

[۲]

[۳]

[۴]

[۵]

پس‌انتشار

فهرست

ساختار ریاضی الگوریتم

شهود

پیدا کردن مشتق وزن‌ها نسبت به تابع هزینه

جستارهای وابسته

منابع

منوی ناوبری

پس‌انتشار

ساختار ریاضی الگوریتم

شهود

پیدا کردن مشتق وزن‌ها نسبت به تابع هزینه

جستارهای وابسته

منابع

منوی ناوبری

جستجو