قانون دلتا

در یادگیری ماشین، قانون دلتا یک قانون یادگیری گرادیان کاهشی برای به روز رسانی وزن ورودی ها به سلول عصبی مصنوعی در یک شبکه عصبی تک لایه است. می توان آن را به عنوان الگوریتم پس انتشار برای یک شبکه عصبی تک لایه با تابع خطای از دست رفتگی میانگین مربع استخراج کرد.

برای یک عصب $j$ با عملکرد فعال سازی $g (x)$ ، قاعده دلتا برای نورون $i$ -امین وزن عصب $j$ از طریق زیر محاسبه می شود.

$Δ w_{j i} = α (t_{j} - y_{j}) g^{'} (h_{j}) x_{i}$

که در آن:

$α$ یک ثابت کوچک به نام نرخ یادگیری است.

$g (x)$ تابع فعال سازی عصب است.

$g^{'}$ مشتق $g$ است.

$t_{j}$ خروجی هدف است.

$h_{j}$ مجموع وزنی ورودی های عصب است.

$y_{j}$ خروجی واقعی است.

$x_{i}$ ورودی $i$ -ام است.

نشان میدهد که $h_{j} = \sum_{i} x_{i} w_{j i}$ و $y_{j} = g (h_{j}) .$ .

قانون دلتا معمولاً به شکل ساده شده برای یک عصب با تابع فعال سازی خطی به صورت زیر بیان می شود:

$Δ w_{j i} = α (t_{j} - y_{j}) x_{i}$

در حالی که قانون دلتا شبیه به قانون بروزرسانی پرسپترون است، اشتقاق متفاوت است. پرسپترون از تابع پله‌ای هویساید به عنوان تابع فعال سازی $g (h)$ استفاده می کند, و این بدان معنی است که $g^{'} (h)$ در صفر وجود ندارد و در جاهای دیگر برابر با صفر است, که استفاده مستقیم از قانون دلتا را غیرممکن می کند.

اشتقاق قاعده دلتا

قانون دلتا با تلاش برای به حداقل رساندن خطا در خروجی شبکه عصبی از طریق گرادیان کاهشی مشتق شده است. خطای شبکه عصبی با خروجی های j را می توان به این صورت اندازه گیری کرد:

$E = \sum_{j} \frac{1}{2} {(t_{j} - y_{j})}^{2} .$

در این مورد، ما می‌خواهیم از "فضای وزن" عصبی (فضای همه مقادیر ممکن وزن‌های عصب) متناسب با گرادیان تابع خطا نسبت به هر وزن حرکت کنیم. برای انجام این کار، مشتق جزئی خطا را با توجه به هر وزن محاسبه می کنیم. برای وزن i ام، این مشتق را می توان به صورت زیر نوشت:

$\frac{\partial E}{\partial w_{j i}}$

بدلیل اینکه فقط به نورون j ام توجه می کنیم، می‌توانیم در حالی که جمع را حذف می‌کنیم، فرمول خطای بالا را جایگزین کنیم:

$\frac{\partial E}{\partial w_{j i}} = \frac{\partial}{\partial w_{j i}} [\frac{1}{2} {(t_{j} - y_{j})}^{2}]$

سپس از قاعده زنجیره ای برای تقسیم آن به دو مشتق استفاده می کنیم:

$\frac{\partial E}{\partial w_{j i}} = \frac{\partial (\frac{1}{2} {(t_{j} - y_{j})}^{2})}{\partial y_{j}} \frac{\partial y_{j}}{\partial w_{j i}}$

برای بدست آوردن مشتق سمت چپ, تنها قانون قدرت و قانون زنجیره را اعمال می کنیم:

$\frac{\partial E}{\partial w_{j i}} = - (t_{j} - y_{j}) \frac{\partial y_{j}}{\partial w_{j i}}$

برای یافتن مشتق مناسب، دوباره قانون زنجیره را اعمال می‌کنیم، این بار با توجه به کل ورودی های $h_{j}, j$ :

$\frac{\partial E}{\partial w_{j i}} = - (t_{j} - y_{j}) \frac{\partial y_{j}}{\partial h_{j}} \frac{\partial h_{j}}{\partial w_{j i}}$

توجه داشته باشید که خروجی $j$ ام، $y_{j}$ ، فقط تابع فعال سازی $g$ است که به ورودی عصبی $h_{j}$ اعمال می شود. بنابراین می توانیم مشتق $y_{j}$ را با توجه به $h_{j}$ به سادگی مشتق اول $g$ نوشت:

$\frac{\partial E}{\partial w_{j i}} = - (t_{j} - y_{j}) g^{'} (h_{j}) \frac{\partial h_{j}}{\partial w_{j i}}$

بعد بازنویسی می کنیم $h_{j}$ در رابطه آخر به عنوان مجموع همه $k$ وزن هر وزن w $w_{j k}$ برابر ورودی مربوطه $x$ آن است:

$\frac{\partial E}{\partial w_{j i}} = - (t_{j} - y_{j}) g^{'} (h_{j}) \frac{\partial}{\partial w_{j i}} [\sum_{i} x_{i} w_{j i}]$

زیرا ما فقط به این موضوع توجه داریم وزن $i$ ام، تنها عبارت جمع که مرتبط است $x_{i} w_{j i}$ است:

$\frac{\partial (x_{i} w_{j i})}{\partial w_{j i}} = x_{i} .$

که معادله نهاییگرادیان را به ما می دهد:

$\frac{\partial E}{\partial w_{j i}} = - (t_{j} - y_{j}) g^{'} (h_{j}) x_{i}$

همانطور که در بالا ذکر شد، شیب نزول به ما می گوید که تغییر ما برای هر وزن باید متناسب با گرادیان باشد. انتخاب یک ثابت تناسب $α$ و با حذف علامت منفی برای اینکه بتوانیم وزن را در جهت منفی گرادیان حرکت دهیم تا خطا را به حداقل برسانیم، به معادله هدف خود می رسیم:

$Δ w_{j i} = α (t_{j} - y_{j}) g^{'} (h_{j}) x_{i} .$

جستارهای وابسته

مدل رسکورلا-واگنر - سرآغاز قانون دلتا

منابع

راسل، اینگرید. "قانون دلتا". دانشگاه هارتفورد بایگانی شده از نسخه اصلی در 4 مارس 2016. بازیابی شده در 5 نوامبر 2012.

قانون دلتا

اشتقاق قاعده دلتا

جستارهای وابسته

منابع

منوی ناوبری

جستجو