شبکه عصبی باقیمانده


شبکه عصبی پسمانده (ResNet)[۲] یک نوع شبکه عصبی مصنوعی میباشد. این شبکه در واقع یک نوع دروازه باز یا بدون دروازه شبکه بزرگراه,[۳] که اولین شبکه بسیار عمیق پیشخور با هزاران لایه و بسیار عمیقتر از شبکههای قبلی است. در این نوع از شبکه عصبی معمولا از لایه های پرشی و میانبر بین لایهها استفاده میشود که در پیادهسازی، هر لایه پرشی معمولا از دو یا سه لایه به همراه توابع غیرخطی مانند یکسوساز و نرمال کننده دستهای استفاده میشود. مدلهایی که دارای چندین لایه پرشی موازی هستند، شبکههای متراکم[۴] نام دارند. در زمینه شبکههای عصبی باقیمانده، معمولا شبکههایی که لایه پرشی ندارند، شبکه ساده توصیف میشوند.
همانند حالت شبکههای عصبی بازگشتی با حافظه طولانی کوتاه-مدت[۵]، دو دلیل اصلی برای اضافه کردن لایههای پرشی وجود دارد: برای جلوگیری از مشکل ناپدید شدن گرادیانها[۶]، بنابراین منجر به بهینهسازی شبکههای عصبی آسانتر میشود، جایی که مکانیسمهای دروازهای جریان اطلاعات را در بسیاری از لایهها تسهیل میکنند ("بزرگراههای اطلاعات")[۷][۸]، یا برای کاهش مشکل تخریب (اشباع دقت). که در آن افزودن لایه های بیشتر به یک مدل عمیق مناسب منجر به خطای آموزشی بالاتر می شود. در طول تمرین (training) شبکه، وزنها برای خنثی کردن لایه بالادستی و تقویت لایهای که قبلاً حذف شده بود، سازگار میشوند. در سادهترین حالت، فقط وزنهای اتصال لایه مجاور تطبیق داده میشوند، بدون وزن صریح برای لایه بالادست. زمانی که یک لایه غیرخطی منفرد از آن عبور میکند، یا زمانی که لایههای میانی همگی خطی هستند، بهترین کار را انجام میدهد. اگر نه، پس باید یک ماتریس وزن صریح برای اتصال پرشی آموخته شود (یک شبکه بزرگراه باید استفاده شود).
پرش به طور مؤثر شبکه را ساده می کند و از لایه های کمتری در مراحل اولیه آموزش استفاده می کند. این امر با کاهش تأثیر گرادیان های در حال از بین رفتن سرعت یادگیری را افزایش می دهد، زیرا لایه های کمتری برای انتشار وجود دارد. سپس شبکه با یادگیری فضای ویژگی، به تدریج لایه های پرش شده را بازیابی می کند. در پایان آموزش، وقتی همه لایهها گسترش مییابند، به منیفولد نزدیکتر میماند [روشنسازی لازم] و بنابراین سریعتر یاد میگیرد. یک شبکه عصبی بدون قطعات باقیمانده بیشتر فضای ویژگی را بررسی می کند. این باعث آسیب پذیری بیشتر آن در برابر اختلالاتی می شود که باعث خروج آن از منیفولد می شود و نیاز به داده های آموزشی اضافی برای بازیابی دارد.
یک شبکه عصبی باقیمانده برای برنده شدن در رقابت ImageNet 2015[۹] استفاده شد و به پر استنادترین شبکه عصبی قرن بیست و یکم تبدیل شد. [۱۰]
انتشار به سمت جلو در شبکه
اگر ماتریس وزن برای اتصال از لایه ام به لایه ام و ماتریس برای اتصال از لایه ام به لایه ام درنظر بگیریم، در این صورت حاصل انتشار رو به جلو از میان تابع فعالساز برابر خواهد بود با: الگو:چپ چین الگو:پایان چپ چین که
- خروجی نورونهای در لایه ام،
- تابه فعالساز برای لایه ام،
- وزن برای اتصال بین لایههای ام و ام
- و خروجی لایه ام هستند.
- اگر تعداد نورونهای لایه ام با تعداد نورونهای لایه ام باشد و ماتریس همانی باشد، در این صورت حاصل انتشار رو به جلو میتواند به صورت ساده شود. در این حالت به اتصال بین لایه ام و لایه ام بلوک همانی گفته میشود.
- در قشر مغز چنین پرش های رو به جلو برای چندین لایه انجام می شود. معمولاً همه پرش های به جلو از یک لایه شروع می شوند و به طور متوالی به لایه های بعدی متصل می شوند. در حالت کلی این به صورت (معروف به DenseNets) بیان می شود.
انتشار به سمت عقب
در هنگام یادگیری به سمت عقب برای یک مسیر ساده داریم:
و برای یک مسیر پرشی داریم:
که در هردو حالت:
- نرخ یادگیری است (0<)،
- سیگنال خطا (مشتق تابع هزینه نسبت به مقدار عدد ورودی به نورون) برای نورونهای لایه ام،
- بردار خروجی نورونها برای لایه ام هستند.
- اگر مسیر پرش وزنهای ثابتی داشته باشد (مثلاً ماتریس همانی، مانند بالا)، آنها بهروزرسانی نمیشوند. در حالت کلی میتواند K ماتریس وزن برای لایههای پرشی وجود داشته باشد که:
- از آنجایی که قوانین یادگیری مشابه هستند، ماتریس های وزن را می توان با هم ادغام کرد و در همان مرحله یاد گرفت.
انواع معماری شبکه عصبی باقیمانده

برای شبکه عصبی باقیمانده، معماریهای با تعداد لایه های مختلف وجود دارد که برای زمانی که نیاز داریم تا مدل پیچیدگی بیشتری داشته باشد و بتواند الگوهای سختتری را یاد بگیرد، میتوانیم از شبکههای با عمق بیشتر استفاده کنیم (اما همچنان در این مدلها نیز با افزایش تعداد لایهها و پارامترها، خطر مشکل ناپدید شدن گرادیانها و بیش برازش وجود دارد).
پیادهسازیهای موجود
در کتابخانه PyTorch، مدلهای 18 لایه، 34 لایه، 52 لایه 101 و 152 لایه پیادهسازی شدهاند که میتوان از آنها به صورت آماده استفاده کرد و همچنین در کتابخانه TensorFlow نیز معماریهای 52 لایه، 101 لایه و 152 لایه موجود هستند.