فرآیند گاوسی شبکه عصبی
الگو:ترجمه الگو:ویکی سازی پرونده:Infinitely wide neural network.webm شبکههای بیزی ابزار مدلسازی برای تخصیص احتمالات به رویدادها و در نتیجه مشخص کردن احتمال درستی یا نادرستی در پیشبینیهای یک مدل هستند. یادگیری عمیق و شبکههای عصبی رویکردهایی هستند که در یادگیری ماشین برای ساخت مدلهای محاسباتی استفاده میشوند که از دادههای آموزشی یادمیگیرند و با دادههای تست ارزیابی میشوند. شبکههای عصبی بیزی این دو رشته را ادغام میکنند. آنها نوعی شبکه عصبی هستند که پارامترها و پیشبینیهای آنها هر دو احتمالاتی هستند.[۱] در حالی که شبکههای عصبی معمولی اغلب پیشبینیهای قطعی بعنی صفر و یک دارند،[۲] شبکههای عصبی بیزی میتوانند با دقت بیشتری و به صورت غیر قطعی احتمال درست بودن پیشبینیهایشان را ارزیابی کنند.
فرآیندهای گاوسی شبکه عصبی (NNGPs) تا حدی معادل شبکههای عصبی بیزی هستند،[۳][۴][۵][۶][۷][۸][۹] و یک شکل بسته ارائه میکنند. روشی برای ارزیابی شبکههای عصبی بیزی آنها یک توزیع احتمال فرایند گاوسی هستند که توزیع بر روی پیشبینیهای انجام شده توسط شبکه عصبی بیزی مربوطه را توصیف میکند. محاسبات در شبکههای عصبی مصنوعی معمولاً در لایههای متوالی نورونهای مصنوعی سازماندهی میشوند. به تعداد نورونهای یک لایه، عرض لایه میگویند. همارزی بین NNGPها و شبکههای عصبی بیزی زمانی اتفاق میافتد که لایهها در شبکه عصبی بیزی بینهایت گسترده شوند (شکل را ببینید). این محدودیت عرض بزرگ مورد توجه عملی است، زیرا شبکههای عصبی با عرض محدود معمولاً با افزایش عرض لایه عملکرد بهتری دارند.[۱۰][۱۱][۷][۱۲]
NNGP همچنین در زمینههای دیگر ظاهر میشود: توزیع را بر روی پیشبینیهای انجام شده توسط شبکههای غیر بیزی پس از مقداردهی اولیه رندوم پارامترهای این شبکهها، توصیف میکند، اما این اتفاق قبل از یادگیری شبکه رخ میدهد. به عنوان یک اصطلاح در هسته مماس عصبی معادلات پیشبینی ظاهر میشود. از شبکه گاوسی در انتشار اطلاعات عمیق استفاده میشود تا مشخص شود که آیا هایپرپارامترها و معماریها قابلیت بادگیری دارند یا خیر.[۱۳] این به محدودیتهای تعداد نورونهای شبکههای عصبی مربوط میشود.
یک تصویر کارتونی

هر تنظیم پارامترهای یک شبکه عصبی مربوط به یک تابع خاص است که توسط شبکه عصبی محاسبه میشود. توزیع ابتدایی روی پارامترهای شبکه عصبی مربوط به یک توزیع بر روی توابع محاسبه شده توسط شبکه است. از آنجایی که شبکههای عصبی بینهایت گسترده هستند، این توزیع بر روی توابع برای بسیاری از معماریها به یک فرایند گاوسی همگرا میشود.
شکل سمت راست خروجیهای یک بعدی را ترسیم میکند یک شبکه عصبی برای دو ورودی و در برابر یکدیگر نقاط سیاه تابع محاسبه شده توسط شبکه عصبی روی این ورودیها را برای ترسیم تصادفی پارامترها از . خطوط قرمز، خطوط همسان احتمال برای توزیع مشترک بر روی خروجیهای شبکه یعنی و هستند که از توزیع القا شدهاست. . این توزیع در فضای تابع مربوط به توزیع در فضای پارامتر است، و نقاط سیاه نمونههایی از این توزیع هستند. برای شبکههای عصبی بینهایت گسترده، از آنجایی که توزیع روی توابع محاسبه شده توسط شبکه عصبی یک فرایند گاوسی است، توزیع مشترک بر روی خروجیهای یک شبکه گاوسی چند متغیره برای هر مجموعه متناهی از ورودیهای شبکه است.
نماد استفاده شده در این بخش مانند نماد استفاده شده در زیر برای به دست آوردن مطابقت بین NNGPها و شبکههای کاملاً همبند است و جزئیات بیشتر نیز قابل مشاهده است..
معماریهایی که با NNGP مطابقت دارند
نشان داده شدهاست که همارزی بین شبکههای عصبی بیزینی با پهنای بینهایت و NNGP برای: شبکههای کاملاً متصل[۳] و عمیق[۵][۶] برقرار است، زیرا تعداد واحدها در هر لایه به بینهایت میرسد. شبکههای عصبی کانولوشن به عنوان تعداد کانالها تا بینهایت گرفته میشود.[۷][۸] شبکههای ترانسفورماتور به عنوان تعداد سر توجه به بینهایت گرفته میشود.[۱۴] شبکههای تکراری به عنوان تعداد واحدها تا بینهایت گرفته میشود.[۹] در واقع، این تناظر NNGP تقریباً برای هر معماری صادق است: بهطور کلی، اگر یک معماری را بتوان صرفاً از طریق ضرب ماتریس و غیرخطیهای هماهنگی بیان کرد (یعنی یک برنامه تانسور)، آنگاه دارای یک GP با عرض نامحدود است.[۹] این بهطور خاص شامل تمام شبکههای عصبی پیشخور یا بازگشتی متشکل از پرسپترون چندلایه، شبکههای عصبی بازگشتی (مثلاً LSTMs، درنا)، (دوم یا نمودار) پیچیدگی، تجمع، جست و خیز اتصال، توجه، عادی دسته ای، و / یا لایه عادی.
معماریهای خاصی را میتوان طوری تغییر داد که به شبکههای عصبی بیزی نامتناهی اجازه دهد که NNGP با هستههای ترکیب شده از طریق عملیات افزایشی و ضربی تولید کنند.[۱۵]
مکاتبات بین یک شبکه کاملاً متصل بینهایت گسترده و یک فرایند گاوسی
این بخش در مورد تطابق بین شبکههای عصبی گسترده و فرآیندهای گاوسی برای مورد خاص یک معماری کاملاً متصل گسترش مییابد. این یک طرح اثباتی ارائه میدهد که نشان میدهد چرا مکاتبات برقرار است، و شکل عملکرد خاص NNGP را برای شبکههای کاملاً متصل معرفی میکند. طرح اثبات نزدیک به رویکرد نواک و همکاران است..[۷]

یک شبکه عصبی مصنوعی کاملاً متصل با ورودیها را در نظر بگیرید ، مولفههای متشکل از وزنهها و تعصبات برای هر لایه در شبکه، پیش فعال سازی (پیش غیرخطی) ، فعال سازی (پس از غیرخطی بودن) ، غیرخطی نقطه ای و عرض لایهها . برای سادگی، عرض از بردار بازخوانی 1 در نظر گرفته شدهاست. پارامترهای این شبکه دارای توزیع قبلی هستند ، که از یک گاوسی همسانگرد برای هر وزن و بایاس تشکیل شدهاست، با واریانس وزنها به صورت معکوس با عرض لایه. این شبکه در شکل سمت راست نشان داده شدهاست و با مجموعه معادلات زیر توضیح داده شدهاست:
یک فرایند گاوسی است
ابتدا مشاهده میکنیم که پیش فعال سازیها توسط یک فرایند گاوسی مشروط به فعال سازیهای قبلی توصیف میشوند . این نتیجه حتی در عرض محدود نیز برقرار است. هر پیش فعال سازی یک مجموع وزنی از متغیرهای تصادفی گاوسی است که مربوط به اوزان است و تعصبات ، که در آن ضرایب هر یک از آن متغیرهای گاوسی، فعال سازیهای قبلی هستند . از آنجایی که آنها مجموع وزنی از گاوسیان با میانگین صفر هستند خودشان گاوسیان صفر میانگین هستند (مشروط به ضرایب ). از آنجا که بهطور مشترک برای هر مجموعه ای از گاوسی هستند ، آنها توسط یک فرایند گاوسی مشروط به فعال سازیهای قبلی توصیف میشوند . کوواریانس یا هسته این فرایند گاوسی به وزن و واریانس بایاس بستگی دارد و و همچنین ماتریس لحظه دوم از فعال سازیهای قبلی .
تأثیر ترازو وزن این است که سهم به ماتریس کوواریانس را مجدداً مقیاس بندی کنیم ، در حالی که سوگیری برای همه ورودیها مشترک است و غیره را میسازد برای نقاط داده مختلف شبیه تر است و ماتریس کوواریانس را بیشتر شبیه به یک ماتریس ثابت میکند.
یک فرایند گاوسی است
پیش فعال سازیها فقط به از طریق ماتریس لحظه دوم آن وابسته است. به همین دلیل میتوان گفت که یک فرایند گاوسی شرطی روی است، نه روی .
به عنوان عرض لایه ، قطعی میشود
همانطور که قبلاً تعریف شد، ماتریس لحظه دوم از . از آنجا که بردار فعال سازی پس از اعمال غیرخطی است ، میتوان آن را جایگزین کرد ، و در نتیجه یک معادله اصلاح شده بیان میکند برای به لحاظ ،
ما قبلاً تعیین کردهایم که یک فرایند گاوسی است. این یعنی مجموعی که را تعریف میکند، میانگین نمونه ای از یک فرایند گاوسی است که خود تابعی از است.
به عنوان عرض لایه به بینهایت میرود، این میانگین به پایان میرسد نمونههایی از فرایند گاوسی را میتوان با یک انتگرال بر روی فرایند گاوسی جایگزین کرد:
بنابراین، در محدوده عرض نامحدود ماتریس لحظه دوم برای هر جفت ورودی و را میتوان به عنوان یک انتگرال بر روی یک گاوسی ۲ بعدی، از حاصل ضرب بیان کرد و . تعدادی از موقعیتها وجود دارد که در آن این به صورت تحلیلی حل شدهاست، مانند زمانی که یک تابع غیرخطی ReLU ,[۱۶] ELU, GELU، یا خطا.[۴] حتی زمانی که نمیتوان آن را به صورت تحلیلی حل کرد، از آنجایی که یک انتگرال ۲ بعدی است، بهطور کلی میتوان آن را به صورت عددی بهطور مؤثر محاسبه کرد.[۵] این انتگرال قطعی است، بنابراین قطعی است. برای کوتاه نویسی یک تابع تعریف میکنیم ، که مربوط به محاسبه این انتگرال ۲ بعدی برای همه جفت ورودیها و نقشهها است به ،
یک NNGP است
با اعمال این مشاهده به صورت بازگشتی که وقتی ، قطعی است، را میتوان به عنوان یک تابع قطعی در نظر گرفت،
جایی که نشان دهنده اعمال تابعی است به صورت متوالی بار. با ترکیب این عبارت با مشاهدات بعدی که لایه ورودی ماتریس گشتاور دوم است تابع قطعی ورودی است ، و آن یک فرایند گاوسی است، خروجی شبکه عصبی را میتوان به عنوان یک فرایند گاوسی بر حسب ورودی آن بیان کرد،
کتابخانههای نرمافزاری
Neural Tangents یک کتابخانه رایگان و منبع باز پایتون است که برای محاسبه و انجام استنتاج با NNGP و هسته مماس عصبی مربوط به معماریهای مختلف ANN رایج استفاده میشود.[۱۷]
منابع
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ ۳٫۰ ۳٫۱ الگو:Citation
- ↑ ۴٫۰ ۴٫۱ الگو:Cite journal
- ↑ ۵٫۰ ۵٫۱ ۵٫۲ الگو:Cite journal
- ↑ ۶٫۰ ۶٫۱ الگو:Cite journal
- ↑ ۷٫۰ ۷٫۱ ۷٫۲ ۷٫۳ الگو:Cite journal
- ↑ ۸٫۰ ۸٫۱ الگو:Cite journal
- ↑ ۹٫۰ ۹٫۱ ۹٫۲ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Citation