فرآیند گاوسی شبکه عصبی

از testwiki
پرش به ناوبری پرش به جستجو

الگو:ترجمه الگو:ویکی سازی پرونده:Infinitely wide neural network.webm شبکه‌های بیزی ابزار مدل‌سازی برای تخصیص احتمالات به رویدادها و در نتیجه مشخص کردن احتمال درستی یا نادرستی در پیش‌بینی‌های یک مدل هستند. یادگیری عمیق و شبکه‌های عصبی رویکردهایی هستند که در یادگیری ماشین برای ساخت مدل‌های محاسباتی استفاده می‌شوند که از داده‌های آموزشی یادمی‌گیرند و با داده‌های تست ارزیابی می‌شوند. شبکه‌های عصبی بیزی این دو رشته را ادغام می‌کنند. آنها نوعی شبکه عصبی هستند که پارامترها و پیش‌بینی‌های آنها هر دو احتمالاتی هستند.[۱] در حالی که شبکه‌های عصبی معمولی اغلب پیش‌بینی‌های قطعی بعنی صفر و یک دارند،[۲] شبکه‌های عصبی بیزی می‌توانند با دقت بیشتری و به صورت غیر قطعی احتمال درست بودن پیش‌بینی‌هایشان را ارزیابی کنند.

فرآیندهای گاوسی شبکه عصبی (NNGPs) تا حدی معادل شبکه‌های عصبی بیزی هستند،[۳][۴][۵][۶][۷][۸][۹] و یک شکل بسته ارائه می‌کنند. روشی برای ارزیابی شبکه‌های عصبی بیزی آنها یک توزیع احتمال فرایند گاوسی هستند که توزیع بر روی پیش‌بینی‌های انجام شده توسط شبکه عصبی بیزی مربوطه را توصیف می‌کند. محاسبات در شبکه‌های عصبی مصنوعی معمولاً در لایه‌های متوالی نورون‌های مصنوعی سازماندهی می‌شوند. به تعداد نورون‌های یک لایه، عرض لایه می‌گویند. هم‌ارزی بین NNGPها و شبکه‌های عصبی بیزی زمانی اتفاق می‌افتد که لایه‌ها در شبکه عصبی بیزی بی‌نهایت گسترده شوند (شکل را ببینید). این محدودیت عرض بزرگ مورد توجه عملی است، زیرا شبکه‌های عصبی با عرض محدود معمولاً با افزایش عرض لایه عملکرد بهتری دارند.[۱۰][۱۱][۷][۱۲]

NNGP همچنین در زمینه‌های دیگر ظاهر می‌شود: توزیع را بر روی پیش‌بینی‌های انجام شده توسط شبکه‌های غیر بیزی پس از مقداردهی اولیه رندوم پارامترهای این شبکه‌ها، توصیف می‌کند، اما این اتفاق قبل از یادگیری شبکه رخ می‌دهد. به عنوان یک اصطلاح در هسته مماس عصبی معادلات پیش‌بینی ظاهر می‌شود. از شبکه گاوسی در انتشار اطلاعات عمیق استفاده می‌شود تا مشخص شود که آیا هایپرپارامترها و معماری‌ها قابلیت بادگیری دارند یا خیر.[۱۳] این به محدودیت‌های تعداد نورون‌های شبکه‌های عصبی مربوط می‌شود.

یک تصویر کارتونی

وقتی پارامترها θ یک شبکه با عرض نامحدود به‌طور مکرر از شبکه قبلی خود نمونه برداری می‌شود p(θ) ، توزیع حاصل بر روی خروجی‌های شبکه توسط یک فرایند گاوسی توصیف می‌شود.

هر تنظیم پارامترهای یک شبکه عصبی θ مربوط به یک تابع خاص است که توسط شبکه عصبی محاسبه می‌شود. توزیع ابتدایی p(θ) روی پارامترهای شبکه عصبی مربوط به یک توزیع بر روی توابع محاسبه شده توسط شبکه است. از آنجایی که شبکه‌های عصبی بی‌نهایت گسترده هستند، این توزیع بر روی توابع برای بسیاری از معماری‌ها به یک فرایند گاوسی همگرا می‌شود.

شکل سمت راست خروجی‌های یک بعدی را ترسیم می‌کند zL(;θ) یک شبکه عصبی برای دو ورودی x و x* در برابر یکدیگر نقاط سیاه تابع محاسبه شده توسط شبکه عصبی روی این ورودی‌ها را برای ترسیم تصادفی پارامترها از p(θ) . خطوط قرمز، خطوط همسان احتمال برای توزیع مشترک بر روی خروجی‌های شبکه یعنی zL(x;θ) و zL(x*;θ) هستند که از توزیع p(θ) القا شده‌است. . این توزیع در فضای تابع مربوط به توزیع p(θ) در فضای پارامتر است، و نقاط سیاه نمونه‌هایی از این توزیع هستند. برای شبکه‌های عصبی بی‌نهایت گسترده، از آنجایی که توزیع روی توابع محاسبه شده توسط شبکه عصبی یک فرایند گاوسی است، توزیع مشترک بر روی خروجی‌های یک شبکه گاوسی چند متغیره برای هر مجموعه متناهی از ورودی‌های شبکه است.

نماد استفاده شده در این بخش مانند نماد استفاده شده در زیر برای به دست آوردن مطابقت بین NNGPها و شبکه‌های کاملاً همبند است و جزئیات بیشتر نیز قابل مشاهده است..

معماری‌هایی که با NNGP مطابقت دارند

نشان داده شده‌است که هم‌ارزی بین شبکه‌های عصبی بیزینی با پهنای بی‌نهایت و NNGP برای: شبکه‌های کاملاً متصل[۳] و عمیق[۵][۶] برقرار است، زیرا تعداد واحدها در هر لایه به بی‌نهایت می‌رسد. شبکه‌های عصبی کانولوشن به عنوان تعداد کانال‌ها تا بی‌نهایت گرفته می‌شود.[۷][۸] شبکه‌های ترانسفورماتور به عنوان تعداد سر توجه به بی‌نهایت گرفته می‌شود.[۱۴] شبکه‌های تکراری به عنوان تعداد واحدها تا بی‌نهایت گرفته می‌شود.[۹] در واقع، این تناظر NNGP تقریباً برای هر معماری صادق است: به‌طور کلی، اگر یک معماری را بتوان صرفاً از طریق ضرب ماتریس و غیرخطی‌های هماهنگی بیان کرد (یعنی یک برنامه تانسور)، آنگاه دارای یک GP با عرض نامحدود است.[۹] این به‌طور خاص شامل تمام شبکه‌های عصبی پیش‌خور یا بازگشتی متشکل از پرسپترون چندلایه، شبکه‌های عصبی بازگشتی (مثلاً LSTMs، درنا)، (دوم یا نمودار) پیچیدگی، تجمع، جست و خیز اتصال، توجه، عادی دسته ای، و / یا لایه عادی.

معماری‌های خاصی را می‌توان طوری تغییر داد که به شبکه‌های عصبی بیزی نامتناهی اجازه دهد که NNGP با هسته‌های ترکیب شده از طریق عملیات افزایشی و ضربی تولید کنند.[۱۵]

مکاتبات بین یک شبکه کاملاً متصل بی‌نهایت گسترده و یک فرایند گاوسی

این بخش در مورد تطابق بین شبکه‌های عصبی گسترده و فرآیندهای گاوسی برای مورد خاص یک معماری کاملاً متصل گسترش می‌یابد. این یک طرح اثباتی ارائه می‌دهد که نشان می‌دهد چرا مکاتبات برقرار است، و شکل عملکرد خاص NNGP را برای شبکه‌های کاملاً متصل معرفی می‌کند. طرح اثبات نزدیک به رویکرد نواک و همکاران است..[۷]

یک NNGP مشتق شده‌است که معادل یک شبکه عصبی بیزی با این معماری کاملاً متصل است.

یک شبکه عصبی مصنوعی کاملاً متصل با ورودی‌ها را در نظر بگیرید x ، مولفه‌های θ متشکل از وزنه‌ها Wl و تعصبات bl برای هر لایه l در شبکه، پیش فعال سازی (پیش غیرخطی) zl ، فعال سازی (پس از غیرخطی بودن) yl ، غیرخطی نقطه ای ϕ() و عرض لایه‌ها nl . برای سادگی، عرض nL+1 از بردار بازخوانی zL 1 در نظر گرفته شده‌است. پارامترهای این شبکه دارای توزیع قبلی هستند p(θ) ، که از یک گاوسی همسانگرد برای هر وزن و بایاس تشکیل شده‌است، با واریانس وزن‌ها به صورت معکوس با عرض لایه. این شبکه در شکل سمت راست نشان داده شده‌است و با مجموعه معادلات زیر توضیح داده شده‌است:

xinputyl(x)={xl=0ϕ(zl1(x))l>0zil(x)=jWijlyjl(x)+bilWijl𝒩(0,σw2nl)bil𝒩(0,σb2)ϕ()nonlinearityyl(x),zl1(x)nl×1nL+1=1θ={W0,b0,,WL,bL}

zl|yl یک فرایند گاوسی است

ابتدا مشاهده می‌کنیم که پیش فعال سازی‌ها zl توسط یک فرایند گاوسی مشروط به فعال سازی‌های قبلی توصیف می‌شوند yl . این نتیجه حتی در عرض محدود نیز برقرار است. هر پیش فعال سازی zil یک مجموع وزنی از متغیرهای تصادفی گاوسی است که مربوط به اوزان است Wijl و تعصبات bil ، که در آن ضرایب هر یک از آن متغیرهای گاوسی، فعال سازی‌های قبلی هستند yjl . از آنجایی که آنها مجموع وزنی از گاوسیان با میانگین صفر هستند zil خودشان گاوسیان صفر میانگین هستند (مشروط به ضرایب yjl). از آنجا که zl به‌طور مشترک برای هر مجموعه ای از گاوسی هستند yl ، آنها توسط یک فرایند گاوسی مشروط به فعال سازی‌های قبلی توصیف می‌شوند yl . کوواریانس یا هسته این فرایند گاوسی به وزن و واریانس بایاس بستگی دارد σw2 و σb2 و همچنین ماتریس لحظه دوم Kl از فعال سازی‌های قبلی yl.

zilyl𝒢𝒫(0,σw2Kl+σb2)Kl(x,x)=1nliyil(x)yil(x)

تأثیر ترازو وزن σw2 این است که سهم به ماتریس کوواریانس را مجدداً مقیاس بندی کنیم Kl ، در حالی که سوگیری برای همه ورودی‌ها مشترک است و غیره σb2 را می‌سازد zil برای نقاط داده مختلف شبیه تر است و ماتریس کوواریانس را بیشتر شبیه به یک ماتریس ثابت می‌کند.

zl|Kl یک فرایند گاوسی است

پیش فعال سازی‌ها zl فقط به yl از طریق ماتریس لحظه دوم آن Kl وابسته است. به همین دلیل می‌توان گفت که zl یک فرایند گاوسی شرطی روی Kl است، نه روی yl.

zilKl𝒢𝒫(0,σw2Kl+σb2).

به عنوان عرض لایه nl ، KlKl1 قطعی می‌شود

همان‌طور که قبلاً تعریف شد، Kl ماتریس لحظه دوم از yl . از آنجا که yl بردار فعال سازی پس از اعمال غیرخطی است ϕ ، می‌توان آن را جایگزین کرد ϕ(zl1) ، و در نتیجه یک معادله اصلاح شده بیان می‌کند Kl برای l>0 به لحاظ zl1 ،

Kl(x,x)=1nliϕ(zil1(x))ϕ(zil1(x)).

ما قبلاً تعیین کرده‌ایم که zl1|Kl1 یک فرایند گاوسی است. این یعنی مجموعی که Kl را تعریف می‌کند، میانگین nl نمونه ای از یک فرایند گاوسی است که خود تابعی از Kl1 است.

{zil1(x),zil1(x)}𝒢𝒫(0,σw2Kl1+σb2).

به عنوان عرض لایه nl به بی‌نهایت می‌رود، این میانگین به پایان می‌رسد nl نمونه‌هایی از فرایند گاوسی را می‌توان با یک انتگرال بر روی فرایند گاوسی جایگزین کرد:

limnlKl(x,x)=dzdzϕ(z)ϕ(z)𝒩([zz];0,σw2[Kl1(x,x)Kl1(x,x)Kl1(x,x)Kl1(x,x)]+σb2)

بنابراین، در محدوده عرض نامحدود ماتریس لحظه دوم Kl برای هر جفت ورودی x و x را می‌توان به عنوان یک انتگرال بر روی یک گاوسی ۲ بعدی، از حاصل ضرب بیان کرد ϕ(z) و ϕ(z) . تعدادی از موقعیت‌ها وجود دارد که در آن این به صورت تحلیلی حل شده‌است، مانند زمانی که ϕ() یک تابع غیرخطی ReLU ,[۱۶] ELU, GELU، یا خطا.[۴] حتی زمانی که نمی‌توان آن را به صورت تحلیلی حل کرد، از آنجایی که یک انتگرال ۲ بعدی است، به‌طور کلی می‌توان آن را به صورت عددی به‌طور مؤثر محاسبه کرد.[۵] این انتگرال قطعی است، بنابراین Kl|Kl1 قطعی است. برای کوتاه نویسی یک تابع تعریف می‌کنیم F ، که مربوط به محاسبه این انتگرال ۲ بعدی برای همه جفت ورودی‌ها و نقشه‌ها است Kl1 به Kl ،

limnlKl=F(Kl1).

zLx یک NNGP است

با اعمال این مشاهده به صورت بازگشتی که KlKl1 وقتی nl، قطعی است، KL را می‌توان به عنوان یک تابع قطعی K0 در نظر گرفت،

limmin(n1,,nL)KL=FF(K0)=FL(K0),

جایی که FL نشان دهنده اعمال تابعی است F به صورت متوالی L بار. با ترکیب این عبارت با مشاهدات بعدی که لایه ورودی ماتریس گشتاور دوم است K0(x,x)=1n0ixix'i تابع قطعی ورودی است x ، و آن zL|KL یک فرایند گاوسی است، خروجی شبکه عصبی را می‌توان به عنوان یک فرایند گاوسی بر حسب ورودی آن بیان کرد،

ziL(x)𝒢𝒫(0,σw2FL(K0)+σb2).

کتابخانه‌های نرم‌افزاری

Neural Tangents یک کتابخانه رایگان و منبع باز پایتون است که برای محاسبه و انجام استنتاج با NNGP و هسته مماس عصبی مربوط به معماری‌های مختلف ANN رایج استفاده می‌شود.[۱۷]

منابع

الگو:پانویس