فرآیند گاوسی شبکه عصبی

الگو:ترجمه الگو:ویکی سازی پرونده:Infinitely wide neural network.webm شبکه‌های بیزی ابزار مدل‌سازی برای تخصیص احتمالات به رویدادها و در نتیجه مشخص کردن احتمال درستی یا نادرستی در پیش‌بینی‌های یک مدل هستند. یادگیری عمیق و شبکه‌های عصبی رویکردهایی هستند که در یادگیری ماشین برای ساخت مدل‌های محاسباتی استفاده می‌شوند که از داده‌های آموزشی یادمی‌گیرند و با داده‌های تست ارزیابی می‌شوند. شبکه‌های عصبی بیزی این دو رشته را ادغام می‌کنند. آنها نوعی شبکه عصبی هستند که پارامترها و پیش‌بینی‌های آنها هر دو احتمالاتی هستند.^[۱] در حالی که شبکه‌های عصبی معمولی اغلب پیش‌بینی‌های قطعی بعنی صفر و یک دارند،^[۲] شبکه‌های عصبی بیزی می‌توانند با دقت بیشتری و به صورت غیر قطعی احتمال درست بودن پیش‌بینی‌هایشان را ارزیابی کنند.

فرآیندهای گاوسی شبکه عصبی (NNGPs) تا حدی معادل شبکه‌های عصبی بیزی هستند،^[۳]^[۴]^[۵]^[۶]^[۷]^[۸]^[۹] و یک شکل بسته ارائه می‌کنند. روشی برای ارزیابی شبکه‌های عصبی بیزی آنها یک توزیع احتمال فرایند گاوسی هستند که توزیع بر روی پیش‌بینی‌های انجام شده توسط شبکه عصبی بیزی مربوطه را توصیف می‌کند. محاسبات در شبکه‌های عصبی مصنوعی معمولاً در لایه‌های متوالی نورون‌های مصنوعی سازماندهی می‌شوند. به تعداد نورون‌های یک لایه، عرض لایه می‌گویند. هم‌ارزی بین NNGPها و شبکه‌های عصبی بیزی زمانی اتفاق می‌افتد که لایه‌ها در شبکه عصبی بیزی بی‌نهایت گسترده شوند (شکل را ببینید). این محدودیت عرض بزرگ مورد توجه عملی است، زیرا شبکه‌های عصبی با عرض محدود معمولاً با افزایش عرض لایه عملکرد بهتری دارند.^[۱۰]^[۱۱]^[۷]^[۱۲]

NNGP همچنین در زمینه‌های دیگر ظاهر می‌شود: توزیع را بر روی پیش‌بینی‌های انجام شده توسط شبکه‌های غیر بیزی پس از مقداردهی اولیه رندوم پارامترهای این شبکه‌ها، توصیف می‌کند، اما این اتفاق قبل از یادگیری شبکه رخ می‌دهد. به عنوان یک اصطلاح در هسته مماس عصبی معادلات پیش‌بینی ظاهر می‌شود. از شبکه گاوسی در انتشار اطلاعات عمیق استفاده می‌شود تا مشخص شود که آیا هایپرپارامترها و معماری‌ها قابلیت بادگیری دارند یا خیر.^[۱۳] این به محدودیت‌های تعداد نورون‌های شبکه‌های عصبی مربوط می‌شود.

یک تصویر کارتونی

هر تنظیم پارامترهای یک شبکه عصبی $θ$ مربوط به یک تابع خاص است که توسط شبکه عصبی محاسبه می‌شود. توزیع ابتدایی $p (θ)$ روی پارامترهای شبکه عصبی مربوط به یک توزیع بر روی توابع محاسبه شده توسط شبکه است. از آنجایی که شبکه‌های عصبی بی‌نهایت گسترده هستند، این توزیع بر روی توابع برای بسیاری از معماری‌ها به یک فرایند گاوسی همگرا می‌شود.

شکل سمت راست خروجی‌های یک بعدی را ترسیم می‌کند $z^{L} (\cdot; θ)$ یک شبکه عصبی برای دو ورودی $x$ و $x^{*}$ در برابر یکدیگر نقاط سیاه تابع محاسبه شده توسط شبکه عصبی روی این ورودی‌ها را برای ترسیم تصادفی پارامترها از $p (θ)$ . خطوط قرمز، خطوط همسان احتمال برای توزیع مشترک بر روی خروجی‌های شبکه یعنی $z^{L} (x; θ)$ و $z^{L} (x^{*}; θ)$ هستند که از توزیع $p (θ)$ القا شده‌است. . این توزیع در فضای تابع مربوط به توزیع $p (θ)$ در فضای پارامتر است، و نقاط سیاه نمونه‌هایی از این توزیع هستند. برای شبکه‌های عصبی بی‌نهایت گسترده، از آنجایی که توزیع روی توابع محاسبه شده توسط شبکه عصبی یک فرایند گاوسی است، توزیع مشترک بر روی خروجی‌های یک شبکه گاوسی چند متغیره برای هر مجموعه متناهی از ورودی‌های شبکه است.

نماد استفاده شده در این بخش مانند نماد استفاده شده در زیر برای به دست آوردن مطابقت بین NNGPها و شبکه‌های کاملاً همبند است و جزئیات بیشتر نیز قابل مشاهده است..

معماری‌هایی که با NNGP مطابقت دارند

نشان داده شده‌است که هم‌ارزی بین شبکه‌های عصبی بیزینی با پهنای بی‌نهایت و NNGP برای: شبکه‌های کاملاً متصل^[۳] و عمیق^[۵]^[۶] برقرار است، زیرا تعداد واحدها در هر لایه به بی‌نهایت می‌رسد. شبکه‌های عصبی کانولوشن به عنوان تعداد کانال‌ها تا بی‌نهایت گرفته می‌شود.^[۷]^[۸] شبکه‌های ترانسفورماتور به عنوان تعداد سر توجه به بی‌نهایت گرفته می‌شود.^[۱۴] شبکه‌های تکراری به عنوان تعداد واحدها تا بی‌نهایت گرفته می‌شود.^[۹] در واقع، این تناظر NNGP تقریباً برای هر معماری صادق است: به‌طور کلی، اگر یک معماری را بتوان صرفاً از طریق ضرب ماتریس و غیرخطی‌های هماهنگی بیان کرد (یعنی یک برنامه تانسور)، آنگاه دارای یک GP با عرض نامحدود است.^[۹] این به‌طور خاص شامل تمام شبکه‌های عصبی پیش‌خور یا بازگشتی متشکل از پرسپترون چندلایه، شبکه‌های عصبی بازگشتی (مثلاً LSTMs، درنا)، (دوم یا نمودار) پیچیدگی، تجمع، جست و خیز اتصال، توجه، عادی دسته ای، و / یا لایه عادی.

معماری‌های خاصی را می‌توان طوری تغییر داد که به شبکه‌های عصبی بیزی نامتناهی اجازه دهد که NNGP با هسته‌های ترکیب شده از طریق عملیات افزایشی و ضربی تولید کنند.^[۱۵]

مکاتبات بین یک شبکه کاملاً متصل بی‌نهایت گسترده و یک فرایند گاوسی

این بخش در مورد تطابق بین شبکه‌های عصبی گسترده و فرآیندهای گاوسی برای مورد خاص یک معماری کاملاً متصل گسترش می‌یابد. این یک طرح اثباتی ارائه می‌دهد که نشان می‌دهد چرا مکاتبات برقرار است، و شکل عملکرد خاص NNGP را برای شبکه‌های کاملاً متصل معرفی می‌کند. طرح اثبات نزدیک به رویکرد نواک و همکاران است..^[۷]

یک شبکه عصبی مصنوعی کاملاً متصل با ورودی‌ها را در نظر بگیرید $x$ ، مولفه‌های $θ$ متشکل از وزنه‌ها $W^{l}$ و تعصبات $b^{l}$ برای هر لایه $l$ در شبکه، پیش فعال سازی (پیش غیرخطی) $z^{l}$ ، فعال سازی (پس از غیرخطی بودن) $y^{l}$ ، غیرخطی نقطه ای $ϕ (\cdot)$ و عرض لایه‌ها $n^{l}$ . برای سادگی، عرض $n^{L + 1}$ از بردار بازخوانی $z^{L}$ 1 در نظر گرفته شده‌است. پارامترهای این شبکه دارای توزیع قبلی هستند $p (θ)$ ، که از یک گاوسی همسانگرد برای هر وزن و بایاس تشکیل شده‌است، با واریانس وزن‌ها به صورت معکوس با عرض لایه. این شبکه در شکل سمت راست نشان داده شده‌است و با مجموعه معادلات زیر توضیح داده شده‌است:

\begin{matrix} x & \equiv input \\ y^{l} (x) & = {\begin{matrix} x & l = 0 \\ ϕ (z^{l - 1} (x)) & l > 0 \end{matrix} \\ z_{i}^{l} (x) & = \sum_{j} W_{i j}^{l} y_{j}^{l} (x) + b_{i}^{l} \\ W_{i j}^{l} & \sim 𝒩 (0, \frac{σ_{w}^{2}}{n^{l}}) \\ b_{i}^{l} & \sim 𝒩 (0, σ_{b}^{2}) \\ ϕ (\cdot) & \equiv nonlinearity \\ y^{l} (x), z^{l - 1} (x) & \in ℝ^{n^{l} \times 1} \\ n^{L + 1} & = 1 \\ θ & = {W^{0}, b^{0}, \dots, W^{L}, b^{L}} \end{matrix}

$z^{l} | y^{l}$ یک فرایند گاوسی است

ابتدا مشاهده می‌کنیم که پیش فعال سازی‌ها $z^{l}$ توسط یک فرایند گاوسی مشروط به فعال سازی‌های قبلی توصیف می‌شوند $y^{l}$ . این نتیجه حتی در عرض محدود نیز برقرار است. هر پیش فعال سازی $z_{i}^{l}$ یک مجموع وزنی از متغیرهای تصادفی گاوسی است که مربوط به اوزان است $W_{i j}^{l}$ و تعصبات $b_{i}^{l}$ ، که در آن ضرایب هر یک از آن متغیرهای گاوسی، فعال سازی‌های قبلی هستند $y_{j}^{l}$ . از آنجایی که آنها مجموع وزنی از گاوسیان با میانگین صفر هستند $z_{i}^{l}$ خودشان گاوسیان صفر میانگین هستند (مشروط به ضرایب $y_{j}^{l}$ ). از آنجا که $z^{l}$ به‌طور مشترک برای هر مجموعه ای از گاوسی هستند $y^{l}$ ، آنها توسط یک فرایند گاوسی مشروط به فعال سازی‌های قبلی توصیف می‌شوند $y^{l}$ . کوواریانس یا هسته این فرایند گاوسی به وزن و واریانس بایاس بستگی دارد $σ_{w}^{2}$ و $σ_{b}^{2}$ و همچنین ماتریس لحظه دوم $K^{l}$ از فعال سازی‌های قبلی $y^{l}$ .

\begin{matrix} z_{i}^{l} ∣ y^{l} & \sim 𝒢 𝒫 (0, σ_{w}^{2} K^{l} + σ_{b}^{2}) \\ K^{l} (x, x^{'}) & = \frac{1}{n^{l}} \sum_{i} y_{i}^{l} (x) y_{i}^{l} (x^{'}) \end{matrix}

تأثیر ترازو وزن $σ_{w}^{2}$ این است که سهم به ماتریس کوواریانس را مجدداً مقیاس بندی کنیم $K^{l}$ ، در حالی که سوگیری برای همه ورودی‌ها مشترک است و غیره $σ_{b}^{2}$ را می‌سازد $z_{i}^{l}$ برای نقاط داده مختلف شبیه تر است و ماتریس کوواریانس را بیشتر شبیه به یک ماتریس ثابت می‌کند.

$z^{l} | K^{l}$ یک فرایند گاوسی است

پیش فعال سازی‌ها $z^{l}$ فقط به $y^{l}$ از طریق ماتریس لحظه دوم آن $K^{l}$ وابسته است. به همین دلیل می‌توان گفت که $z^{l}$ یک فرایند گاوسی شرطی روی $K^{l}$ است، نه روی $y^{l}$ .

\begin{matrix} z_{i}^{l} ∣ K^{l} & \sim 𝒢 𝒫 (0, σ_{w}^{2} K^{l} + σ_{b}^{2}) . \end{matrix}

به عنوان عرض لایه $n^{l} \to \infty$ ، $K^{l} ∣ K^{l - 1}$ قطعی می‌شود

همان‌طور که قبلاً تعریف شد، $K^{l}$ ماتریس لحظه دوم از $y^{l}$ . از آنجا که $y^{l}$ بردار فعال سازی پس از اعمال غیرخطی است $ϕ$ ، می‌توان آن را جایگزین کرد $ϕ (z^{l - 1})$ ، و در نتیجه یک معادله اصلاح شده بیان می‌کند $K^{l}$ برای $l > 0$ به لحاظ $z^{l - 1}$ ،

\begin{matrix} K^{l} (x, x^{'}) & = \frac{1}{n^{l}} \sum_{i} ϕ (z_{i}^{l - 1} (x)) ϕ (z_{i}^{l - 1} (x^{'})) . \end{matrix}

ما قبلاً تعیین کرده‌ایم که $z^{l - 1} | K^{l - 1}$ یک فرایند گاوسی است. این یعنی مجموعی که $K^{l}$ را تعریف می‌کند، میانگین $n^{l}$ نمونه ای از یک فرایند گاوسی است که خود تابعی از $K^{l - 1}$ است.

$\begin{matrix} {z_{i}^{l - 1} (x), z_{i}^{l - 1} (x^{'})} & \sim 𝒢 𝒫 (0, σ_{w}^{2} K^{l - 1} + σ_{b}^{2}) . \end{matrix}$

به عنوان عرض لایه $n^{l}$ به بی‌نهایت می‌رود، این میانگین به پایان می‌رسد $n^{l}$ نمونه‌هایی از فرایند گاوسی را می‌توان با یک انتگرال بر روی فرایند گاوسی جایگزین کرد:

\begin{matrix} \lim_{\lim^{l} \to \infty} K^{l} (x, x^{'}) & = \int d z d z^{'} ϕ (z) ϕ (z^{'}) 𝒩 ([\begin{matrix} z \\ z^{'} \end{matrix}]; 0, σ_{w}^{2} [\begin{matrix} K^{l - 1} (x, x) & K^{l - 1} (x, x^{'}) \\ K^{l - 1} (x^{'}, x) & K^{l - 1} (x^{'}, x^{'}) \end{matrix}] + σ_{b}^{2}) \end{matrix}

بنابراین، در محدوده عرض نامحدود ماتریس لحظه دوم $K^{l}$ برای هر جفت ورودی $x$ و $x^{'}$ را می‌توان به عنوان یک انتگرال بر روی یک گاوسی ۲ بعدی، از حاصل ضرب بیان کرد $ϕ (z)$ و $ϕ (z^{'})$ . تعدادی از موقعیت‌ها وجود دارد که در آن این به صورت تحلیلی حل شده‌است، مانند زمانی که $ϕ (\cdot)$ یک تابع غیرخطی ReLU ,^[۱۶] ELU, GELU، یا خطا.^[۴] حتی زمانی که نمی‌توان آن را به صورت تحلیلی حل کرد، از آنجایی که یک انتگرال ۲ بعدی است، به‌طور کلی می‌توان آن را به صورت عددی به‌طور مؤثر محاسبه کرد.^[۵] این انتگرال قطعی است، بنابراین $K^{l} | K^{l - 1}$ قطعی است. برای کوتاه نویسی یک تابع تعریف می‌کنیم $F$ ، که مربوط به محاسبه این انتگرال ۲ بعدی برای همه جفت ورودی‌ها و نقشه‌ها است $K^{l - 1}$ به $K^{l}$ ،

\begin{matrix} \lim_{\lim^{l} \to \infty} K^{l} & = F (K^{l - 1}) . \end{matrix}

$z^{L} ∣ x$ یک NNGP است

با اعمال این مشاهده به صورت بازگشتی که $K^{l} ∣ K^{l - 1}$ وقتی $n^{l} \to \infty$ ، قطعی است، $K^{L}$ را می‌توان به عنوان یک تابع قطعی $K^{0}$ در نظر گرفت،

\begin{matrix} \lim_{\min (n^{1}, \dots, n^{L}) \to \infty} K^{L} & = F \circ F \dots (K^{0}) = F^{L} (K^{0}), \end{matrix}

جایی که $F^{L}$ نشان دهنده اعمال تابعی است $F$ به صورت متوالی $L$ بار. با ترکیب این عبارت با مشاهدات بعدی که لایه ورودی ماتریس گشتاور دوم است $K^{0} (x, x^{'}) = \frac{1}{n^{0}} \sum_{i} x_{i} x'_{i}$ تابع قطعی ورودی است $x$ ، و آن $z^{L} | K^{L}$ یک فرایند گاوسی است، خروجی شبکه عصبی را می‌توان به عنوان یک فرایند گاوسی بر حسب ورودی آن بیان کرد،

\begin{matrix} z_{i}^{L} (x) & \sim 𝒢 𝒫 (0, σ_{w}^{2} F^{L} (K^{0}) + σ_{b}^{2}) . \end{matrix}

کتابخانه‌های نرم‌افزاری

Neural Tangents یک کتابخانه رایگان و منبع باز پایتون است که برای محاسبه و انجام استنتاج با NNGP و هسته مماس عصبی مربوط به معماری‌های مختلف ANN رایج استفاده می‌شود.^[۱۷]

منابع

الگو:پانویس

[1] الگو:Cite journal

[2] الگو:Cite journal

[:2-3] ۳٫۰ ^۳٫۱ الگو:Citation

[:11-4] ۴٫۰ ^۴٫۱ الگو:Cite journal

[:0-5] ۵٫۰ ^۵٫۱ ^۵٫۲ الگو:Cite journal

[:3-6] ۶٫۰ ^۶٫۱ الگو:Cite journal

[:1-7] ۷٫۰ ^۷٫۱ ^۷٫۲ ^۷٫۳ الگو:Cite journal

[:4-8] ۸٫۰ ^۸٫۱ الگو:Cite journal

[:5-9] ۹٫۰ ^۹٫۱ ^۹٫۲ الگو:Cite journal

[:7-10] الگو:Cite journal

[:8-11] الگو:Cite journal

[:6-12] الگو:Cite journal

[:10-13] الگو:Cite journal

[14] الگو:Cite journal

[15] الگو:Cite journal

[16] الگو:Cite journal

[17] الگو:Citation

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

فرآیند گاوسی شبکه عصبی

فهرست

یک تصویر کارتونی

معماری‌هایی که با NNGP مطابقت دارند

مکاتبات بین یک شبکه کاملاً متصل بی‌نهایت گسترده و یک فرایند گاوسی

$z^{l} | y^{l}$ یک فرایند گاوسی است

$z^{l} | K^{l}$ یک فرایند گاوسی است

به عنوان عرض لایه $n^{l} \to \infty$ ، $K^{l} ∣ K^{l - 1}$ قطعی می‌شود

$z^{L} ∣ x$ یک NNGP است

کتابخانه‌های نرم‌افزاری

منابع

منوی ناوبری

فرآیند گاوسی شبکه عصبی

یک تصویر کارتونی

معماری‌هایی که با NNGP مطابقت دارند

مکاتبات بین یک شبکه کاملاً متصل بی‌نهایت گسترده و یک فرایند گاوسی

zl|yl یک فرایند گاوسی است

zl|Kl یک فرایند گاوسی است

به عنوان عرض لایه nl→∞ ، Kl∣Kl−1 قطعی می‌شود

zL∣x یک NNGP است

کتابخانه‌های نرم‌افزاری

منابع

منوی ناوبری

جستجو

$z^{l} | y^{l}$ یک فرایند گاوسی است

$z^{l} | K^{l}$ یک فرایند گاوسی است

به عنوان عرض لایه $n^{l} \to \infty$ ، $K^{l} ∣ K^{l - 1}$ قطعی می‌شود

$z^{L} ∣ x$ یک NNGP است