مدلهای انتشاری
الگو:یادگیری ماشین مدلهای انتشاری الگو:انگلیسی در یادگیری ماشینی، دستهای از مدلهای متغیر پنهان الگو:انگلیسی هستند. این مدلها نوعی زنجیره مارکوف هستند که با استفاده از استنباط بیزی تغییراتی آموزش داده میشوند.[۱] هدف مدلهای انتشاری، یادگیری ساختار پنهان یک مجموعه داده با مدلسازی روشی است که در آن نقاط داده در فضای پنهان الگو:انگلیسی منتشر میشوند. در بینایی ماشین، این یعنی یک شبکه عصبی آموزش داده میشود تا با یادگیری معکوس فرایند انتشاری، با شروع از نویز گاوسی به تصاویر اصلی برسد.[۲][۳]
تاریخچه
مدلهای انتشاری در سال ۲۰۱۵ با ایدهگرفتن از ترمودینامیک غیرتعادلی معرفی شدند.
ایده
مدلهای انتشاری خانوادهای از مدلهای مولد احتمالی هستند که به تدریج دادهها را با اضافهکردن نویز تخریب میکنند، سپس یادمیگیرند که این فرایند را برای تولید نمونه معکوس کنند. یک مدل انتشاری از دو زنجیره مارکوف استفاده میکند: یک زنجیره مستقیم که دادهها را بهتدریج به نویز تبدیل میکند و یک زنجیره معکوس که نویز را به داده تبدیل میکند. اولی معمولاً با هدف تبدیل هر توزیع دادهای به یک توزیع پیشین ساده (مثلاً گاوسی استاندارد) به صورت دستی طراحی میشود، در حالی که زنجیره مارکوف دوم با یادگیری هستههای انتقال توسط شبکههای عصبی عمیق، اولی را معکوس میکند.[۴]
جزئیات
فرایند انتشار مستقیم
با داشتن یک نقطه داده نمونهبرداریشده از یک توزیع داده واقعی ، فرایند انتشار مستقیم الگو:انگلیسی را اینگونه تعریف میکنیم که در آن مقدار کمی نویز گاوسی را در گام به نمونه ورودی اضافه میکنیم تا نمونههای نویزدار تولید شود. اندازه گامها توسط یک برنامه واریانس کنترل میشود.
الگو:وسط چین الگو:پایان وسط چین
نمونه داده به تدریج ویژگیهای قابل مشاهده خود را با بزرگتر شدن گام از دست میدهد. درنهایت وقتی ، معادل یک توزیع گاوسی همسانگرد خواهد شد.
یک ویژگی خوب فرایند فوق این است که میتوانیم را در هر گام دلخواه به صورت فرم بسته زیر با فرض و محاسبه کنیم:[۵]
الگو:وسط چین الگو:پایان وسط چین
توجه کنید که وقتی دو توزیع نرمال با واریانسهای مختلف، و ادغام میکنیم، توزیع جدید خواهد بود. در رابطه بالا انحراف معیار برابر خواهد بود با:
فرایند انتشار معکوس
اگر بتوانیم فرایند بالا را معکوس کنیم و از نمونهبرداری کنیم، میتوانیم نمونه واقعی را از ورودی نویز گاوسی دوباره ایجاد کنیم. توجه کنید که اگر به اندازه کافی کوچک باشد، نیز گوسی خواهد بود. متأسفانه، ما نمیتوانیم را به راحتی تخمین بزنیم زیرا برای این کار باید از کل مجموعهداده استفاده کنیم، بنابراین باید مدلِ را برای تقریب این احتمالات شرطی به منظور اجرای فرایند انتشار معکوس یاد بگیریم.
الگو:وسط چین الگو:پایان وسط چین
احتمال شرطی معکوس زمانی قابل حل است که روی شرط شود:
الگو:وسط چین الگو:پایان وسط چین
با اعمال قاعده بیز داریم:
الگو:وسط چین الگو:پایان وسط چین
با توجه به تابع چگالی توزیع گاوسی، میانگین و واریانس را میتوان به صورت زیر بهدستآورد:
الگو:وسط چین الگو:پایان وسط چین
میدانیم که و با جایگذاری در عبارات بالا خواهیم داشت:
الگو:وسط چین الگو:پایان وسط چین
تابع هزینه برای آموزش فرایند انتشاری
برای تقریب توزیع احتمال شرطی در فرایند انتشار معکوس نیاز به یادگیری یک شبکه عصبی داریم. درواقع میخواهیم را آموزش دهیم که را پیشبینی کند. از آنجایی که بهعنوان ورودی مدل هنگام آموزش داده میشود، میتوانیم با تغییر عبارت نویز گاوسی را از ورودی در گام پیشبینی کنیم:
الگو:وسط چین الگو:پایان وسط چین
پس تابع هزینه برای کمینه کردن اختلاف از به صورت زیر خواهد بود:
الگو:وسط چین الگو:پایان وسط چین
در مقاله[۱] نشان داده شدهاست که آموزش مدل انتشاری با تابع هزینه زیر بهتر انجام میشود:
الگو:وسط چین الگو:پایان وسط چین
و تابع هزینه نهایی به صورت خواهد بود ( یک مقدار ثابت مستقل از است).
محدودیتها
فرایند نمونهگیری از DDPM با دنبالکردن زنجیره مارکوف فرایند انتشار معکوس بسیار کند است، زیرا تعداد گامها میتواند تا یک یا چند هزار مرحله باشد. در[۶] گفته شده «به عنوان مثال، نمونهگیری ۵۰ هزار عکس با اندازه ۳۲ × ۳۲ از یک DDPM حدود ۲۰ ساعت طول میکشد، اما انجام این کار با یک GAN روی یک پردازنده گرافیکی Nvidia 2080 Ti کمتر از یک دقیقه زمان میبرد.»
کاربرد
مدلهایی انتشاری برای تولید[۶][۷][۸]، بخشبندی[۹][۱۰]، فراتفکیکپذیری[۱۱]، تغییر[۱۲][۱۳][۱۴][۱۵] و تعمیر[۱۲][۱۶] الگو:انگلیسی تصاویر به کار میروند. همچنین در تولید ویدئو[۱۷]، تشخیص ناهنجاری[۱۸]، تحلیل تصاویر پزشکی[۱۹] و بینایی سهبعدی[۲۰] کاربرد دارد.
مدلهای انتشاری همچنین برای تولید و ترجمه متن[۲۱][۲۲] استفاده میشوند.
جستارهای وابسته
منابع
- ↑ ۱٫۰ ۱٫۱ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ ۶٫۰ ۶٫۱ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ ۱۲٫۰ ۱۲٫۱ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal