مدل‌‌های انتشاری

الگو:یادگیری ماشین مدل‌های انتشاری الگو:انگلیسی در یادگیری ماشینی، دسته‌ای از مدل‌های متغیر پنهان الگو:انگلیسی هستند. این مدل‌ها نوعی زنجیره مارکوف هستند که با استفاده از استنباط بیزی تغییراتی آموزش داده می‌شوند.^[۱] هدف مدل‌های انتشاری، یادگیری ساختار پنهان یک مجموعه داده با مدل‌سازی روشی است که در آن نقاط داده در فضای پنهان الگو:انگلیسی منتشر می‌شوند. در بینایی ماشین، این یعنی یک شبکه عصبی آموزش داده می‌شود تا با یادگیری معکوس فرایند انتشاری، با شروع از نویز گاوسی به تصاویر اصلی برسد.^[۲]^[۳]

تاریخچه

مدل‌های انتشاری در سال ۲۰۱۵ با ایده‌گرفتن از ترمودینامیک غیرتعادلی معرفی شدند.

ایده

مدل‌های انتشاری خانواده‌ای از مدل‌های مولد احتمالی هستند که به تدریج داده‌ها را با اضافه‌کردن نویز تخریب می‌کنند، سپس یادمی‌گیرند که این فرایند را برای تولید نمونه معکوس کنند. یک مدل انتشاری از دو زنجیره مارکوف استفاده می‌کند: یک زنجیره مستقیم که داده‌ها را به‌تدریج به نویز تبدیل می‌کند و یک زنجیره معکوس که نویز را به داده تبدیل می‌کند. اولی معمولاً با هدف تبدیل هر توزیع داده‌ای به یک توزیع پیشین ساده (مثلاً گاوسی استاندارد) به صورت دستی طراحی می‌شود، در حالی که زنجیره مارکوف دوم با یادگیری هسته‌های انتقال توسط شبکه‌های عصبی عمیق، اولی را معکوس می‌کند.^[۴]

جزئیات

فرایند انتشار مستقیم

با داشتن یک نقطه داده نمونه‌برداری‌شده از یک توزیع داده واقعی $𝐱_{0} \sim q (𝐱)$ ، فرایند انتشار مستقیم الگو:انگلیسی را این‌گونه تعریف می‌کنیم که در آن مقدار کمی نویز گاوسی را در $T$ گام به نمونه ورودی اضافه می‌کنیم تا نمونه‌های نویزدار $𝐱_{1}, \dots, 𝐱_{T}$ تولید شود. اندازه گام‌ها توسط یک برنامه واریانس ${β_{t} \in (0, 1)}_{t = 1}^{T}$ کنترل می‌شود.

الگو:وسط چین $q (𝐱_{t} | 𝐱_{t - 1}) = 𝒩 (𝐱_{t}; \sqrt{1 - β_{t}} 𝐱_{t - 1}, β_{t} 𝐈) q (𝐱_{1 : T} | 𝐱_{0}) = \prod_{t = 1}^{T} q (𝐱_{t} | 𝐱_{t - 1})$ الگو:پایان وسط چین

نمونه داده به تدریج ویژگی‌های قابل مشاهده خود را با بزرگتر شدن گام $t$ از دست می‌دهد. درنهایت وقتی $T \to \infty$ ، $𝐱_{T}$ معادل یک توزیع گاوسی همسان‌گرد خواهد شد.

یک ویژگی خوب فرایند فوق این است که می‌توانیم $𝐱_{t}$ را در هر گام دلخواه $t$ به صورت فرم بسته زیر با فرض $α_{t} = 1 - β_{t}$ و ${\bar{α}}_{t} = \prod_{i = 1}^{t} α_{i}$ محاسبه کنیم:^[۵]

الگو:وسط چین $\begin{matrix} 𝐱_{t} & = \sqrt{α_{t}} 𝐱_{t - 1} + \sqrt{1 - α_{t}} ϵ_{t - 1} & ϵ_{t - 1}, ϵ_{t - 2}, \dots \sim 𝒩 (𝟎, 𝐈) \\ = \sqrt{α_{t} α_{t - 1}} 𝐱_{t - 2} + \sqrt{1 - α_{t} α_{t - 1}} {\bar{ϵ}}_{t - 2} & {\bar{ϵ}}_{t - 2} merges two Gaussians \\ = \dots \\ = \sqrt{{\bar{α}}_{t}} 𝐱_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ \\ q (𝐱_{t} | 𝐱_{0}) & = 𝒩 (𝐱_{t}; \sqrt{{\bar{α}}_{t}} 𝐱_{0}, (1 - {\bar{α}}_{t}) 𝐈) \end{matrix}$ الگو:پایان وسط چین

توجه کنید که وقتی دو توزیع نرمال با واریانس‌های مختلف، $𝒩 (𝟎, σ_{1}^{2} 𝐈)$ و $𝒩 (𝟎, σ_{2}^{2} 𝐈)$ ادغام می‌کنیم، توزیع جدید $𝒩 (𝟎, (σ_{1}^{2} + σ_{2}^{2}) 𝐈)$ خواهد بود. در رابطه بالا انحراف معیار برابر خواهد بود با: $\sqrt{(1 - α_{t}) + α_{t} (1 - α_{t - 1})} = \sqrt{1 - α_{t} α_{t - 1}}$

فرایند انتشار معکوس

اگر بتوانیم فرایند بالا را معکوس کنیم و از $q (𝐱_{t - 1} | 𝐱_{t})$ نمونه‌برداری کنیم، می‌توانیم نمونه واقعی را از ورودی نویز گاوسی $𝐱_{T} \sim 𝒩 (𝟎, 𝐈)$ دوباره ایجاد کنیم. توجه کنید که اگر $β_{t}$ به اندازه کافی کوچک باشد، $q (𝐱_{t - 1} | 𝐱_{t})$ نیز گوسی خواهد بود. متأسفانه، ما نمی‌توانیم $q (𝐱_{t - 1} | 𝐱_{t})$ را به راحتی تخمین بزنیم زیرا برای این کار باید از کل مجموعه‌داده استفاده کنیم، بنابراین باید مدلِ $p_{θ}$ را برای تقریب این احتمالات شرطی به منظور اجرای فرایند انتشار معکوس یاد بگیریم.

الگو:وسط چین $p_{θ} (𝐱_{0 : T}) = p (𝐱_{T}) \prod_{t = 1}^{T} p_{θ} (𝐱_{t - 1} | 𝐱_{t}) p_{θ} (𝐱_{t - 1} | 𝐱_{t}) = 𝒩 (𝐱_{t - 1}; μ_{θ} (𝐱_{t}, t), Σ_{θ} (𝐱_{t}, t))$ الگو:پایان وسط چین

احتمال شرطی معکوس زمانی قابل حل است که روی $𝐱_{0}$ شرط شود:

الگو:وسط چین $q (𝐱_{t - 1} | 𝐱_{t}, 𝐱_{0}) = 𝒩 (𝐱_{t - 1}; \tilde{μ} (𝐱_{t}, 𝐱_{0}), {\tilde{β}}_{t} 𝐈)$ الگو:پایان وسط چین

با اعمال قاعده بیز داریم:

الگو:وسط چین $\begin{matrix} q (𝐱_{t - 1} | 𝐱_{t}, 𝐱_{0}) & = q (𝐱_{t} | 𝐱_{t - 1}, 𝐱_{0}) \frac{q (𝐱_{t - 1} | 𝐱_{0})}{q (𝐱_{t} | 𝐱_{0})} \\ \propto \exp (- \frac{1}{2} (\frac{(𝐱_{t} - \sqrt{α_{t}} 𝐱_{t - 1})^{2}}{β_{t}} + \frac{(𝐱_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} 𝐱_{0})^{2}}{1 - {\bar{α}}_{t - 1}} - \frac{(𝐱_{t} - \sqrt{{\bar{α}}_{t}} 𝐱_{0})^{2}}{1 - {\bar{α}}_{t}})) \\ = \exp (- \frac{1}{2} (\frac{𝐱_{t}^{2} - 2 \sqrt{α_{t}} 𝐱_{t} 𝐱_{t - 1} + α_{t} 𝐱_{t - 1}^{2}}{β_{t}} + \frac{𝐱_{t - 1}^{2} - 2 \sqrt{{\bar{α}}_{t - 1}} 𝐱_{0} 𝐱_{t - 1} + {\bar{α}}_{t - 1} 𝐱_{0}^{2}}{1 - {\bar{α}}_{t - 1}} - \frac{(𝐱_{t} - \sqrt{{\bar{α}}_{t}} 𝐱_{0})^{2}}{1 - {\bar{α}}_{t}})) \\ = \exp (- \frac{1}{2} ((\frac{α_{t}}{β_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}) 𝐱_{t - 1}^{2} - (\frac{2 \sqrt{α_{t}}}{β_{t}} 𝐱_{t} + \frac{2 \sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t - 1}} 𝐱_{0}) 𝐱_{t - 1} + C (𝐱_{t}, 𝐱_{0}))) \end{matrix}$ الگو:پایان وسط چین

با توجه به تابع چگالی توزیع گاوسی، میانگین و واریانس را می‌توان به صورت زیر به‌دست‌آورد:

الگو:وسط چین $\begin{matrix} {\tilde{β}}_{t} & = 1 / (\frac{α_{t}}{β_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}) = 1 / (\frac{α_{t} - {\bar{α}}_{t} + β_{t}}{β_{t} (1 - {\bar{α}}_{t - 1})}) = \frac{1 - {\bar{α}}_{t - 1}}{1 - {\bar{α}}_{t}} \cdot β_{t} \\ {\tilde{μ}}_{t} (𝐱_{t}, 𝐱_{0}) & = (\frac{\sqrt{α_{t}}}{β_{t}} 𝐱_{t} + \frac{\sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t - 1}} 𝐱_{0}) / (\frac{α_{t}}{β_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}) \\ = (\frac{\sqrt{α_{t}}}{β_{t}} 𝐱_{t} + \frac{\sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t - 1}} 𝐱_{0}) \frac{1 - {\bar{α}}_{t - 1}}{1 - {\bar{α}}_{t}} \cdot β_{t} \\ = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} 𝐱_{t} + \frac{\sqrt{{\bar{α}}_{t - 1}} β_{t}}{1 - {\bar{α}}_{t}} 𝐱_{0} \end{matrix}$ الگو:پایان وسط چین

می‌دانیم که $𝐱_{0} = \frac{1}{\sqrt{{\bar{α}}_{t}}} (𝐱_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ_{t})$ و با جایگذاری در عبارات بالا خواهیم داشت:

الگو:وسط چین $\begin{matrix} {\tilde{μ}}_{t} & = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} 𝐱_{t} + \frac{\sqrt{{\bar{α}}_{t - 1}} β_{t}}{1 - {\bar{α}}_{t}} \frac{1}{\sqrt{{\bar{α}}_{t}}} (𝐱_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ_{t}) \\ = \frac{1}{\sqrt{α_{t}}} (𝐱_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{t}) \end{matrix}$ الگو:پایان وسط چین

تابع هزینه برای آموزش فرایند انتشاری

برای تقریب توزیع احتمال شرطی در فرایند انتشار معکوس $p_{θ} (𝐱_{t - 1} | 𝐱_{t}) = 𝒩 (𝐱_{t - 1}; μ_{θ} (𝐱_{t}, t), Σ_{θ} (𝐱_{t}, t))$ نیاز به یادگیری یک شبکه عصبی داریم. درواقع می‌خواهیم $μ_{θ}$ را آموزش دهیم که ${\tilde{μ}}_{t} = \frac{1}{\sqrt{α_{t}}} (𝐱_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{t})$ را پیش‌بینی کند. از آن‌جایی که $𝐱_{t}$ به‌عنوان ورودی مدل هنگام آموزش داده می‌شود، می‌توانیم با تغییر عبارت نویز گاوسی $ϵ_{t}$ را از ورودی در گام $t$ پیش‌بینی کنیم:

الگو:وسط چین $\begin{matrix} μ_{θ} (𝐱_{t}, t) & = \frac{1}{\sqrt{α_{t}}} (𝐱_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{θ} (𝐱_{t}, t)) \\ \to 𝐱_{t - 1} & = 𝒩 (𝐱_{t - 1}; \frac{1}{\sqrt{α_{t}}} (𝐱_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{θ} (𝐱_{t}, t)), Σ_{θ} (𝐱_{t}, t)) \end{matrix}$ الگو:پایان وسط چین

پس تابع هزینه برای کمینه کردن اختلاف از $\tilde{μ}$ به صورت زیر خواهد بود:

الگو:وسط چین $\begin{matrix} L_{t} & = 𝔼_{𝐱_{0}, ϵ} [\frac{1}{2 ‖ Σ_{θ} (𝐱_{t}, t) ‖_{2}^{2}} ‖ {\tilde{μ}}_{t} (𝐱_{t}, 𝐱_{0}) - μ_{θ} (𝐱_{t}, t) ‖^{2}] \\ = 𝔼_{𝐱_{0}, ϵ} [\frac{1}{2 ‖ Σ_{θ} ‖_{2}^{2}} ‖ \frac{1}{\sqrt{α_{t}}} (𝐱_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{t}) - \frac{1}{\sqrt{α_{t}}} (𝐱_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{θ} (𝐱_{t}, t)) ‖^{2}] \\ = 𝔼_{𝐱_{0}, ϵ} [\frac{(1 - α_{t})^{2}}{2 α_{t} (1 - {\bar{α}}_{t}) ‖ Σ_{θ} ‖_{2}^{2}} ‖ ϵ_{t} - ϵ_{θ} (𝐱_{t}, t) ‖^{2}] \\ = 𝔼_{𝐱_{0}, ϵ} [\frac{(1 - α_{t})^{2}}{2 α_{t} (1 - {\bar{α}}_{t}) ‖ Σ_{θ} ‖_{2}^{2}} ‖ ϵ_{t} - ϵ_{θ} (\sqrt{{\bar{α}}_{t}} 𝐱_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ_{t}, t) ‖^{2}] \end{matrix}$ الگو:پایان وسط چین

در مقاله^[۱] نشان داده شده‌است که آموزش مدل انتشاری با تابع هزینه زیر بهتر انجام می‌شود:

الگو:وسط چین $\begin{matrix} L_{t}^{simple} & = 𝔼_{t \sim [1, T], 𝐱_{0}, ϵ_{t}} [‖ ϵ_{t} - ϵ_{θ} (𝐱_{t}, t) ‖^{2}] \\ = 𝔼_{t \sim [1, T], 𝐱_{0}, ϵ_{t}} [‖ ϵ_{t} - ϵ_{θ} (\sqrt{{\bar{α}}_{t}} 𝐱_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ_{t}, t) ‖^{2}] \end{matrix}$ الگو:پایان وسط چین

و تابع هزینه نهایی به صورت $L_{simple} = L_{t}^{simple} + C$ خواهد بود ( $C$ یک مقدار ثابت مستقل از $θ$ است).

محدودیت‌ها

فرایند نمونه‌گیری از DDPM با دنبال‌کردن زنجیره مارکوف فرایند انتشار معکوس بسیار کند است، زیرا تعداد گام‌ها $T$ می‌تواند تا یک یا چند هزار مرحله باشد. در^[۶] گفته شده «به عنوان مثال، نمونه‌گیری ۵۰ هزار عکس با اندازه ۳۲ × ۳۲ از یک DDPM حدود ۲۰ ساعت طول می‌کشد، اما انجام این کار با یک GAN روی یک پردازنده گرافیکی Nvidia 2080 Ti کمتر از یک دقیقه زمان می‌برد.»

کاربرد

بینایی ماشین

مدل‌هایی انتشاری برای تولید^[۶]^[۷]^[۸]، بخش‌بندی^[۹]^[۱۰]، فراتفکیک‌پذیری^[۱۱]، تغییر^[۱۲]^[۱۳]^[۱۴]^[۱۵] و تعمیر^[۱۲]^[۱۶] الگو:انگلیسی تصاویر به کار می‌روند. همچنین در تولید ویدئو^[۱۷]، تشخیص ناهنجاری^[۱۸]، تحلیل تصاویر پزشکی^[۱۹] و بینایی سه‌بعدی^[۲۰] کاربرد دارد.

پردازش زبان‌های طبیعی

مدل‌های انتشاری همچنین برای تولید و ترجمه متن^[۲۱]^[۲۲] استفاده می‌شوند.

جستارهای وابسته

منابع

الگو:پانویس

[ho-1] ۱٫۰ ^۱٫۱ الگو:Cite journal

[2] الگو:Cite journal

[3] الگو:Cite journal

[4] الگو:Cite journal

[5] الگو:Cite journal

[ddim-6] ۶٫۰ ^۶٫۱ الگو:Cite journal

[7] الگو:Cite journal

[8] الگو:Cite journal

[9] الگو:Cite journal

[10] الگو:Cite journal

[11] الگو:Cite journal

[cond-12] ۱۲٫۰ ^۱۲٫۱ الگو:Cite journal

[13] الگو:Cite journal

[14] الگو:Cite journal

[15] الگو:Cite journal

[16] الگو:Cite journal

[17] الگو:Cite journal

[18] الگو:Cite journal

[19] الگو:Cite journal

[20] الگو:Cite journal

[21] الگو:Cite journal

[22] الگو:Cite journal

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]

[۲۲]

مدل‌‌های انتشاری

فهرست

تاریخچه

ایده

جزئیات

فرایند انتشار مستقیم

فرایند انتشار معکوس

تابع هزینه برای آموزش فرایند انتشاری

محدودیت‌ها

کاربرد

بینایی ماشین

پردازش زبان‌های طبیعی

جستارهای وابسته

منابع

منوی ناوبری

مدل‌‌های انتشاری

تاریخچه

ایده

جزئیات

فرایند انتشار مستقیم

فرایند انتشار معکوس

تابع هزینه برای آموزش فرایند انتشاری

محدودیت‌ها

کاربرد

بینایی ماشین

پردازش زبان‌های طبیعی

جستارهای وابسته

منابع

منوی ناوبری

جستجو