پیش‌نویس:شبکه مولد تخاصمی (Wasserstein GAN)

شبکه مولد تخاصمی (Wasserstein GAN)

شبکه متخاصم مولد Wasserstein Generative Adversarial Network (WGAN) نوعی از شبکه متخاصم مولد (GAN) است که در سال 2017 پیشنهاد شد و هدف آن بهبود پایداری در یادگیری، خلاص شدن از مشکلاتی مانند فروپاشی حالت (به انگلیسی: Mode Collapse) و ارائه منحنی‌های یادگیری معنادار است که برای اشکال زدایی و جستجو فراپارامترها (به انگلیسی: Hyperparameters) مفید هستند. ".^[۱]^[۲]

در مقایسه با شبکه‌های تخاصمی اولیه، WGAN سیگنال‌های راهنمای بهتری برای یادگیری مولد (generator) فراهم میکند و این باعث میشود زمانی که مولد در حال یادگیری توزیع هایی با ابعاد بالاست یادگیری پایدارتر باشد.

انگیزه

بازی GAN

شبکه های تخاصمی اولیه بر پایه بازی GAN هستند، یک بازی جمع صفر (zero sum) با دو بازیکن: مولد و تفکیک کننده (discriminator). این بازی بر روی یک فضای احتمال به صورت $(Ω, ℬ, μ_{r e f})$ تعریف میشود. مجموعه استراتژی های مولد، مجموعه تمام احتمالات $μ_{G}$ بر روی $(Ω, ℬ)$ است و مجموعه استراتژی های تفکیک کننده به صورت تابع $D : Ω \to [0, 1]$ است. تابع هدف این بازی به صورت زیر است: $L (μ_{G}, D) := 𝔼_{x \sim μ_{r e f}} [\ln D (x)] + 𝔼_{x \sim μ_{G}} [\ln (1 - D (x))]$ مولد در تلاش برای کمینه کردن تابع فوق و تفکیک کننده به دنبال بیشینه کردن آن است. در بازی GAN یک نظریه پایه می گوید: الگو:Math theoremاگر بازی GAN را به تعداد زیاد تکرار کنیم که هربار مولد حرکت اول و تفکیک کننده حرکت دوم را انجام دهد، هربار استراتژی مولد $μ_{G}$ تغییر می‌کند و تفکیک کننده مجبور است برای دادن پاسخ بهینه به مقدار ایده آل نزدیک شود.

$D^{*} (x) = \frac{d μ_{r e f}}{d (μ_{r e f} + μ_{G})} .$

از آنجایی که ما به $μ_{r e f}$ نیاز داریم، تابع تفکیک کننده $D$ به تنهایی برایمان ارزشی نداشته و فقط نسبت احتمال بین توزیع مولد و توزیع مرجع (Reference) را محاسبه میکند. در حالت تعادل، خروجی تفکیک کننده همواره برابر با $\frac{1}{2}$ است که در واقع انگار تفکیک کننده تسلیم شده است.

در بازی GAN اگر استراتژی مولد $μ_{G}$ را ثابت نگه داریم و مرحله به مرحله تفکیک کننده را بهبود ببخشیم، با داشتن $μ_{D, t}$ بعنوان حرکت تفکیک کننده در زمان $t$ ، آنگاه در حالت ایده آل خواهیم داشت:

$L (μ_{G}, μ_{D, 1}) \leq L (μ_{G}, μ_{D, 2}) \leq \dots \leq \max_{μ_{D}} L (μ_{G}, μ_{D}) = 2 D_{J S} (μ_{r e f} ‖ μ_{G}) - 2 \ln 2,$

که یعنی تفکیک کننده به دنبال حد پایین $D_{J S} (μ_{r e f} ‖ μ_{G})$ است.

فاصله واسرستاین (Wasserstein distance)

همانطور که دیدیم، تفکیک کننده نقش یک منتقد را دارد و به مولد اعلام می‌کند "چقدر از حقیقت دور است" که تعریف "دور" همان واگرایی جیسون-شنون است.

طبیعتا، امکان تعریف معیارهای دیگری از دور بودن مطرح می شود. امروزه معیارهای زیادی برای انتخاب وجود دارد مانند خانواده f-divergence، که به ما f-GAN را می دهد.^[۳]

به همین صورت WGAN با استفاده از معیار واسرستاین (Wasserstein metric)، که در قضیه نمایش دوگانه صدق می کند، به دست می آید.

الگو:Math theorem

اثبات این نظریه را می توانید در صفحه اصلی Wasserstein metric مشاهده کنید.

تعریف

باتوجه به دوگانگی کانتوروویچ-روبنشتاین، تعریف WGAN به صورت زیر است:

الگو:Blockquoteبرای هر استراتژی مولد $μ_{G}$ ، جواب بهینه از طرف تفکیک کننده برابر است با $D^{*}$ بطوری که:

$L_{W G A N} (μ_{G}, D^{*}) = K \cdot W_{1} (μ_{G}, μ_{r e f}) .$

در نتیجه، اگر تفکیک کننده خوب عمل کند، مولد همواره به کمینه کردن $W_{1} (μ_{G}, μ_{r e f})$ ترغیب می شود و همانطور که باید، استراتژی بهینه برای آن $μ_{G} = μ_{r e f}$ است.

مقایسه با GAN

در WGAN تفکیک کننده گرادیان بهتری نسبت به GAN فراهم می کند.

به طور مثال یک بازی بر روی خط اعداد حقیقی داریم، که $μ_{G}$ و $μ_{r e f}$ توزیع نرمال هستند. در نمودار زیر مولد بهینه $D$ و تفکیک کننده بهینه واسرستاین $D_{W G A N}$ نشان داده شده اند.

برای یک تفکیک کننده ثابت، مولد باید توابع هدف زیر را کمینه کند.

برای بازی GAN: $𝔼_{x \sim μ_{G}} [\ln (1 - D (x))]$
برای بازی WGAN: $𝔼_{x \sim μ_{G}} [D_{W G A N} (x)]$

فرض کنید $μ_{G}$ از پارامترهای $θ$ تشکیل شده است، این گونه می توانیم با استفاده از تخمین گر نااریب (unbiased estimator) گرادیان، یک گرادیان کاهشی تصادفی اجرا کنیم:

$\nabla_{θ} 𝔼_{x \sim μ_{G}} [\ln (1 - D (x))] = 𝔼_{x \sim μ_{G}} [\ln (1 - D (x)) \cdot \nabla_{θ} \ln ρ_{μ_{G}} (x)]$ $\nabla_{θ} 𝔼_{x \sim μ_{G}} [D_{W G A N} (x)] = 𝔼_{x \sim μ_{G}} [D_{W G A N} (x) \cdot \nabla_{θ} \ln ρ_{μ_{G}} (x)]$

برای به دست آوردن فرمول های بالا از تغییر متغیر (reparameterization trick)

همانطور که مشاهده می شود، در GAN، مولد ترغیب می شود از قله $\ln (1 - D (x))$ به سمت پایین سقوط کند. مولد WGAN نیز به همین صورت است.

در WGAN، $D_{W G A N}$ تقریبا همواره گرادیان برابر یک دارد، این در حالیست که در GAN، $\ln (1 - D)$ در میانه گرادیان برابر صفر و سایر نقاط گرادیانی بزرگ دارد. این باعث می شود واریانس تخمین گر در GAN معمولا بسیار بیشتر از WGAN باشد.

مشکل $D_{J S}$ در موارد واقعی یادگیری ماشین بسیار بزرگتر است. فرض کنید می خواهیم یک GAN را برای ImageNet ، یک مجموعه از عکس های 256 در 256 ، آموزش دهیم. فضای تمام این عکس ها $ℝ^{25 6^{2}}$ است، در حالیکه عکس های داخل ImageNet، $μ_{r e f}$ ، بر روی یک فراوانی با ابعاد بسیار پایین تر تمرکز دارد. در نتیجه هر استراتژی $μ_{G}$ برای مولد تقریبا بطور کامل از $μ_{r e f}$ مجزاست که باعث می شود $D_{J S} (μ_{G} ‖ μ_{r e f}) = + \infty$ . بنابراین یک تفکیک کننده خوب تقریبا همواره می تواند $μ_{r e f}$ و حتی هر ${μ_{G}}^{'}$ نزدیک به $μ_{G}$ را از $μ_{G}$ تشخیص دهد. این باعث می شود گرادیان تقریبا صفر باشد $\nabla_{μ_{G}} L (μ_{G}, D) \approx 0$ ، و هیچ گونه سیگنالی برای بهبود مولد تولید نشود.

جزئیات این نظریه را می توانید در اینجا مشاهده کنید.^[۴]

آموزش Wasserstein GAN

آموزش مولد در WGAN و GAN صرفا براساس گرادیان کاهشی است، اما آموزش تفکیک کننده متفاوت است به این دلیل که در WGAN تفکیک کننده یک محدودیت جدید دارد که همان حد Lipschitz norm است. برای انجام این کار روش های مختلفی وجود دارد.

قراردادن حد بالا برای Lipschitz norm

تابع تفکیک کننده $D$ را به صورت یک پرستپترون چندلایه (multilayer perceptron) پیاده سازی میکنیم.

$D = D_{n} \circ D_{n - 1} \circ \dots \circ D_{1}$

که در آن $D_{i} (x) = h (W_{i} x)$ و $h : ℝ \to ℝ$ یک تابع فعالساز ثابت با $\sup_{x} | h^{'} (x) | \leq 1$ است. برای مثال، تابع تانژانت هایپربولیک $h = \tanh$ در شرط گفته شده صدق می کند. برای هر $x$ ، قرار می دهیم $x_{i} = (D_{i} \circ D_{i - 1} \circ \dots \circ D_{1}) (x)$ و با استفاده از قانون زنجیره ای خواهیم داشت:

$d D (x) = d i a g (h^{'} (W_{n} x_{n - 1})) \cdot W_{n} \cdot d i a g (h^{'} (W_{n - 1} x_{n - 2})) \cdot W_{n - 1} \dots d i a g (h^{'} (W_{1} x)) \cdot W_{1} \cdot d x$

اینگونه Lipschitz norm تفکیک کننده حد بالای زیر را دارد:

$‖ D ‖_{L} \leq \sup_{x} ‖ d i a g (h^{'} (W_{n} x_{n - 1})) \cdot W_{n} \cdot d i a g (h^{'} (W_{n - 1} x_{n - 2})) \cdot W_{n - 1} \dots d i a g (h^{'} (W_{1} x)) \cdot W_{1} ‖_{F}$

که $‖ \cdot ‖_{s}$ همان operator norm یا spectral radius یا بزرگترین مقدار ویژه ماتریس است (این سه مفهوم در ماتریس ها یک معنی را می دهند اما برای دیگر عملگرهای خطی می توانند متفاوت باشند).

از آنجایی که $\sup_{x} | h^{'} (x) | \leq 1$ داریم $‖ d i a g (h^{'} (W_{i} x_{i - 1})) ‖_{s} = \max_{j} | h^{'} (W_{i} x_{i - 1, j}) | \leq 1$ و به همین دلیل حد بالا برابر است با:

$‖ D ‖_{L} \leq \prod_{i = 1}^{n} ‖ W_{i} ‖_{s}$

بنابراین، اگر بتوانیم بر روی $‖ W_{i} ‖_{s}$ تمام ماتریس ها حد بالایی تعریف کنیم در واقع حد بالایی برای Lipschitz norm تفکیک کننده تعیین کرده ایم.

برش وزن (Weight clipping)

برای هر ماتریس $W$ با ابعاد $m \times l$ قرار می دهیم $c = \max_{i, j} | W_{i, j} |$ ، آنگاه خواهیم داشت:

$‖ W ‖_{s}^{2} = \sup_{‖ x ‖_{2} = 1} ‖ W x ‖_{2}^{2} = \sup_{‖ x ‖_{2} = 1} \sum_{i} {(\sum_{j} W_{i, j} x_{j})}^{2} = \sup_{‖ x ‖_{2} = 1} \sum_{i, j, k} W_{i j} W_{i k} x_{j} x_{k} \leq c^{2} m l^{2}$

با محدود کردن تمام درایه های $W$ به بازه $[- c, c]$ ، در واقع $‖ W_{i} ‖_{s}$ را محدود کرده ایم.

این روش برش وزن را می توانید در مقاله اصلی مطالعه کنید.

جریمه بر روی گرادیان (Gradient penalty)

به جای گذاشتن حد بر روی $‖ D ‖_{L}$ ، می توانیم برای گرادیان یک جریمه به فرم زیر تعریف کنیم:

$𝔼_{x \sim \hat{μ}} [(‖ \nabla D (x) ‖_{2} - a)^{2}]$

ه $\hat{μ}$ یک توزیع ثابت برای تخمین زدن مقداری است که تفکیک کننده از حد Lipschitz norm تجاوز کرده است.

تفکیک کننده برای کمینه کردن تابع هزینه جدید، تلاش میکند $\nabla D (x)$ را به $a$ نزدیک کند، این باعث می شود $‖ D ‖_{L} \approx a$

این روش برش وزن را می توانید در مقاله اصلی مطالعه کنید.^[۵]

منابع

[1] الگو:یادکرد ژورنال

[2] الگو:Cite arXiv

[3] الگو:یادکرد ژورنال

[4] الگو:یادکرد ژورنال

[5] الگو:یادکرد ژورنال

[۱]

[۲]

[۳]

[۴]

[۵]