واحد بازگشتی دروازه‌ای

واحدهای بازگشتی دروازه‌ای (GRUs) یک مکانیسم دروازه‌ای در شبکه‌های عصبی بازگشتی هستند که در سال ۲۰۱۴ توسط کیونگ‌هیون چو و همکارانش ایجاد شدند.^[۱] واحد بازگشتی دروازه‌ای مانند یک حافظه طولانی کوتاه مدت (LSTM) با یک دروازه فراموشی کار می‌کند،^[۲] اما پارامترهای کمتری نسبت به LSTM دارد، زیرا فاقد دروازه خروجی است.^[۳] عملکرد GRU در برخی از وظایف مانند مدل‌سازی موسیقی چندصدایی، مدل‌سازی سیگنال گفتار و پردازش زبان طبیعی مشابه عملکرد LSTM است.^[۴]^[۵] GRUها عملکرد بهتری در مجموعه داده‌های کوچکتر و داده‌های کم‌بسامد دارند.^[۶]

معماری

تغییرات مختلفی در واحد دروازه کامل وجود دارد، با استفاده از حالت مخفی قبلی و بایاس در ترکیب‌های مختلف، و یک شکل ساده به نام واحد حداقل دروازه‌ای.

اپراتور $⊙$ محصول هادامارد را در زیر نشان می‌دهد.

واحد تمام دروازه‌ای

در ابتدا، برای $t = 0$ ، بردار خروجی عبارت است از $h_{0} = 0$ . الگو:وسطچین

\begin{matrix} z_{t} & = σ_{g} (W_{z} x_{t} + U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ_{g} (W_{r} x_{t} + U_{r} h_{t - 1} + b_{r}) \\ {\hat{h}}_{t} & = ϕ_{h} (W_{h} x_{t} + U_{h} (r_{t} ⊙ h_{t - 1}) + b_{h}) \\ h_{t} & = (1 - z_{t}) ⊙ h_{t - 1} + z_{t} ⊙ {\hat{h}}_{t} \end{matrix}

الگو:پایان وسطچین

متغیرها

$x_{t}$ : بردار ورودی
$h_{t}$ : بردار خروجی
${\hat{h}}_{t}$ : بردار فعال‌سازی
$z_{t}$ : بردار به روز رسانی
$r_{t}$ : بردار ریست
$W$ ، $U$ و $b$ : ماتریس پارامتر و بردار

توابع فعال سازی

$σ_{g}$ : تابع سیگموئید.
$ϕ_{h}$ : تابع هذلولی.

از سایر توابع فعال‌سازی نیز می‌توان استفاده کرد مشروط بر اینکه $σ_{g} (x) \in [0, 1]$ .

با تغییر $z_{t}$ و $r_{t}$ می‌توان شکلهای دیگری از مدل را ایجاد کرد:^[۷]

نوع اول، هر دروازه فقط به حالت پنهان قبلی و b بستگی دارد.

الگو:وسطچین

\begin{matrix} z_{t} & = σ_{g} (U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ_{g} (U_{r} h_{t - 1} + b_{r}) \end{matrix}

الگو:پایان وسطچین

نوع دوم، هر دروازه فقط به حالت پنهان قبلی بستگی دارد.

الگو:وسطچین

\begin{matrix} z_{t} & = σ_{g} (U_{z} h_{t - 1}) \\ r_{t} & = σ_{g} (U_{r} h_{t - 1}) \end{matrix}

الگو:پایان وسطچین

نوع سوم، هر دروازه فقط با استفاده از b محاسبه می‌شود.

الگو:وسطچین

\begin{matrix} z_{t} & = σ_{g} (b_{z}) \\ r_{t} & = σ_{g} (b_{r}) \end{matrix}

الگو:پایان وسطچین

واحد حداقل دروازه‌ای

واحد حداقل دروازه‌ای مشابه واحد تمام دروازه‌ای است، به جز اینکه بردار به روز رسانی و ریست در یک دروازه فراموشی ادغام شده‌است.^[۸] الگو:وسطچین

\begin{matrix} f_{t} & = σ_{g} (W_{f} x_{t} + U_{f} h_{t - 1} + b_{f}) \\ {\hat{h}}_{t} & = ϕ_{h} (W_{h} x_{t} + U_{h} (f_{t} ⊙ h_{t - 1}) + b_{h}) \\ h_{t} & = (1 - f_{t}) ⊙ h_{t - 1} + f_{t} ⊙ {\hat{h}}_{t} \end{matrix}

الگو:پایان وسطچین

متغیرها

$x_{t}$ : بردار ورودی
$h_{t}$ : بردار خروجی
${\hat{h}}_{t}$ : بردار فعال سازی
$f_{t}$ : بردار فراموشی
$W$ ، $U$ و $b$ : ماتریس‌های پارامتر و بردار

واحد تکراری تطبیقی محتوا

معماری کامل CARU. جهت جریان داده‌ها با فلش‌ها، توابع درگیر با مستطیل‌های زرد و گیت‌های مختلف (عملیات) با دایره‌های آبی نشان داده شده‌است.

واحد تکراری تطبیقی محتوا یا Content Adaptive Recurrent Unit (CARU) گونه‌ای از GRU است که در سال ۲۰۲۰ توسط کاهو چان و همکاران وی ایجاد شد.^[۹] CARU شامل گیت به روز رسانی مانند GRU است، اما به جای گیت ریست، یک گیت تطبیقی با محتوا معرفی می‌کند. CARU برای کاهش مشکل وابستگی طولانی مدت مدل‌های RNN طراحی شده‌است. CARU پارامترهای کمتری نسبت به GRU دارد و در مسائل پردازش زبانهای طبیعی عملکردش تنها قدری بهتر از GRU است.^[۱۰]

در معادلات زیر، متغیرهای حروف کوچک نشان دهنده بردارها و $[W; B]$ پارامترهای مدل را نشان می‌دهد که لایه‌های خطی هستند که از وزن‌ها و بایاس‌ها تشکیل شده‌اند. در ابتدا، برای $t = 0$ ، CARU مستقیماً بردارد $h^{(1)} \leftarrow W_{v n} v^{(0)} + B_{v n}$ را برمی‌گرداند؛ برای $t > 0$ خروجی‌ها عبارتند از: الگو:وسطچین $\begin{matrix} x^{(t)} & = W_{v n} v^{(t)} + B_{v n} \\ n^{(t)} & = ϕ ((W_{h n} h^{(t)} + B_{h n}) + x^{(t)}) \\ z^{(t)} & = σ (W_{h z} h^{(t)} + B_{h z} + W_{v z} v^{(t)} + B_{v z}) \\ l^{(t)} & = σ (x^{(t)}) ⊙ z^{(t)} \\ h^{(t + 1)} & = (1 - l^{(t)}) ⊙ h^{(t)} + l^{(t)} ⊙ n^{(t)} \end{matrix}$ الگو:پایان وسطچین در اینجا اپراتور $⊙$ نشان دهنده ضرب هادامارد است، و $σ$ و $ϕ$ به ترتیب نشان‌دهنده تابع سیگموئید و هذلولی است.

پیوند به بیرون

منابع

الگو:پانویس

[1] الگو:Cite journal

[lstm1999-2] الگو:Cite journal

[MyUser_Wildml.com_May_18_2016c-3] الگو:Cite web

[Ravalli2018-4] الگو:Cite journal

[Su2019-5] الگو:Cite journal

[gruber_jockisch-6] الگو:Citation

[7] الگو:Cite arXiv

[8] الگو:Cite arXiv

[9] الگو:Citation

[10] الگو:Cite journal

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

واحد بازگشتی دروازه‌ای

فهرست

معماری

واحد تمام دروازه‌ای

متغیرها

توابع فعال سازی

واحد حداقل دروازه‌ای

متغیرها

واحد تکراری تطبیقی محتوا

پیوند به بیرون

منابع

منوی ناوبری

واحد بازگشتی دروازه‌ای

معماری

واحد تمام دروازه‌ای

متغیرها

توابع فعال سازی

واحد حداقل دروازه‌ای

متغیرها

واحد تکراری تطبیقی محتوا

پیوند به بیرون

منابع

منوی ناوبری

جستجو