واحد بازگشتی دروازه‌ای

از testwiki
پرش به ناوبری پرش به جستجو

واحدهای بازگشتی دروازه‌ای (GRUs) یک مکانیسم دروازه‌ای در شبکه‌های عصبی بازگشتی هستند که در سال ۲۰۱۴ توسط کیونگ‌هیون چو و همکارانش ایجاد شدند.[۱] واحد بازگشتی دروازه‌ای مانند یک حافظه طولانی کوتاه مدت (LSTM) با یک دروازه فراموشی کار می‌کند،[۲] اما پارامترهای کمتری نسبت به LSTM دارد، زیرا فاقد دروازه خروجی است.[۳] عملکرد GRU در برخی از وظایف مانند مدل‌سازی موسیقی چندصدایی، مدل‌سازی سیگنال گفتار و پردازش زبان طبیعی مشابه عملکرد LSTM است.[۴][۵] GRUها عملکرد بهتری در مجموعه داده‌های کوچکتر و داده‌های کم‌بسامد دارند.[۶]

معماری

تغییرات مختلفی در واحد دروازه کامل وجود دارد، با استفاده از حالت مخفی قبلی و بایاس در ترکیب‌های مختلف، و یک شکل ساده به نام واحد حداقل دروازه‌ای.

اپراتور محصول هادامارد را در زیر نشان می‌دهد.

واحد تمام دروازه‌ای

واحد بازگشتی دردار، نسخه کاملاً دردار

در ابتدا، برای t=0 ، بردار خروجی عبارت است از h0=0 . الگو:وسطچین

zt=σg(Wzxt+Uzht1+bz)rt=σg(Wrxt+Urht1+br)h^t=ϕh(Whxt+Uh(rtht1)+bh)ht=(1zt)ht1+zth^t

الگو:پایان وسطچین

متغیرها

  • xt : بردار ورودی
  • ht : بردار خروجی
  • h^t : بردار فعال‌سازی
  • zt : بردار به روز رسانی
  • rt : بردار ریست
  • W ، U و b : ماتریس پارامتر و بردار

توابع فعال سازی

نوع ۱

از سایر توابع فعال‌سازی نیز می‌توان استفاده کرد مشروط بر اینکه σg(x)[0,1] .

نوع ۲
نوع ۳

با تغییر zt و rt می‌توان شکلهای دیگری از مدل را ایجاد کرد:[۷]

  • نوع اول، هر دروازه فقط به حالت پنهان قبلی و b بستگی دارد.

الگو:وسطچین

zt=σg(Uzht1+bz)rt=σg(Urht1+br)

الگو:پایان وسطچین

  • نوع دوم، هر دروازه فقط به حالت پنهان قبلی بستگی دارد.

الگو:وسطچین

zt=σg(Uzht1)rt=σg(Urht1)

الگو:پایان وسطچین

  • نوع سوم، هر دروازه فقط با استفاده از b محاسبه می‌شود.

الگو:وسطچین

zt=σg(bz)rt=σg(br)

الگو:پایان وسطچین

واحد حداقل دروازه‌ای

واحد حداقل دروازه‌ای مشابه واحد تمام دروازه‌ای است، به جز اینکه بردار به روز رسانی و ریست در یک دروازه فراموشی ادغام شده‌است.[۸] الگو:وسطچین

ft=σg(Wfxt+Ufht1+bf)h^t=ϕh(Whxt+Uh(ftht1)+bh)ht=(1ft)ht1+fth^t

الگو:پایان وسطچین

متغیرها

  • xt : بردار ورودی
  • ht : بردار خروجی
  • h^t : بردار فعال سازی
  • ft : بردار فراموشی
  • W ، U و b : ماتریس‌های پارامتر و بردار

واحد تکراری تطبیقی محتوا

معماری کامل CARU. جهت جریان داده‌ها با فلش‌ها، توابع درگیر با مستطیل‌های زرد و گیت‌های مختلف (عملیات) با دایره‌های آبی نشان داده شده‌است.

واحد تکراری تطبیقی محتوا یا Content Adaptive Recurrent Unit (CARU) گونه‌ای از GRU است که در سال ۲۰۲۰ توسط کاهو چان و همکاران وی ایجاد شد.[۹] CARU شامل گیت به روز رسانی مانند GRU است، اما به جای گیت ریست، یک گیت تطبیقی با محتوا معرفی می‌کند. CARU برای کاهش مشکل وابستگی طولانی مدت مدل‌های RNN طراحی شده‌است. CARU پارامترهای کمتری نسبت به GRU دارد و در مسائل پردازش زبانهای طبیعی عملکردش تنها قدری بهتر از GRU است.[۱۰]

در معادلات زیر، متغیرهای حروف کوچک نشان دهنده بردارها و [W;B] پارامترهای مدل را نشان می‌دهد که لایه‌های خطی هستند که از وزن‌ها و بایاس‌ها تشکیل شده‌اند. در ابتدا، برای t=0 ، CARU مستقیماً بردارد h(1)Wvnv(0)+Bvn را برمی‌گرداند؛ برای t>0 خروجی‌ها عبارتند از: الگو:وسطچین x(t)=Wvnv(t)+Bvnn(t)=ϕ((Whnh(t)+Bhn)+x(t))z(t)=σ(Whzh(t)+Bhz+Wvzv(t)+Bvz)l(t)=σ(x(t))z(t)h(t+1)=(1l(t))h(t)+l(t)n(t) الگو:پایان وسطچین در اینجا اپراتور نشان دهنده ضرب هادامارد است، و σ و ϕ به ترتیب نشان‌دهنده تابع سیگموئید و هذلولی است.

پیوند به بیرون

منابع

الگو:پانویس