حافظه طولانی کوتاه مدت

حافظه طولانی کوتاه مدت ( Long short-term memory یا به اختصار LSTM) یک معماری شبکه عصبی بازگشتی است که در سال ۱۹۹۷ میلادی توسط سپ هوخرایتر و یورگن اشمیدهوبر ارائه شد[۱]، و بعداً در سال ۲۰۰۰ میلادی توسط فیلیکس ژرس و دیگران بهبود داده شد.[۲][۳]
در شبکه عصبی بازگشتی برخلاف شبکه عصبی پیشخور، ورودی میتواند به صورت دنباله (مثل صوت یا ویدیو) باشد. این ویژگی باعث شده شبکههای عصبی بازگشتی برای پردازش دادههای زمانی بسیار مناسب باشند زیرا الگوها در دادههای سری زمانی میتوانند در فواصل مختلف واقع شوند. برای مثال، شبکه LSTM در حوزههایی همچون تشخیص دست خط[۴]، ترجمه ماشینی[۵][۶]، تشخیص گفتار[۷][۸]، کنترل رباتها[۹] [۱۰] و بازیهای ویدیویی[۱۱][۱۲] قابل استفاده است.
یک بلوک LSTM به طور کلی از وزنهای محتوای سلول()، دروازه ورودی()، دروازه خروجی() و دروازه فراموشی() تشکیل شده است.[۱۳][۱۴] محتوای سلول میتواند در بازه زمانی طولانی محتوای خود راه حفظ کند و در واقع اطلاعات پیشین را به خاطر بسپارد. دروازهها نیز بردارهایی با مقادیر بین 0 و 1 هستند که چگونگی پیشروی اطلاعات قدیمی و اضافه شدن اطلاعات جدید را مشخص میکنند. به طور کلی 1 به معنای عبور و 0 به معنای حذف اطلاعات است. دروازه ورودی مشخص میکند چه بخشهایی از داده ورودی و به چه مقدار به محتوای سلول اضافه شوند. دروازه فراموشی مشخص میکند که چه بخشهایی از محتوای سلول از آن حذف شوند. دروازه خروجی نیز مشخص میکند محتوای وضعیت مخفی() حاوی چه بخشی از محتوای سلول باشد.
ایده
یکی از مشکلات اصلی شبکههای عصبی بازگشتی، مشتق ناپدیدشونده یا vanishing gradient problem و مشتق انفجاری یا exploding gradient است. در بلوک LSTM به منظور حل این دو مشکل، راههایی برای انتقال اطلاعات مهم پیشین در هنگام پیشروی ایجاد شدهاست. این مهم به طور کلی از طریق ضرب بردارهایی تحت عنوان دروازه، در ورودیهای بلوک صورت میپذیرد.[۱۵]
انواع
معماری پایه
معادلات مربوط به پیشروی (forward pass) در یک بلوک LSTM عبارتند از:[۱][۱۴]
- عملگر نشان دهنده ضرب هادامارد است.
متغیرها
- : بردار ورودی
- : بردار دروازهی
- : بردار سلول
- : بردار مخفی سلول (با عنوان خروجی سلول نیز شناخته میشود.)
- ، و : وزنها و بایاسهای مدل که در پروسهی یادگیری، بهینه میشوند.
- : بردارهای دروازه
- : بردار دروازه فراموشی. وزن به یادداری اطلاعات قدیمی.
- : بردار دروازه ورودی. وزن اندوختن اطلاعات جدید.
- : بردار دروازه خروجی. کاندید خروجی.
بالانویسهای و به ترتیب نشاندهنده بعد بردار ورودی و بعد بردار مخفی سلول هستند.
توابع فعالسازی
- : تابع فعالسازی دروازهها(در LSTM پایه تابع سیگموئید است.)
- : تابع فعالسازی وضعیت سلول(در LSTM پایه تانژانت هذلولی است.)
- : تابع فعالسازی تابع اصلی یک تانژانت هذلولی است اما الاستیام روزنهای .
معماری روزنهای

بلوک LSTM با اتصالات روزنهای. استفاده نمیشود، در عوض از در بیش تر جاها استفاده میشود.[۱۶][۱۷]
معماری پیچشی[۱۸]
در مسایل حاوی spatial data همچون تصویر به عنوان ورودی، معماریهای کاملا متصل(Fully Connected) عملکرد خوبی دارند، اما از لحاظ محاسباتی نابهینه هستند. معماری پیچشی با جایگزینی عملگر پیچش به جای ضرب ماتریسی، سعی در حذف این نابهینگی دارد.
- * نشاندهندهی عملگر پیچش(Convolution) است.
یادگیری مدل
یادگیری در مدل LSTM را میتواند همچون دیگر مدلهای شبکه عصبی بازگشتی، با استفاده از الگوریتم گرادیان کاهشی و برگشت در زمان یا Backpropagation through time انجام شود.
همانطور که گفته شد، یکی از مهمترین مشکلات معماری اولیه RNN ها مسئله مشتق ناپدیدشونده است. با افزایش طول ورودی شبکات RNN و در فرایند برگشت در زمان به توانهای بالای ماتریس وزنها بر میخوریم که نهایتا منجر به مشکل مشتق انفجاری یا ناپدیدشونده میشود. مشکل مشتق انفجاری بوسیله روشهایی همچون Gradient Clipping قابل حل است. بلوک LSTM با استفاده از دروازهها امکان انتشار اطلاعات از لایههای اول و برگشت مشتق از لایههای آخر را فراهم میکند.[۱]
جستارهای وابسته
- کامپیوترهای عصبی مشتقپذیر
- شبکه عصبی مصنوعی
- Prefrontal Cortex Basal Ganglia Working Memory (PBWM)
- شبکههای عصبی بازگشتی
- Gated recurrent unit
- سریهای زمانی
- توانبخشی طولانی-مدت
- واحد بازگشتی دروازهای
منابع
پیوند به بیرون
- Recurrent Neural Network با بیش از ۳۰ مقاله الاستیام توسط گروه یورگن اشمیدهوبر در IDSIA
- تز دکترای ژرس در مورد شبکههای الاستیام.
- مقاله تشخیص تقلب با دو فصل اختصاص داده شده به توضیح شبکههای عصبی بازگشتی، به خصوص الاستیام.
- مقاله ای در مورد توسعه با کارایی بالای الاستیامها که به یک تک گره سادهسازی شده و میتواند معماری من درآوردی ای را آموزش دهد.
- خودآموز: چگونه در پایتون با ثینو (theano) الاستیام را پیادهسازی کنیم
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ الگو:Cite journal
- ↑ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Learning to Forget: Continual Prediction with LSTM". Neural Computation. 12 (10): 2451–2471. doi:10.1162/089976600300015015.
- ↑ الگو:Cite arXiv
- ↑ الگو:Cite journal
- ↑ الگو:Cite arXiv
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite arXiv
- ↑ الگو:Cite news
- ↑ الگو:Cite book
- ↑ الگو:Cite news
- ↑ الگو:Cite news
- ↑ الگو:Cite conference
- ↑ ۱۴٫۰ ۱۴٫۱ الگو:Cite journal
- ↑ الگو:Cite conference
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal