یادگیری فرهنگ لغت پراکنده

رمزگذاری پراکنده (Sparse Coding) یک روش یادگیری بازنمایی (representational learning) است که سعی بر یافتن نمایش پراکنده‎‌ای از داده‌های ورودی (همچنین شناخته‌ شده به عنوان رمزگذاری پراکنده یا Sparse Coding) به صورت ترکیب خطی‌ای از مولفه‌های تشکیل‌دهنده آن‌ها دارد. به این مولفه‌ها اتم گفته می‌شود و در کنار یکدیگر یک لغت‌نامه (ِdictionary) تشکیل می‌دهند. اتم‌های موجود در هر لغت‌نامه لزوما متعامد نیستند، و ممکن است یک مجموعه پوشای بیش از حد کامل (over-complete spanning set) باشند. شرایط این مسئله همچنین اجازه می‌دهد ابعاد سیگنال‌های نمایش‌داده‌شده از سیگنال‌های مشاهده‌شده بیشتر باشد. این دو ویژگی باعث وجود اتم‌های به‌ظاهر بدون استفاده می‌شوند ولی در عین حال، پراکندگی و انعطاف‌پذیری نمایش را بهبود می‌بخشند.

یکی از مهم‌ترین کاربردهای یادگیری دیکشنری پراکنده در حوزه سنجش فشرده و بازیابی سیگنال است. در سنجش فشرده، یک سیگنال با ابعاد بالا می‌تواند در صورت پراکنده یا تقریبا پراکنده بودن، تنها با چند اندازه‌گیری خطی بازیابی شود. از آنجایی که همه سیگنال‌ها این شرط را ارضا نمی‌کنند، یافتن نمایش پراکنده‌ای از آن سیگنال مانند تبدیل موجک یا گرادیان جهتی یک ماتریس شطرنجی شده، از اهمیت ویژه‌ای برخوردار است.

یکی از مهم‌ترین ارکان یادگیری لغت‌نامه به دست آوردن لغت‌نامه از داده ورودی است. روش‌های یادگیری لغت‌نامه پراکنده به علت نیاز به نمایش داده‌های ورودی برحسب کمترین مولفه‌های ممکن در پردازش سیگنال، به وجود آمدند. پیش از این روش‌، استفاده از لغت‌نامه‌های از پیش تعریف شده مانند تبدیل فوریه و تبدیل موجک مرسوم بودند. با این حال، استفاده از لغت‌نامه‌هایی که روی داده‌های ورودی آموزش داده شده‌اند می‌تواند پراکندگی را به شدت افزایش دهد، که از کاربردهای آن می‌توان به در تجزیه، فشرده‌سازی و تحلیل داده اشاره کرد و در زمینه‌های کاهش نویز، دسته بندی در بینایی ماشین و پردازش سیگنال‌های صوتی، استفاده شده است.

صورت‌بندی مسئله

با داشتن داده ورودی $X = [x_{1}, ..., x_{K}], x_{i} \in ℝ^{d}$ می‌خواهیم دیکشنری $𝐃 \in ℝ^{d \times n} : D = [d_{1}, ..., d_{n}]$ و نمایش $𝐑 \in ℝ^{n} : R = [r_{1}, ..., r_{n}]$ را طوری به دست آوریم که $‖ X - 𝐃 R ‖_{F}^{2}$ هم کمینه و هم تا حد ممکن پراکنده (sparse) باشد. این مسئله به صورت زیر بهینه‌سازی زیر فرمول‌بندی می‌شود:

$\underset{𝐃 \in 𝒞, r_{i} \in ℝ^{n}}{argmin} \sum_{i = 1}^{K} ‖ x_{i} - 𝐃 r_{i} ‖_{2}^{2} + λ ‖ r_{i} ‖_{0}$ ، که در آن $𝒞 \equiv {𝐃 \in ℝ^{d \times n} : ‖ d_{i} ‖_{2} \leq 1 \forall i = 1, ..., n}$ ، $λ > 0$

محدودیت $𝒞$ ، دیکشنری $𝐃$ را طوری محدود می‌کند که اتم‌ها مقادیر بالایی به خود نگیرند و از مقادیر کم ولی غیرصفر $r_{i}$ جلوگیری شود.

مسئله کمینه‌سازی بالا به دلیل ℓ₀-"norm" یک مسئله محدب نیست و حل کردن آن NP-hard است.^[۱] در بسیاری از مسائل، استفاده از LASSO باعث ایجاد پراکندگی می‌شود^[۲] و مسئله بالا با ثابت نگه داشتن یکی از متغیرهای $𝐃$ و $𝐑$ به یک مسئله بهینه‌سازی محدب تبدیل می‌شود.

الگوریتم‌ها

با وجود اینکه مسئله بهینه‌سازی ذکر شده در بالا می‌تواند به عنوان یک مسئله محدب نسبت به لغت‌نامه یا رمزگذاری پراکنده با ثابت بودن یکی از این دو حل شود، اغلب الگوریتم‌ها بر پایه تصحیح مقدار یکی از مولفه‎‌ها و سپس دیگری به صورت تکرارشونده عمل می‌کنند.

مسئله یافتن رمزگذاری پراکنده بهینه $R$ با فرض لغت‌نامه $𝐃$ با عنوان تقریب پراکنده شناخته می‌شود. الگوریتم‌هایی مانند تطبیق تعقیب و لسو توسعه داده شده و در الگوریتم‌های توضیح داده شده در پایین‌، به کار گرفته می‌شوند.

روش جهت‌های بهینه (MOD)

روش جهت‌های بهینه یا MOD یکی از اولین الگوریتم‌های ایجاد شده برای حل مسئله یادگیری لغت‌نامه پراکنده است.^[۳] ایده اصلی این الگوریتم حل کردن مسئله کمینه‌سازی منوط به تعداد محدودی از مولفه‌های غیر صفر از نمایش بردار زیر است:

$\min_{𝐃, R} {‖ X - 𝐃 R ‖_{F}^{2}} s.t. \forall i ‖ r_{i} ‖_{0} \leq T$

که در آن، $F$ نشان‌دهنده نرم فربنیوس است.

MOD بین به دست آوردن رمزگذاری پراکنده به وسیله روشی مانند تطبیق تعقیب و تصحیح لغت‌نامه با استفاده از محاسبه حل تحلیلی مسئله که برابر $𝐃 = X R^{+}$ است که در آن $R^{+}$ یک معکوس مور-پنروز است، نوسان می‌کند. پس از هر بار تصحیح، $𝐃$ دوباره نرمال‌سازی شده تا با محدودیت مسئله سازگار شود و رمزگذاری پراکنده جدید به دست می‌آید. این فرایند تا همگرایی (یا تا زمانی که تغییرات در هر مرحله به اندازه کافی کوچک باشند) تکرار می‌شود.

MOD یک روش بسیار کارآمد برای داده ورودی با ابعاد کم است و تنها به چند تکرار برای همگرایی نیاز دارد. با این حال، به علت پیچیدگی محاسباتی بالای عملیات وارونگی ماتریس، محاسبه سود وارونه $R^{+}$ در بسیاری از موارد از نظر محاسباتی دشوار است. این مشکل باعث توسعه‌ یافتن روش‌های دیگر یادگیری دیکشنری پراکنده شده است.

K-SVD

K-SVD الگوریتمی است که در بطن خود از SVD برای تصحیح یک به یک اتم‌های موجود در یک دیکشنری استفاده می‌کند و اساسا تعمیمی از الگوریتم خوشه‌بندی کی-میانگین است.در این الگوریتم، هر مولفه داده ورودی $x_{i}$ را بر حسب ترکیب خطی از حداکثر $T_{0}$ مولفه به شیوه مشابه با MOD رمزگذاری می‌شود:

$\min_{𝐃, R} {‖ X - 𝐃 R ‖_{F}^{2}} s.t. \forall i ‖ r_{i} ‖_{0} \leq T_{0}$

در این الگوریتم، ابتدا دیکشنری ثابت نگه داشته می‌شود و بهترین مقدار $R$ متناظر با آن به دست می‌آید، سپس اتم‌های دیکشنری به به صورت زیر به شکل تکرار‌شونده تصحیح می‌شوند:

$‖ X - 𝐃 R ‖_{F}^{2} = {| X - \sum_{i = 1}^{K} d_{i} x_{T}^{i} |}_{F}^{2} = ‖ E_{k} - d_{k} x_{T}^{k} ‖_{F}^{2}$

قدم بعدی الگوریتم شامل تقریب رنک 1 ماتریس باقی‌مانده (residual matrix) $E_{k}$ ، تصحیح $d_{k}$ و اطمینان از پراکندگی $x_{k}$ پس از تصحیح است. این الگوریتم، الگوریتم استاندارد برای یادگیری دیکشنری پراکنده تلقی می‌شود و در بسیاری از کاربردها استفاده می‌شود. با این حال، این الگوریتم نیز همانند MOD تنها برای داده‌های کم‌بعد به خوبی کار می‌کند و همچنین احتمال گیر افتادن در کمینه موضعی نیز وجود دارد.

نزول گرادیان تصادفی

ایده این الگوریتم، تصحیح دیکشنری به وسیله گرادیان تصادفی مرتبه اول و افکندن آن روی مجموعه محدودیت $𝒞$ است.^[۴]^[۵] i-امین گام الگوریتم را می‌توان به صورت زیر نوشت:

$𝐃_{i} = {proj}_{𝒞} {𝐃_{i - 1} - δ_{i} \nabla_{𝐃} \sum_{i \in S} ‖ x_{i} - 𝐃 r_{i} ‖_{2}^{2} + λ ‖ r_{i} ‖_{1}}$ ، که در آن $S$ زیرمجموعه تصادفی‌ای از ${1... K}$ و $δ_{i}$ گرادیان در این گام است.

روش دوگانه لاگرانژ

این الگوریتم بر پایه یک مسئله لاگرانژ دوگانه طراحی شده است و روشی کارآمد برای حل این مسئله است.^[۶] لاگرانژی زیر را در نظر بگیرید:

$ℒ (𝐃, Λ) = tr ((X - 𝐃 R)^{T} (X - 𝐃 R)) + \sum_{j = 1}^{n} λ_{j} (\sum_{i = 1}^{d} 𝐃_{i j}^{2} - c)$ ، که در آن $c$ یک محدودیت روی نرم اتم‌ها است و $λ_{i}$ متغیرهای دوگانه تشکیل‌دهنده ماتریس قطری $Λ$ هستند.

می‌توانیم دوگانه لاگرانژ را به صورت تحلیلی زیر بنویسیم:

$𝒟 (Λ) = \min_{𝐃} ℒ (𝐃, Λ) = tr (X^{T} X - X R^{T} (R R^{T} + Λ)^{- 1} (X R^{T})^{T} - c Λ)$

پس از اعمال روش بهینه‌سازی برای مقادیر دوگانه، مقدار $𝐃$ به دست می‌آید:

$𝐃^{T} = (R R^{T} + Λ)^{- 1} (X R^{T})^{T}$

حل کردن این مسئله از لحاظ محاسباتی بسیار ساده‌تر است زیرا تعداد متغیرهای دوگانه از تعداد متغیرهای مسئله اولیه بسیار کمتر است.

LASSO

در این روش، مسئله بهینه‌سازی به شکل زیر فرمول‌بندی می‌شود:

$\min_{r \in ℝ^{n}} {‖ r ‖_{1}} subject to ‖ X - 𝐃 R ‖_{F}^{2} < ϵ$ ، که در آن $ϵ$ خطای مجاز در LASSO بازسازی‌شده است.

با استفاده از این معادله، مقدار $r_{i}$ با استفاده از کمینه کردن خطای مربع کمینه با محدودیت L1-norrm در بردار حل به دست می‌آید:

$\min_{r \in ℝ^{n}} \frac{1}{2} ‖ X - 𝐃 r ‖_{F}^{2} + λ ‖ r ‖_{1}$

و با حل این معادله، حل بهینه به دست می‌آید.^[۷]

کاربردها

چارچوب یادگیری دیکشنری باعث به دست آمدن نتایج پیشرفته‌ای در زمینه‌های مختلف پردازش عکس و فیلم شده است. این روش می‌تواند برای مسائل دسته‌بندی مورد استفاده قرار گیرد، به این شکل که دیکشنری‌های مجزایی برای هر دسته ایجاد می‌شود و سیگنال ورودی برحسب این که کدام دیکشنری پراکنده‌ترین نتایج را ایجاد می‌کند، دسته‌بندی می‌شود.

این چارچوب همچنین برای کاهش نویز سیگنال ورودی کاربرد دارد زیرا می‌توان دیکشنری‌ای را به دست آورد که قسمت‌های مهم سیگنال‌ ورودی را به صورت پراکنده نمایش دهد ولی نمایش نویز سیگنال ورودی از پراکندگی بسیار کمتری برخوردار باشد.^[۸]

یادگیری دیکشنری پراکنده در بسیاری از زمینه‌های تحلیل صدا و سنتز متن^[۹] و دسته‌بندی بدون نظارت استفاده شده است.^[۱۰]

جستارهای وابسته

منابع

↑ A. M. Tillmann, "On the Computational Intractability of Exact and Approximate Dictionary Learning", IEEE Signal Processing Letters 22(1), 2015: 45–49.
↑ الگو:Cite journal
↑ الگو:Cite book
↑ الگو:Cite journal
↑ الگو:Cite book
↑ Lee, Honglak, et al. "Efficient sparse coding algorithms." Advances in neural information processing systems. 2006.
↑ الگو:Cite web
↑ Aharon, M, M Elad, and A Bruckstein. 2006. "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation." Signal Processing, IEEE Transactions on 54 (11): 4311-4322
↑ الگو:Cite journal
↑ الگو:Cite book

[1] A. M. Tillmann, "On the Computational Intractability of Exact and Approximate Dictionary Learning", IEEE Signal Processing Letters 22(1), 2015: 45–49.

[2] الگو:Cite journal

[3] الگو:Cite book

[4] الگو:Cite journal

[5] الگو:Cite book

[6] Lee, Honglak, et al. "Efficient sparse coding algorithms." Advances in neural information processing systems. 2006.

[7] الگو:Cite web

[8] Aharon, M, M Elad, and A Bruckstein. 2006. "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation." Signal Processing, IEEE Transactions on 54 (11): 4311-4322

[9] الگو:Cite journal

[10] الگو:Cite book

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

یادگیری فرهنگ لغت پراکنده

فهرست

صورت‌بندی مسئله

الگوریتم‌ها

روش جهت‌های بهینه (MOD)

K-SVD

نزول گرادیان تصادفی

روش دوگانه لاگرانژ

LASSO

کاربردها

جستارهای وابسته

منابع

منوی ناوبری

یادگیری فرهنگ لغت پراکنده

صورت‌بندی مسئله

الگوریتم‌ها

روش جهت‌های بهینه (MOD)

K-SVD

نزول گرادیان تصادفی

روش دوگانه لاگرانژ

LASSO

کاربردها

جستارهای وابسته

منابع

منوی ناوبری

جستجو