پیش‌نویس:حداقل مربعات منظم

از testwiki
نسخهٔ تاریخ ۱ فوریهٔ ۲۰۲۳، ساعت ۱۷:۱۹ توسط imported>ZahraSoukhtedel
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو

الگو:خلاصه‌نویسی الگو:تحلیل رگرسیون

حداقل مربعات منظم (RLS) خانواده ای از روش ها برای حل مسئله حداقل مربعات طوری که از منظم سازی برای محدود کردن بیشتر راه حل استفاده می شود.

RLS به دو دلیل اصلی استفاده می شود. اولین مورد زمانی مطرح می شود که تعداد متغیرها در سیستم خطی از تعداد مشاهدات بیشتر شود. در چنین تنظیماتی، مسئله حداقل مربعات معمولی نامناسب است و در نتیجه برازش آن غیرممکن است زیرا مسئله بهینه سازی مرتبط دارای راه حل های بی نهایت زیادی است. RLS اجازه می دهد تا محدودیت های بیشتری را معرفی کند که به طور منحصر به فرد راه حل را تعیین می کند.

دلیل دوم استفاده از RLS زمانی به وجود می آید که مدل آموخته شده از تعمیم ضعیف رنج می برد. RLS می تواند در چنین مواردی برای بهبود تعمیم پذیری مدل با محدود کردن آن در زمان آموزش استفاده شود. این محدودیت می‌تواند راه‌حل را به نحوی «پراکنده» کند یا دانش قبلی را در مورد مشکل منعکس کند، مانند اطلاعات مربوط به همبستگی بین ویژگی‌ها. با نشان دادن این که روش‌های RLS غالباً معادل راه‌حل‌های حداقل مربعات هستند، می‌توان به درک بیزی از این موضوع دست یافت.

فرمولاسیون عمومی

یک نوع یادگیری ارائه شده توسط یک فضای احتمالاتی را در نظر بگیرید (X×Y,ρ(X,Y)) ، YR . فرض کنید S={xi,yi}i=1n مجموعه آموزشی از n جفت متغیر دوبه‌دو مستقل هم‌توزیع نسبت به ρ را نشان می دهد. فرض کنید V:Y×R[0;) تابع ضرر باشد، F را به عنوان فضای توابع به گونه ای که ریسک مورد انتظار به صورت زیر باشد تعریف می کنیم:

ε(f)=V(y,f(x))dρ(x,y)

هدف اصلی به حداقل رساندن ریسک مورد انتظار است:

inffFε(f)

از آنجایی که مشکل به‌طور کاملا دقیق قابل حل نیست، نیاز داریم تا چگونگی اندازه‌گیری کیفیت یک راه‌حل را بررسی کنیم. یک الگوریتم یادگیری خوب باید یک برآوردگر با ریسک کمی ارائه دهد.

به عنوان توزیع توام، توزیع ρ به طور معمول ناشناخته است، ریسک تجربی درنظر گرفته شده است. برای حداقل مربعات منظم، مربع تابع ضرر به صورت زیر معرفی شده است:

ε(f)=1ni=1nV(yi,f(xi))=1ni=1n(yif(xi))2

با این حال، اگر توابع از یک فضای نسبتاً نامحدود باشند، مانند مجموعه ای از توابع مربعی انتگرال‌پذیر در X ، این رویکرد ممکن است باعث بیش‌برازش مدل شود و منجر به تعمیم ضعیف شود. بنابراین، باید به نوعی پیچیدگی تابع f را محدود یا جریمه کند. در کمترین مربعات منظم‌شده، این کار با انتخاب توابع از فضای بازتولید هسته هیلبرت (RKHS) و همچنین با افزودن یک عبارت منظم‌سازی متناسب با نرم تابع در به تابع هدف انجام می شود:

inffFε(f)+λR(f),λ>0


.


رگرسیون ریج (یا منظم سازی تیخونوف)

یکی از گزینه های رایج برای تابع پناتی R، نرم درجه 2 می باشد.

R(w)=j=1dwj2
1nYXw22+λj=1d|wj|2minwd

متداول ترین نام ها برای این امر منظم سازی تیخونوف و رگرسیون ریدج نامیده می شود. این یک فرم برای w به شکل زیر معرفی می کند:

w=(XTX+λI)1XTY

نام رگرسیون ریج به این واقعیت اشاره دارد که عبارت λI مقدار های مثبتی در راستای قطر "ridge" ماتریس کووارینانس ماتریس XTX اضافه می کند.

زمانی که λ=0 یعنی در مورد حداقل مربعات معمولی، شرط d>n باعث میشود که ماتریس کوواریانس نمونه رتبه کامل نداشته باشد و بنابراین نمی توان آن را معکوس کرد تا یک راه حل منحصر به فرد به دست آید. به همین دلیل است که در صورتی که d>n می تواند بی نهایت راه حل برای مسئله حداقل مربعات معمولی وجود داشته باشد. با این حال، زمانی که λ>0، یعنی زمانی که از رگرسیون ریدج استفاده می شود، اضافه شدن λI به ماتریس کوواریانس نمونه تضمین می‌کند که همه مقادیر ویژه آن بزرگتر مساوی 0 خواهند بود، به بیان دیگر وارون پذیر خواهد شد و جواب یکتا خواهد شد.

در مقایسه با حداقل مربعات معمولی، رگرسیون ریج بدون تورش نیست. برای کاهش واریانس و میانگین مربعات خطا، مقداری تورش می پذیرد.

رگرسیون لسو

حداقل انتخاب مطلق و تابع لسو یک انتخاب دیگر می باشد. در رگرسیون لسو، تابع پنالتی لسو به صورت نرم درجه 1 انتخاب می شود.

R(w)=j=1d|wj|
1nYXw22+λj=1d|wj|minwd

توجه داشته باشید که تابع پنالتی لسو محدب است اما کاملا محدب نیست. برخلاف منظم‌سازی تیخونوف، این طرح راه‌حلی با فرم بسته مناسب ندارد، در عوض راه‌حل معمولاً با استفاده از برنامه‌نویسی درجه دوم یا روش‌های بهینه‌سازی محدب عمومی‌تر و همچنین با الگوریتم‌های خاص مانند الگوریتم رگرسیون حداقل زاویه، پیدا می‌شود.

تفاوت مهم بین رگرسیون لسو و منظم سازی تیخونوف این است که رگرسیون لسو در مقابل حالت دیگر مقادیر بیشتری از w را مجبور می‌کند تا برابر 0 باشد. در مقابل در حالی که منظم سازی تیخونوف مقادیر w را مجبور می‌کند تا مقادیر کوچکی داشته باشند و درنتیجه مقادیر کمی از آن‌ها را مجبور به صفر بودن می‌کند. بنابراین منظم‌سازی LASSO در مواردی است که ما انتظار داریم تعداد ورودی های غیر صفر از w، کم باشد مناسب تر از منظم‌سازی تیخونوف می‌باشد. زمانی که ما انتظار داریم که ورودی‌های w به صورت کلی کوچک باشند و نه لزوما صفر، منظم‌سازی تیخونوف مناسب‌تر است. اینکه کدام یک از این سازوکارها مناسب‌تر است به مجموعه داده های خاص موجود بستگی دارد.

علاوه بر نحوه‌ی انتخاب ویژگی که در بالا توضیح داده شد، لسو دارای محدودیت هایی است. رگرسیون ریج دقت بهتری در صورتی که n>d ارائه می دهد(برای متغیرهای بسیار همبسته )[۱]. در حالت دیگر n<d ، لسو حداکثر n متغیر انتخاب می کند. علاوه بر این لسو تمایل دارد برخی از متغیرهای دلخواه را از گروه نمونه‌های بسیار همبسته انتخاب کند، بنابراین هیچ اثر گروه‌بندی‌ای وجود ندارد.

جریمه 0

1nYXw22+λwj0minwd

افراطی ترین راه برای اعمال پراکندگی این است که بگوییم قدرمطلق ضرایب w مهم نیست؛ بلکه تنها چیزی که پیچیدگی را تعیین می کند تعداد ورودی های غیر صفر است. این مربوط به تنظیم است. این متناظر این می‌باشد که R(w) را برابر نرم 0 norm، w قرار دهیم. این تابع منظم‌سازی در حالی که برای پراکندگی که تضمین می کند جذاب است، اما حل آن بسیار دشوار است زیرا انجام این کار مستلزم بهینه سازی تابعی است که حتی محدب ضعیف هم نیست. رگرسیون لسو حداقل ساده‌سازی جریمه 0 می‌باشد که منجر به یک مسئله بهینه سازی محدب ضعیف می شود.

الستیک‌نت

برای هر λ1 و λ2 غیر منفی، هدف به صورت زیر می‌باشد:

1nYXw22+λ1j=1d|wj|+λ2j=1d|wj|2minwd

فرض کنید α=λ1λ1+λ2 ، سپس راه حل مساله کمینه‌سازی به صورت زیر است:

1nYXw22minwd s.t. (1α)w1+αw2t برای برخی t .

عبارت (1α)w1+αw2t را به عنوان یک تابع جریمه الاستیک‌نت درنظر بگیرید.

زمانی که α=1 باشد الستیک نت همان ریدج رگرسیون می شود و زمانی کهα=0 باشد همان لسو رگرسیون می شود. α(0,1] تابع جریمه الاستیک‌نت در نقطه صفر مشتق اول ندارد و به‌طور اکید محدب می‌شود. ,برای α>0 ویژگی‌های هر دو رگرسیون لسو و ریدج را دارد.

یکی از ویژگی های اصلی الستیک‌نت توانایی انتخاب گروه‌هایی از متغیر‌های همبسته می باشد. تفاوت بین بردارهای وزنی برای دو نمونه‌ی xi و xj از رابطه زیر بدست می آید:

|wi*(λ1,λ2)wj*(λ1,λ2)|i=1n|yi|λ22(1ρij) ، طوری‌که ρij=xiTxj . [۲]

اگر xi و xj همبستگی بالایی داشته‌باشند یعنی ( ρij1 )، فاصله بین بردارهای وزنی بسیار کم است. در مورد نمونه های همبستگی منفی ( ρij1 ) نمونه های xj را می‌توان درنظر گرفت.

فهرست جزئی از روش های RLS

لیستی از انتخاب های ممکن تابع منظم سازیR() در ادامه آمده است.

Name Regularization function Corresponding prior Methods for solving
Tikhonov regularization w22 Normal Closed form
Lasso regression w1 Laplace Proximal gradient descent, least angle regression
0 penalization w0 Forward selection, Backward elimination, use of priors such as spike and slab
Elastic nets βw1+(1β)w22 Normal and Laplace mixture Proximal gradient descent
Total variation regularization j=1d1|wj+1wj| Split–Bregman method, among others

همچنین ببینید

منابع

لینک های خارجی