کمترین مربعات

از testwiki
نسخهٔ تاریخ ۱۰ مهٔ ۲۰۲۴، ساعت ۱۹:۰۶ توسط imported>Sahra aram (growthexperiments-addsectionimage-summary-summary: 1)
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو

الگو:تحلیل رگرسیون

برازش سهمی بر مجموعه‌ای از داده‌ها در نرم‌افزار اکسل

روش حداقل مربعات روشی در تحلیل رگرسیون است که برای حل دستگاه معادلاتی به کار می‌رود که تعداد معادله‌هایش بیش از تعداد مجهول‌هایش است. مهم‌ترین کاربرد روش کمترین مربعات در برازش منحنی بر داده‌ها است. مدل برازش شده بر داده‌ها، مدلی است که در آن کمیت χ2 کمینه باشد.

الگو:وسط‌چین χ2=i=1N(yif(xi,β))2σy,i2 الگو:پایان وسط‌چین

این روش را نخستین بار کارل فردریش گاوس در سال ۱۷۹۴ استفاده کرد.[۱] روش حداقل مربعات در زبان برنامهٔ نویسی R، بیشتر نرم‌افزارهای آماری و ریاضی (مانند Excel, SPSS, MATLAB و …) و ماشین حساب‌های مهندسی وجود دارد.

تاریخچه

منشأ روش حداقل مربعات از نجوم و یافتن موقعیت ستارگان بوده‌است.

ساختار ریاضی

برای برازش منحنی y=f(x) بر داده‌ها، فرض می‌کنیم اندازه‌گیری‌ها مستقل از هم انجام شده‌اند و خطای x نیز در مقابل خطای y قابل صرف نظر است (مقادیر x بدون خطا هستند). تابع f علاوه بر x، به ثوابتی که آن‌ها را با بردار β نشان می‌دهیم بستگی دارند. هدف، پیدا کردن مقادیر β است، به گونه‌ای که تابع f(x,β) دقیق‌ترین پیش‌بینی را از y ارائه دهد. به این منظور، کمیت باقی مانده را به صورت الگو:وسط‌چین di=yif(xi,β) الگو:پایان وسط‌چین تعریف می‌کنیم. اگر هر yi از توزیع نرمال حول مقدار واقعی f(xi,β) با پهنای σy,i پیروی کند، احتمال به دست آوردن yi متناسب است با:

الگو:وسط‌چین Probβ(yi)1σy,i2edi2/2/σy,i2 الگو:پایان وسط‌چین

است. احتمال مشاهدهٔ تمام مقادیر y این‌طور به دست می‌آید:

الگو:وسط‌چین Probβ(y1,y2,...,yN)=Probβ(y1)×Probβ(y2)×...×Probβ(yN) الگو:پایان وسط‌چین الگو:وسط‌چین 1i=1Nσy,ieχ2/2 الگو:پایان وسط‌چین

کمیت χ2 که در نما قرار دارد به صورت الگو:وسط‌چین χ2=i=1N(yif(xi,β))2σy,i2=i=1Ndi2σy,i2 الگو:پایان وسط‌چین تعریف می‌شود. پس هدف، پیدا کردن β است؛ به گونه‌ای که χ2 کمینه شود.

الگو:وسط‌چین β^=argminβχ2 الگو:پایان وسط‌چین

برای بدست پارامتر بهینه باید از تابع مربعات گرادیان گرفته و آن را برابر با صفر قرار دهیم:[۲]

الگو:وسط‌چین χ2βj=0, j=1,,m, الگو:پایان وسط‌چین

حداقل مربعات بدون وزن

اگر فرض کنیم σy,iها برای همهٔ داده‌ها برابر است، خواهیم داشت: الگو:وسط‌چین 2ididiβj=2idif(xi,β)βj=0, j=0,,m الگو:پایان وسط‌چین

سایر روش‌ها

سایر انواع روش حداقل مربعات، عبارت‌اند از کمترین مربعات دارای قید (Constrained)، کمترین مربعات وزن‌دار (Weighted) و کمترین مربعات مجموع (Total)

نمونه‌ها

مرتبط

برازش خط

برای خط،

الگو:وسط‌چین χ2=i=1N(yiABxi)2σy2 الگو:پایان وسط‌چین

با مشتق‌گیری جزئی، خواهیم داشت:

الگو:وسط‌چین χ2A=2σy2i=1N(yiABxi)=0 AN+B xi= yi

χ2B=2σy2i=1Nxi(yiABxi)=0 A xi+B xi2= xiyi الگو:پایان وسط‌چین

در نتیجه:

الگو:وسط‌چین A=y¯Bx¯,B=i=1Nyi (xix¯)i=1N(xix¯)2 الگو:پایان وسط‌چین

برازش خط مبدأ گذر

با انجام محاسبات بالا برای خط مبدأ گذر خواهیم داشت:

الگو:وسط‌چین B=i=1Nxiyii=1Nxi2 الگو:پایان وسط‌چین

برازش سهمی

برای سهمی،

الگو:وسط‌چین χ2=i=1N(yiABxiCxi2)2σy2 الگو:پایان وسط‌چین

در نهایت، دستگاه معادلات برازش چنین به دست می‌آید:[۳]

الگو:وسط‌چین AN+Bx+Cx2=y

Ax+Bx2+Cx3=xy

Ax2+Bx3+Cx4=x2y الگو:پایان وسط‌چین

کمترین مربعات خطی

اگر فرض کنیم بُعد ورودی m است، یعنی x=[x1,x2,,xm] و تابع f(,β) یک تابع خطی است، مسئله رگرسیون به یک مسئله بهینه‌سازی برای پیداکردن m+1 پارامتر تبدیل می‌شود. به این معنی که ما یک پارامتر چند متغیره به اسم β=[β0,β1,,βm] داریم و سعی می‌کنیم y را با ترکیبی خطی از xتخمین بزنیم یعنی f(x,β)=β0+i=1mβi×xi. حال اگر یک بعد دیگر به متغیر x اضافه کنیم و مقدارش را همیشه عدد ثابت 1 در نظر بگیریم (x0=1) و x را به صورتِ x=[1,x1,x2,,xm] تغییر دهیم، تخمینی که از y داریم در واقع ضرب نقطه ای بردار ورودی و بردار پارامترهای ماست یعنی f(x,β)=i=0mβi×xi=β.x. حال فرض کنیم که تعداد مثالهایی که قرار است برای تخمین پارامترها استفاده کنیم

n است و این مثالها را به این شکل نمایش دهیم D=(x1,y1),(xn,yn). همان‌طور که در مقدمه گفتیم پارامتر بهینه پارامتری است که تابع S(β) را به حداقل برساند یعنی تابع پایین را:

S(β)=i=1nri2=i=1n(yif(xi,β))2=i=1n(β.xiyi)2

از آنجا که تابع S(β) نسبت به β تابعی کاملاً محدب است، در نقطه مینیمم گرادیان ما صفر خواهد بود و این روش پارامتر بهینه را بدست می‌دهد.[۴] برای تسهیل کار شکل تابع را با بکارگیری چند ماتریس ساده می‌کنیم. دو ماتریس برای این کار نیاز داردیم ماتریس X و ماتریس Y. ماتریس X ماتریس ورودهای چندمتغیره ماست. هر سطر معادل یک نمونه از داده ماست، سطر iام برابر است با iامین نمونه ورودی ما یعنی بردار xi، از اینرو X یک ماتریس n×(m+1) خواهد بود. ماتریس Y از طرف دیگر برابر است با مجموعه متغیرهای وابسته داده ما. سطر iام این ماتریس برابر است با متغیر وابسته برای iامین نمونه داده ما یا همان yi. ماتریس Y یک ماتریس n×1 است. با کمک این دو ماتریس می‌توان تابع ضرر را به شکل ذیل تعریف کرد:

الگو:وسط‌چین L(D,β)=||XβY||2=(XβY)T(XβY)=YTYYTXββTXTY+βTXTXβ الگو:پایان وسط‌چین

حال گرادیان این تابع را نسبت به β پیدا می‌کنیم که می‌شود:

الگو:وسط‌چین L(D,β)β=(YTYYTXββTXTY+βTXTXβ)β=2XTY+2XTXβ الگو:پایان وسط‌چین

با برابر قرار دادن گرادیان با صفر پارامتر بهینه بدست می‌آید:

الگو:وسط‌چین 2XTY+2XTXβ=0XTY=XTXββ^=(XTX)1XTY الگو:پایان وسط‌چین

پس پارامتر بهینه ما برابر است با:

الگو:وسط‌چین β^=(𝐗𝐓𝐗)𝟏𝐗𝐓𝐘 الگو:پایان وسط‌چین

خطای روش حداقل مربعات

خطای برازش خط

خطای شیب و عرض از مبدأ خط برازش شده برابر است با (di=yi(A+Bxi)):

الگو:وسط‌چین (ΔA)2(1N+x¯2i=1N(xix¯)2)i=1Ndi2N2,(ΔB)21i=1N(xix¯)2i=1Ndi2N2 الگو:پایان وسط‌چین

برای خط مبدأ گذر

الگو:وسط‌چین (ΔB)21i=1Nxi2 الگو:پایان وسط‌چین

پیاده‌سازی روش حداقل مربعات

زبان R

در زبان R، برازش تابع خطی به فرم

الگو:وسط‌چین y=mnxn+mn1xn1+...+m2x2+m1x1+b الگو:پایان وسط‌چین

بر داده‌ها به کمک تابع lsfit انجام می‌شود.[۵] قطعه کدهای زیر، نحوهٔ پیاده‌سازی و خروجی را برای یک تابع ۲ متغیره نشان می‌دهد.

x = matrix(c(1.19, 1.08, 2.45, 2.53, 3.30, 2.97, 1.65, 0.58, 0.26, 4.39, 4.06, 0.55, 1.80, 1.68, 3.24, 2.23, 3.80, 4.63, 3.78, 4.84, # x_1 values
           1.60, 5.88, 1.55, 1.86, 1.06, 3.85, 9.29, 13.04, 14.52, 0.50, 2.89, 16.99, 15.42, 17.36, 11.82, 16.38, 11.06, 9.08, 17.75, 15.17), # x_2 values
           ncol = 2)
y = c(23.59, 31.95, 33.15, 34.00, 37.80, 41.07, 42.38, 43.76, 44.10, 44.16, 46.83, 50.52, 56.81, 59.04, 60.12, 61.84, 62.16, 64.18, 75.45, 76.77)
lsfit(x, y, intercept = TRUE)

نرم‌افزار Excel

در نرم‌افزار اکسل، برازش تابع خطی به فرم

الگو:وسط‌چین y=mnxn+mn1xn1+...+m2x2+m1x1+b الگو:پایان وسط‌چین

بر داده‌ها به کمک تابع LINEST انجام می‌شود.[۶] این تابع جزو توابع آرایه‌ای است و با فشردن Ctrl+Enter اجرا می‌شود. ورودی تابع به شکل

LINEST(known_y's, [known_x's], [const], [stats])

است که در آن به ترتیب مقادیر y، مقادیر x و سپس دو مقدار بولی وارد می‌شوند که اولی برای مبدأ گذر نبودن و دومی برای بازگرداندن مقادیر خطا، رگرسیون و … است. خروجی تابع در جدولی به صورت زیر برگردانده می‌شود:

الگو:وسط‌چین

جدول مقادیر بازگردانده شده
F E D C B A
b m1 m2 ... mn1 mn
seb se1 se2 ... sen1 sen
sey r2
df F
ssresid ssreg

الگو:پایان وسط‌چین

منظور از se خطا است. خانه‌های ردیف دوم به بعد، در صورتی نشان داده می‌شوند که stats=TRUE باشد.

ماشین حساب CASIO fx-82ES

پرونده:Least Squares 82ES.webm اکثر ماشین حساب‌های مهندسی مجهز به ویژگی برازش منحنی به روش کمترین مربعات هستند. در ماشین حساب‌های کاسیو این ویژگی در بخش STAT قرار دارد.

لاسو (LASSO)

لاسو یک مدل تنظیم شده الگو:به انگلیسی از مدل کمترین مربعات است. تنظیم به این صورت است که β1 یا نرم L1-norm کمتر از مقدار مشخصی باشد. این معادل این است که در هنگام بهینه‌سازی هزینهٔ کمترین مربعات αβ1 را نیز اضافه کرده باشیم. معادل بیزی این مدل این است که توزیع پیشین توزیع لاپلاس را برای پارامترهای مدل خطی استفاده کرده باشیم.

تفاوت اساسی بین مدل ridge regression و لاسو این است که در اولی علی‌رغم افزایش جریمه، ضرایب در عین غیرصفر بودن کوچکتر می‌شوند، علی‌رغم اینکه صفر نمی‌شوند، در صورتی که در لاسو با افزایش جریمه، تعداد بسیار بیشتری از ضرایب به سمت صفر میل می‌کنند.[۷] می‌توان بهینه‌سازی مربوط به لاسو را با روش‌های بهینه‌سازی درجه دوم یا در حالت کلی بهینه‌سازی محدب انجام داد. به دلیل ایجاد ضرایب کم، لاسو در بسیاری از کاربردها مانند سنجش فشرده الگو:به انگلیسی مورد استفاده قرار می‌گیرد.

لاسو در رگرسیون خطی

پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش (Overfitting) برای مدل بیشتر است.[۸] پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ می‌کند و در عمل یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از بیش‌برازش در مدلهای خطی مانند رگرسیون خطی جریمه‌ای به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل یا Regularization گفته می‌شود.[۹] یکی از این روشهای تنظیم مدل روش لاسو است که در آن ضریبی از نُرمِ L1به تابع هزینه اضافه می‌شود، در رگرسیون خطی تابع هزینه به شکل پایین تغییر می‌کند:

الگو:وسط‌چین Lr(D,β)=L(D,β)+λ||β||1=i=1n(β.xiyi)2+λk=0m|βk| الگو:پایان وسط‌چین

این روش تنظیم مدل باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت (Sparse) شود.[۷]

جستارهای وابسته

پانویس

الگو:پانویس الگو:نظریه کنترل الگو:مستند کردن