عامل تورم واریانس

از testwiki
پرش به ناوبری پرش به جستجو

الگو:ویکی‌سازی عامل تورم واریانس (Variance Inflation Factor) در مدل‌های رگرسیون خطی یکی از روش‌های تخمین پارامترهای مدل، روش حداقل مربعات می‌باشد. یکی از مسائل و مشکلاتی که می‌تواند این روش را به چالش بکشد، وجود پدیده‌ای به نام هم خطی (multicolinearity) می‌باشد. یکی از شیوه‌های تشخیص وجود هم خطی که کاربرد زیادی دارد، استفاده از عامل تورم واریانس می‌باشد. این عامل نشان می‌دهد که واریانس ضرایب تخمینی تا چه حد نسبت به حالتی که متغیرهای تخمینی، هم بستگی خطی ندارند، متورم شده‌است. برای درک اهمیت عامل تورم واریانس از دقت ضرایب تخمین زده شدهٔ رگرسیون با روش حداقل مربعات که توسط واریانس آن‌ها اندازه‌گیری می‌شود، شروع می‌کنیم. مدل رگرسیون Y=X’b+e را در نظر بگیرید: می‌دانیم ماتریس واریانس-کوواریانس ضرایب تخمینی رگرسیون از رابطه زیر حاصل می‌شود:

σ2{b}=σ2(XTX)1

به منظور اندازه‌گیری تأثیر هم خطی بودن، استفاده از مدل رگرسیون استاندارد شده می‌تواند مفید واقع شود. این مدل با تبدیل متغیرها به وسیله تبدیل هم بستگی حاصل می‌شود. وقتی مرل رگرسیون استاندارد شده برازانیده می‌شود، ضرایب تخمینی رگرسیون (b'k) از طریق رابطه زیر به ضرایب قبل از تبدیل، مربوط می‌شوند:

(2a)bk=(SYsk)b'k(k=1,,p1)

(2b)b0=Yb1X1bp1Xp1

ماتریس واریانس-کوواریانس ضرایب رگرسیون استاندارد شده تخمینی، از رابطه (۱) حاصل می‌شود که در آن، با استفاده از رابطه XTX=rXX که بیان می‌کند ماتریس XTX برای متغیرهای تبدیل شده، ماتریس همبستکی متغیرهای مستقل X می‌باشد، به دست خواهیم آورد:

(3)σ2{b}=(σ)2rXX1

که در این رابطه rXX ماتریس ضریب هم بستگی بین هر جفت از متغیرها است و (σ)2 واریانس عنصر خطا در مدل تبدیل شده می‌باشد. توجه داشته باشید که از رابطه (۳) واریانس b'k، با قرار دادن VIFk به جای عنصر k-ام روی قطر ماتریس rXX1، به شکل زیر حاصل می‌شود:

(4)σ2{b'k}=(σ)2(VIF)k

عنصر قطری VIFk، عامل تورم واریانس برای b'k نامیده می‌شود. می‌توان نشان داد که عامل تورم واریانس از رابطه زیر حاصل می‌شود: (5)(VIF)k=(1Rk2)1k=1,2,,p1

که در این رابطه Rk2 ضریب تعیین مدلی است که در آن متغیر مستقل Xk روی سایر متغیرهای مستقل مدل رگرس شده‌است. بنابراین داریم: (6)σ2{b'k}=(σ)21Rk2

در صورتی که Rk2=0 یا به عبارتی دیگر Xk به صورت خطی رابطه‌ای با سایر متغیرهای مستقل مدل نداشه باشد، VIFk برابر یک خواهد بود. هنگامی که Rk20 ، VIFk بزرگ تر از یک خواهد بود که نشان می‌دهد واریانس b'k به دلیل وجود همبستگی بین متغیرهای مستقل، متورم شده‌است و مقدار آن افزایش پیدا کرده‌است. هنگامی که یک متغیر مستقل وابستگی خطی کامل با سایر متغیرهای مستقل مدل داشته باشد، ضریب تعیین مرتبط با آن برابر 1 خواهد شد و در نتیجه عامل تورم واریانس به سمت بی نهایت میل خواهد کرد و از آن می‌توان نتیجه گرفت که واریانس b'k نیز بی‌نهایت خواهد بود. مقدار عامل تورم واریانس برای متغیرهای مستقل، اغلب به عنوان یک شاخص برای اندازه‌گیری شدت هم خطی بودن در مدل استفاده می‌شود. اگر بیشترین مقدار عامل تورم واریانس بزرگتر از ۱۰ باشد معمولاً به نشانه این مسئله در نظر گرفته می‌شود که هم خطی موجود در مدل، اثر نامطلوبی بر تخمین گرهای روش حداقل مربعات دارد.

میانگین مقادیر عامل تورم واریانس نیز اطلاعات مفیدی را به دست می‌دهد. از این جهت که ضرایب تخمینی رگرسیون استاندارد شده تا چه اندازه از میزان واقعی انحراف دارند. می‌توان نشان داد که مقدار مورد انتظار مجموع مربعات این انحرافات یعنی (b'kβ'k)2از رابطه زیر حاصل می‌شود:

(7)E{k=1p1(b'kβ'k)2}=(σ)2k=1p1(VIF)k

یعنی مقادیر بزرگ میانگین VIFها موجب بیشتر شدن اختلاف بین میزان تخمین زده شده و مقدار واقعی ضرایب رگرسیون استاندارد شده می‌شود. وقتی که هیچ یک از متغیرهای مستقل مدل هیچ گونه وابستگی خطی با سایر متغیرهای مستقل نداردند، ضریب تعیین برای همه آن‌ها یک خواهد شد و بنابراین عامل تورم واریانس به ازای تمام متغیرهای مستقل مقدار ۱ را اختیار خواهد نمود. یعنی جمع عوامل تورم واریانس‌ها برابر p-۱ خواهد بود و امید ریاضی مجموع مربعات انحرافات مورد نظر به شکل زیر در می‌آید:

(8)E{k=1p1(b'kβ'k)2}=(σ)2(p1)

نسبت دو رابطه اخیر یعنی روابط ۷ و ۸ اطلاعات مفیدی را در مورد تأثیر هم خطی بودن بر مجموع مرعات انحرافات می‌دهد:

(9)(σ)2k=1p1(VIF)k(σ)2(p1)=k=1p1(VIF)k(p1)

توجه داشته باشید که رابطه (۹) همان میانگین عوامل تورم واریانس‌ها است که با نماد VIF نشان داده می‌شود.

(10)VIF=k=1p1(VIF)k(p1)

در صورتی که میانگین عوامل تورم واریانس به‌طور قابل توجهی بزرگتر از ۱ باشد می‌تواند نشانگر جدی بودن مشکل هم خطی باشد. چند نکته: برخی از برنامه‌های کامپیوتری رگرسیون به شکل متقابل از عامل تورم واریانس استفاده می‌کنند تا مواردی را که یک متغیر مستقل به دلیل وابستگی داخلی شدید با سایر متغیرهای مستقل، نباید داخل مدل رگرسیون قرار داده شود مشخص کنند. حدود تلرانس برای VIF1 که معمولاً استفاده می‌شود، مقادیر ۰٫۰۱ و ۰٫۰۰۱ و ۰٫۰۰۰۱ می‌باشد که در صورتی که کمتر از این مقدار اختیار کند داخل مدل قرار داده نمی‌شود. محدودیت عامل تورم واریانس برای کشف هم خطی این است که نمی‌تواند بین چندین هم خطی هم زمان تفاوت قائل شود.

روش‌های دیگر برای تشخیص مشکل هم خطی در مدل، پیچیده تر از روش عامل تورم واریانس می‌باشند.[۱]

منابع

الگو:پانویس

  1. Neter, John,… (۱۹۹۹). Applied Linear Regression Models (۳rd ed.) The McGraw-Hill Companies, الگو:ISBN