فاصله کوک

از testwiki
پرش به ناوبری پرش به جستجو

در آمار، فاصله کوک یک تخمین متداول از تأثیر یک داده هنگام انجام تحلیل رگرسیون از طریق کمترین مربعات است.[۱] در کمترین مربعات، از فاصله کوک می‌توان به چند روش استفاده کرد: برای نشان دادن داده‌های تأثیرگذار که به خصوص ارزش اعتبارسنجی دارند یا نشان دادن مناطقی از فضای داده‌های مستقل که داده‌های بیشتری نیاز دارد. فاصله کوک به نام رالف دنیس کوک، آمارشناس آمریکایی نامگذاری شده‌است که این ایده را در سال ۱۹۷۷ معرفی کرد.[۲][۳]

تعریف

داده‌هایی که مانده‌های بزرگ دارند (داده‌های پرت) یا تأثیر زیادی بر مدل نهائی دارند ممکن است نتیجه و دقت یک رگرسیون را تحریف کنند. فاصله کوک اثر حذف یک داده‌ها را اندازه‌گیری می‌کند.

ابتدا رگرسیون خطی را با فرمت ماتریسی به این شکل تعریف می‌کنیم: الگو:وسط‌چین

𝐲n×1=𝐗n×pβp×1+εn×1

الگو:پایان وسط‌چین در اینجا ε𝒩(0,σ2𝐈) خطای رگرسیون وβ=[β0β1βp1]𝖳 پارامتر رگرسیون خطی است؛ p تعداد متغیرهای مستقل یا پیش‌بینی کننده است و 𝐗 ماتریس مقادیر متغیرهای مستقل به همراه یک بردار ثابتِ یک است. تخمین کمترین مربعات عبارت است از β=(𝐗𝖳𝐗)1𝐗𝖳𝐲 ، و در نتیجه پیش‌بینی مدل رگرسیون برای 𝐲 با خود این بردار متناسب است: الگو:وسط‌چین

𝐲^=𝐗β=𝐗(𝐗𝖳𝐗)1𝐗𝖳𝐲=𝐇𝐲

الگو:پایان وسط‌چین در اینجا 𝐇𝐗(𝐗𝖳𝐗)1𝐗𝖳.

برای تعریف فاصله کوک به دو تعریف اهرم قدرت و بردار باقیمانده نیاز داریم. عنصر i ام قطر اصلی 𝐇 که با hii𝐱i𝖳(𝐗𝖳𝐗)1𝐱i برابر است،[۴] اهرم قدرت داده i ام نام دارد و تفاضل مقادیر مشاهده شده متغیر وابسته و پیش‌بینی آنها بردار باقیمانده نام دارد که با 𝐞=𝐲𝐲^=(𝐈𝐇)𝐲 نشان داده می‌شود.

فاصله کوک برای داده i ام را با Di نمایش می‌دهیم که با مقدار پایین برابر است:[۵] الگو:وسط‌چین

Di=j=1n(y^jy^j(i))2ps2

الگو:پایان وسط‌چین در اینجا y^j(i) پیش‌بینی برای داده مشاهده شده j ام است زمانی که مدل رگرسیون بدون داده i ام ساخته شود و s2=𝐞𝐞np میانگین خطای مربع مدل رگرسیون است.[۶]

فاصله کوک را با استفاده از اهرم قدرت[۵] (hii) نیز می‌توان به شکل پایین محاسبه کرد: الگو:وسط‌چین

Di=ei2ps2[hii(1hii)2].

الگو:پایان وسط‌چین

تشخیص داده‌های تأثیرگذار

نظرات مختلفی در مورد انتخاب آستانه مناسب برای فاصله کوک ببرای کشف داده‌های تأثیرگذار وجود دارد. از آنجا که فاصله کوک از توزیع اف با p و np درجه آزادی پیروی می‌کند، نقطه میانه این توزیع (F0.5(p,np)) می‌تواند به عنوان آستانه مورد استفاده قرار بگیرد.[۷] از آنجا که این مقدار برای nهای بزرگ تقریباً ۱ است می‌توان از شرطDi>1 برای پیدا کردن داده‌های تأثیرگذار استفاده کرد.[۸] البته فاصله کوک همیشه داده‌های تأثیرگذار را به درستی تشخیص نمی‌دهد.[۹]

جستارهای وابسته

رگرسیون خطی

داده پرت

کمترین مربعات

منابع

الگو:پانویس