رگرسیون مؤلفه‌های اصلی

از testwiki
پرش به ناوبری پرش به جستجو

رگرسیون مؤلفه اصلی الگو:یاد یکی از روش‌های تحلیل رگرسیون است که از تحلیل مؤلفه‌های اصلی استفاده می‌کند. در رگرسیون مؤلفه اصلی، به جای اینکه متغیر وابسته به‌طور مستقیم با متغیرهای مستقل در ارتباط باشد، این ارتباط به‌طور غیر مستقیم از طریق مولفه‌های اصلی متغیرهای مستقل انجام می‌گیرد. معمولاً فقط یک زیر مجموعه از این مؤلفه‌های اصلی با بالاترین واریاناس‌ها برای رگرسیون مورد استفاده قرار می‌گیرد.[۱] یکی از مشکلات اصلی در رگرسیون خطی زمانی رخ می‌دهد که ماتریس کوواریانس متغیرهای مستقل‌های تمام رتبه نباشد به این معنی که بعضی از متغیرهای مستقل به هم همبستگی داشته باشند. رگرسیون مؤلفه اصلی با حذف مولفه‌های اصلی با واریانس پایین از فضای متغیرهای مستقل، این مشکل را حل می‌کند.[۲]

رابطه ریاضی

n داده و p متغیر مستقل داریم که می‌خواهیم از طریق آنها متغیر وابسته را پیش‌بینی کنیم. این متغیرها را در ماتریس‌های 𝐗n×p و 𝐘n×1 به شکل پایین ذخیره می‌کنیم: الگو:وسط‌چین𝐗n×p=(𝐱1,,𝐱n)الگو:پایان وسط‌چین الگو:وسط‌چین𝐘n×1=(y1,,yn)الگو:پایان وسط‌چین هدف از رگرسیون خطی بدست آوردن پارامتر βp است به شکلی که 𝐘=𝐗β+ε در اینجا ε یک متغیر تصادفی است که خطای مدل را نشان می‌دهد. توزیع این خطا را معمولاً طبیعی در نظر می‌گیرند با میانگین صفر و واریانس ثابت برای تمامی ابعاد یعنی E(ε)=𝟎 و Var(ε)=σ2In×n. از طریق روش کمترین مربعات می‌توان ||𝐘𝐗β||2 یعنی مربع میزان خطاها را کمینه کرد و به پارامتر بهینه رسید. این پارامتر با β^ols=(𝐗𝐗)1𝐗𝐘 برابر است. یکی از مشکلات اصلی این روش عدم وارونپذیری (𝐗𝐗)1 است. برای حل این مشکل رگرسیون مؤلفه اصلی، ابتدا مولفه‌های اصلی 𝐗𝐗 را پیدا می‌کند و بعد داده را در راستای تعدادی از این مولفه‌های اصلی با بالاترین واریاناس‌ها منعکس می‌شوند. ابتدا از طریق تجزیه مقدارهای منفرد ماتریس 𝐗 به سه قسمت تقسیم می‌شود 𝐗=UΔV . در اینجا Δp×p=diag[δ1,,δp] یک ماتریس قطری از مقدارهای منفرد و Un×p=[𝐮1,,𝐮p] و Vp×p=[𝐯1,,𝐯p] ماتریسهایی از بردارهای ویژه چپ و راست هستند. مقدارهای منفرد با ترتیب نزولی در ماتریس قطری قرار دارند به این معنی که δ1δp0. بعد از تجزیه مقدارهای منفرد 𝐗𝐗 از طریق 𝐗𝐗=VΛV محاسبه می‌شود.[۱] در اینجاΛp×p=diag[λ1,,λp]=diag[δ12,,δp2]=Δ2 ماتریس مقدارهای ویژه ماتریس 𝐗𝐗 است؛ این مقادیر با ترتیب نزولی در ماتریس قطری Λp×p قرار دارند، به این معنی که λ1λp0، و V ماتریس بردارهای ویژه 𝐗𝐗 یا همان مولفه‌های اصلی 𝐗 است. رگرسیون مؤلفه اصلی ابتدا 𝐗 را در راستای kp منعکس می‌کند و سپس رگرسیون خطی را در این فضای جدید اعمال می‌کند. اگر Vk ماتریس k بردار ویژه 𝐗𝐗 باشد، انعکاس 𝐗 بر روی Vk برابر است با Wk=𝐗Vk=[𝐗𝐯1,,𝐗𝐯k]k. رگرسیون مؤلفه اصلی، از Wk به عنوان متغیرهای جدید مستقل استفاده می‌کند و رگرسیون خطی را بر آن اعمال می‌کند. طبق روش کمترین مربعات، پارامتر بهینه برای این داده جدید برابر است با γ^k=(WkWk)1Wk𝐘k. حال برای داده جدید 𝐗𝐧𝐞𝐰(1×p) ، مدل رگرسیون ابتدا داده را با 𝐗𝐧𝐞𝐰Vk به فضای جدید k منتقل می‌کند، سپس با 𝐗𝐧𝐞𝐰Vkγ^k مقدار متغیر وابسته را پیش‌بینی می‌کند. اگر β^k=Vkγ^kp آنگاه پیش‌بینی مدل𝐗𝐧𝐞𝐰β^k خواهد بود و با استفاده از β^k دیگر احتیاجی به انعکاس داده به یک فضای جدید نیست.[۱]

یادداشت‌ها

الگو:چندستونه الگو:یادداشت الگو:پایان چندستونه

منابع

الگو:پانویس

  1. ۱٫۰ ۱٫۱ ۱٫۲ الگو:Cite journal
  2. Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. الگو:Isbn