تحلیل مؤلفه‌های اصلی

از testwiki
پرش به ناوبری پرش به جستجو
پرونده:تحلیل مولفه‌های اصلی با متمتیکا-اژدری.png
نقاط سبز رنگ، نمونه‌هایی از توزیع نرمال دومتغیره‌اند و محور آبی رنگ، مختصات جدید در راستای قرار گرفتن بیشترین تغییرات نمونه بر روی مؤلفه‌های اصلی است.

تحلیل مؤلفه‌های اصلی الگو:انگلیسی تبدیلی در فضای برداری است، که تحلیل مجموعه داده‌های بزرگ با تعداد زیادی بعد یا ویژگی، افزایش تفسیرپذیری داده‌ها با حفظ حداکثر مقدار اطلاعات و تجسم داده‌های چند بعدی را فراهم می‌کند. تحلیل مؤلفه‌های اصلی در واقع، یک تکنیک آماری برای کاهش ابعاد یک مجموعه داده‌است. این کار با تبدیل خطی داده‌ها به یک سیستم مختصات جدید انجام می‌شود که (بیشتر) تغییرات در داده‌ها را می‌توان با ابعاد کمتری نسبت به داده‌های اولیه توصیف کرد. بسیاری از مطالعات از دو مؤلفه اصلی اول برای نمایش داده‌ها در دو بعد و شناسایی بصری خوشه‌های نقاط داده نزدیک به هم استفاده می‌کنند. تحلیل مؤلفه‌های اصلی در بسیاری از زمینه‌ها مانند ژنتیک جمعیت، مطالعات میکروبیوم‌ها و علوم جوی کاربرد دارد.[۱]

مؤلفه‌ها اصلیِ مجموعه‌ای از نقاط در یک فضای مختصات حقیقی، دنباله‌ای از بردارهای واحد p هستند، که در آن بردار i-ام امتداد خطی است که بهترین تطابق را با داده‌ها دارد و در عین حال به i1 بردار اول متعامد است. در اینجا بهترین خط، خطی است که میانگین مجذورات فاصله عمود نقاط از خط را کمینه می‌کند. این بردارها یک پایه متعامد و یکه را تشکیل می‌دهند که در آن ابعاد مختلف داده‌ها به‌طور خطی همبستگی ندارند. تحلیل مؤلفه‌های اصلی فرایند محاسبه مؤلفه‌های اصلی و استفاده از آن‌ها برای تغییر پایه داده‌ها است که گاهی فقط از چند مؤلفه اصلی اول استفاده می‌کند و بقیه را نادیده می‌گیرد.

تاریخچه

تحلیل مؤلفه‌های اصلی اولین بار در سال ۱۹۰۱ توسط کارل پیرسون[۲] به عنوان متناظری از قضیه محورهای اصلی در مکانیک ارائه شد. این روش بعدها به صورت مستقل توسط هارولد هتلینگ[۳] در دهه ۱۹۳۰ میلادی توسعه یافت و نام‌گذاری شد. باتوجه به کاربرد این روش آن را تبدیل گسسته کارانن-لوف یا KLT در پردازش سیگنال نیز یا تبدیل هتلینگ در کنترل کیفیت چند متغیره می‌نامند.

ایده

تحلیل مؤلفه‌های اصلی را می‌توان به عنوان برازش یک بیضی با ابعاد p به داده‌ها در نظر گرفت، که در آن هر محور بیضی یک مؤلفه اصلی را نشان می‌دهد. اگر برخی از محورهای بیضی کوچک باشد، واریانس در امتداد آن محور نیز کوچک است. برای پیدا کردن محورهای بیضی، ابتدا باید با کم کردن میانگین مقادیر هر متغیر از آن‌ها، میانگین مجموعه داده را صفر کنیم. این مقادیر تبدیل شده حالا به جای مقادیر اصلی برای هر یک از متغیرها استفاده می‌شود. سپس، ماتریس کواریانس داده‌ها را محاسبه کرده و مقادیر ویژه و بردارهای ویژه آن را محاسبه می‌کنیم. سپس باید هر یک از بردارهای ویژه متعامد را نرمال کنیم تا آنها را به بردارهای واحد تبدیل کنیم. پس از انجام این کار، هر یک از بردارهای ویژه واحد متعامد را می‌توان به عنوان محوری از بیضی برازش داده‌ها تفسیر کرد. این انتخاب پایه، ماتریس کوواریانس را به ماتریسی قطری تبدیل می‌کند، که در آن درایه‌های روی قطر واریانس هر محور را نشان می‌دهد. درصد واریانسی که هر بردار ویژه از اطلاعات موجود بیان می‌کند را می‌توان با تقسیم مقدار ویژه مربوط به آن بردار ویژه بر مجموع همه مقادیر ویژه محاسبه کرد.

جزئیات

تحلیل مؤلفه‌های اصلی در تعریف ریاضی[۴] یک تبدیل خطی متعامد است که داده را به دستگاه مختصات جدید می‌برد به‌طوری‌که بزرگ‌ترین واریانس داده بر روی اولین محور مختصات، دومین بزرگ‌ترین واریانس بر روی دومین محور مختصات قرار می‌گیرد و همین‌طور برای بقیه.

ماتریس n×p داده 𝐗 با میانگین تجربی صفر، که هر سطر یک مجموعه مشاهده و هر ستون داده‌های مربوط به یک شاخصه است را در نظر بگیرید. از منظر ریاضی، این تبدیل با مجموعه‌ای lتایی از بردارهای p-بعدیِ وزن یا ضرایب 𝐰(k)=(w1,,wp)(k) تعریف می‌شود که هر بردار سطری 𝐱(i) از 𝐗 را به بردار جدیدی از امتیازات مؤلفه‌های اصلی 𝐭(i)=(t1,,tl)(i) به صورت

الگو:وسط‌چین tk(i)=𝐱(i)𝐰(k)fori=1,,nk=1,,l الگو:پایان وسط‌چین

تطبیق می‌دهد. به این صورت که متغیرهای در 𝐭 بیشترین واریانس ممکن از داده‌های 𝐗 را داشته باشد. همچنین هر بردار ضریب 𝐰 باید یک بردار واحد باشد و l معمولاً بسیار کمتر از p انتخاب می‌شود.

مؤلفه اول

برای این‌که واریانس را بیشینه کنیم، اولین بردار وزن 𝐰(1) باید شرط زیر را برآورده کند:

الگو:وسط‌چین 𝐰(1)=argmax𝐰=1{i(t1)(i)2}=argmax𝐰=1{i(𝐱(i)𝐰)2} الگو:پایان وسط‌چین

و اگر آن را به صورت ماتریسی بنویسیم خواهیم داشت:

الگو:وسط‌چین 𝐰(1)=argmax𝐰=1{𝐗𝐰2}=argmax𝐰=1{𝐰𝖳𝐗𝖳𝐗𝐰} الگو:پایان وسط‌چین

از آن‌جایی که 𝐰(1) باید یک بردار واحد باشد خواهیم داشت:

الگو:وسط‌چین 𝐰(1)=argmax{𝐰𝖳𝐗𝖳𝐗𝐰𝐰𝖳𝐰} الگو:پایان وسط‌چین

کمیتی که باید بیشینه شود را می‌توان به عنوان خارج قسمت رایلی در نظر گرفت. یک نتیجه برای یک ماتریس مثبت نیمه معین مانند 𝐗T𝐗 این است که حداکثر مقدار ممکن ضریب، بزرگ‌ترین مقدار ویژه ماتریس است، که زمانی رخ می‌دهد که 𝐰 بردار ویژه مربوط باشد.

با پیدا کردن 𝐰(1)، اولین مؤلفه اصلی بردار داده 𝐱(i) را می‌توان به صورت امتیاز t1(i)=𝐱(i)𝐰(1) در مختصات تبدیل‌شده به دست آورد.

مؤلفه‌های بعدی

مؤلفه kام را می‌توان با کم کردن k1 مؤلفه اصلی اول از 𝐗 به‌دست‌آورد:

الگو:وسط‌چین 𝐗^k=𝐗s=1k1𝐗𝐰(s)𝐰(s)𝖳 الگو:پایان وسط‌چین

و سپس بردار وزنی که حداکثر واریانس را از این ماتریس داده جدید استخراج می‌کند به‌دست می‌آوریم:

الگو:وسط‌چین 𝐰(k)=argmax𝐰=1{𝐗^k𝐰2}=argmax{𝐰𝖳𝐗^k𝖳𝐗^k𝐰𝐰T𝐰} الگو:پایان وسط‌چین

عبارت بالا بردارهای ویژه باقیمانده 𝐗T𝐗 را با حداکثر مقادیر برای کمیت در پرانتز با مقادیر ویژه متناظر آنها را به‌دست می‌آورد؛ بنابراین بردارهای وزن همان بردارهای ویژه 𝐗T𝐗 هستند. مؤلفه اصلی kام بردار داده 𝐱(i) را می‌توان به صورت امتیاز tk(i)=𝐱(i)𝐰(k) در مختصات تبدیل‌شده به دست آورد.

بنابراین، تجزیه کامل مؤلفه‌های اصلی 𝐗 را می‌توان به این صورت نشان داد:

الگو:وسط‌چین 𝐓=𝐗𝐖 الگو:پایان وسط‌چین

که در آن 𝐖 یک ماتریس p×p از وزن‌ها است که ستون‌های آن بردارهای ویژه 𝐗T𝐗 هستند. ترانهاده 𝐖 گاهی تبدیل سفید یا کروی نامیده می‌شود.

تجزیه مقدارهای منفرد

الگو:Main تبدیل مؤلفه‌های اصلی را می‌توان با تجزیه ماتریس دیگری، یعنی تجزیه مقدارهای منفرد 𝐗 انجام داد.

الگو:وسط‌چین 𝐗=𝐔Σ𝐖T الگو:پایان وسط‌چین

که این‌جا Σ یک ماتریس قطری n×p از اعداد مثبت σ(K) (یا همان مقادیر تکین 𝐗) است. 𝐔 یک ماتریس n×n است که ستون‌های آن بردارهای متعامد واحدی به طول n هستند که بردارهای تکین چپ 𝐗 نامیده می‌شوند و 𝐖 یک ماتریس p×p است که ستون‌های آن بردارهای متعامد واحدی به طول p هستند که بردارهای تکین راست 𝐗 نامیده می‌شوند.

با این تجزیه می‌توان ماتریس 𝐗T𝐗 را به صورت زیر نوشت:

الگو:وسط‌چین 𝐗T𝐗=𝐖Σ𝖳𝐔𝖳𝐔Σ𝐖𝖳=𝐖Σ𝖳Σ𝐖𝖳=𝐖Σ^2𝐖𝖳 الگو:پایان وسط‌چین

که Σ^ ماتریس قطری مربعی شامل مقادیر تکین 𝐗 است که صفرهای اضافی آن حذف شده‌است و عبارت Σ^𝟐=Σ𝖳Σ برای آن برقرار است. مقایسه با بردارهای ویژه 𝐗T𝐗 نشان می‌دهد که بردارهای تکین راست 𝐗 برابر با بردارهای ویژه 𝐗T𝐗 و همچنین مقادیر تکین 𝐗 برابر با ریشه دوم مقادیر ویژه 𝐗T𝐗 هستند. با استفاده از تجزیه مقدارهای منفرد، ماتریس امتیاز 𝐓 را به صورت زیر نوشت:

الگو:وسط‌چین 𝐓=𝐗𝐖=𝐔Σ𝐖𝖳𝐖=𝐔Σ الگو:پایان وسط‌چین

بنابراین هر ستون ماتریس 𝐓 را می‌توان از حاصل ضرب بردارهای تکین چپ 𝐗 و مقدار تکین متناظر به‌دست‌آورد.

محدودیت‌های تحلیل مولفه‌های اصلی

استفاده از تحلیل مؤلفه‌های اصلی منوط به فرض‌هایی است که در نظر گرفته می‌شود. از جمله:

  • فرض خطی بودن

فرض بر این است که مجموعه داده ترکیب خطی پایه‌هایی خاص است.

  • فرض بر این که میانگین و کواریانس از نظر احتمالاتی قابل اتکا هستند.
  • فرض بر این که واریانس شاخصه اصلی داده‌است.

محاسبه مولفه‌های اصلی با استفاده از ماتریس کواریانس

بر اساس تعریف ارائه شده از تحلیل مؤلفه‌های اصلی، هدف از این تحلیل انتقال مجموعه داده X با ابعاد M به داده Y با ابعاد L است. بنابرین فرض بر این است که ماتریس X از بردارهای X1XN تشکیل شده‌است که هر کدام به صورت ستونی در ماتریس قرار داده شده‌است. بنابرین با توجه به ابعاد بردارها (M) ماتریس داده‌ها به صورت M×N است.

محاسبه میانگین تجربی و نرمال‌سازی داده‌ها

نتیجه میانگین تجربی، برداری است که به صورت زیر به دست می‌آید: الگو:وسط‌چین u[m]=1Ni=1NX[m,i] الگو:پایان وسط‌چین

که به‌طور مشخص میانگین تجربی روی سطرهای ماتریس اعمال شده‌است.الگو:سخ سپس ماتریس فاصله تا میانگین به صورت زیر به دست می‌آید: الگو:وسط‌چین B=Xuhالگو:سخ الگو:پایان وسط‌چین که h برداری با اندازه 1×N با مقدار ۱ در هرکدام از درایه‌ها است.

محاسبه ماتریس کواریانس

ماتریس کواریانس C با ابعاد M×M به صورت زیر به دست می‌آید:

الگو:وسط‌چین C=𝔼[BB]=𝔼[BB]=1NBB الگو:پایان وسط‌چین

محاسبه مقادیر ویژه ماتریس کواریانس و بازچینی بردارهای ویژه

در این مرحله، مقادیر ویژه و بردارهای ویژه ماتریس کواریانس، C، به دست می‌آید.

الگو:وسط‌چین V1CV=D الگو:پایان وسط‌چین

V ماتریس بردارهای ویژه و D ماتریس قطری است که درایه‌های قطر آن مقادیر ویژه هستند. آنچنان که مشخص است، هر مقدار ویژه متناظر با یک بردار ویژه است. به این معنا که ماتریس V ماتریسی M×M است که ستون‌های آن بردارهای ویژه می‌باشند و بردار ویژه Vq در ستون qام قرار دارد و مقدار ویژه qام یعنی درایهٔ λq=Dq,q متناظر با آن است. بازچینی بردارهای ویژه بر اساس اندازهٔ مقادیر ویژه متناظر با آن‌ها صورت می‌گیرد؛ یعنی بر اساس ترتیب کاهشی مقادیر ویژه، بردارهای ویژه بازچینی می‌شوند؛ یعنی pqλpλq

انتخاب زیرمجموعه‌ای از بردارهای ویژه به عنوان پایه

پرونده:Pca eigenvalues.png
تحلیل مقادیر ویژه ماتریس کواریانس

انتخاب زیرمجموعه‌ای از بردارهای ویژه با تحلیل مقادیر ویژه صورت می‌گیرد. زیرمجموعه نهایی با توجه به بازچینی مرحله قبل به صورت V1Vl انتخاب می‌شود. در اینجا می‌توان از انرژی تجمعی استفاده کرد که طبق آن

الگو:وسط‌چین g[m]=q=1mλq الگو:پایان وسط‌چین

انتخاب l باید به صورتی باشد که حداقل مقدار ممکن را داشته باشد و در عین حال g مقدار قابل قبولی داشته باشد. به‌طور مثال می‌توان حداقل l را انتخاب کرد که

الگو:وسط‌چین g[m=l]90% الگو:پایان وسط‌چین

بنابرین خواهیم داشت:

الگو:وسط‌چین W[p,q]=V[p,q],p=1M,q=1l الگو:پایان وسط‌چین

انتقال داده به فضای جدید

برای این کار ابتدا تبدیلات زیر انجام می‌گیرد: ماتریس sM,1 انحراف معیار مجموعه داده‌است که می‌تواند به صورت زیر به دست بیاید:

الگو:وسط‌چین s[i]=C[i,i] الگو:پایان وسط‌چین

سپس داده به صورت زیر تبدیل می‌شود:

الگو:وسط‌چین Z=Bs الگو:پایان وسط‌چین

که ماتریسهای C و B در بالا توضیح داده شده‌اند. داده‌ها می‌توانند به ترتیب زیر به فضای جدید برده شوند:

الگو:وسط‌چین Y=W.Z الگو:پایان وسط‌چین

کاربرد

هوش

اولین کاربرد تحلیل مؤلفه‌ای در پیداکردن و اندازه‌گیری مؤلفه‌های هوش انسانی بود. در گذشته باورها بر این بود که هوش دارای مؤلفه‌های نامرتبط مختلفی مانند هوش فضایی، هوش کلامی، استنتاج، قیاس و غیره است و می‌توان امتیازات مربوط به این موارد را با تحلیل مؤلفه‌ای از نتایج آزمون‌های مختلف به‌دست‌آورد تا یک شاخص واحد به نام ضریب هوش (IQ) به‌دست‌آورد. روان‌شناس آماری چارلز اسپیرمن در واقع تحلیل مؤلفه‌ای را در سال ۱۹۰۴ برای نظریه دو عاملی هوش خود توسعه داد و یک تکنیک رسمی را به علم روان‌سنجی اضافه کرد. در سال ۱۹۲۴، تورستون ۵۶ عامل هوش را بررسی کرد و مفهوم سن ذهنی را توسعه داد. تست‌های استاندارد هوش امروزی بر اساس همین کار اولیه است.[۵]

ژنتیک جمعیت

در سال ۱۹۷۸ کاوالی-اسفورزا و دیگران پیشگام استفاده از تحلیل مؤلفه‌های اصلی برای خلاصه‌کردن داده‌ها دربارهٔ تنوع در فرکانس‌های ژن انسانی در مناطق مختلف بودند. مؤلفه‌ها، الگوهای متمایزی از جمله گرادیان و امواج سینوسی را نشان دادند. آنها این الگوها را ناشی از رویدادهای مهاجرت باستانی تفسیر کردند.

نرم‌افزارها

  • در نرم‌افزار متلب تابع princomp مؤلفه‌های اصلی را بازمی‌گرداند که در نسخه‌های جدید، تابع pca جایگزین آن شده‌است.
  • در زبان پایتون کتابخانه matplotlib دارای پکیج PCA در ماژول mlab. است.
  • کتابخانه scikit-learn در پایتون برای یادگیری ماشین که شامل PCA, PCA احتمالی، Kernel PCA, Sparse PCA و تکنیک‌های دیگر در ماژول decomposition است.
  • OpenCV
  • Eviews
  • در نرم‌افزار R تابع prcomp و princomp مؤلفه‌های اصلی را بازمی‌گرداند. prcomp از تجزیه مقدارهای منفرد استفاده می‌کند که به‌طور کلی دقت عددی بهتری دارد. برخی از پکیج‌ها که PCA را در R پیاده‌سازی می‌کنند، عبارتند از: ade4 و vegan و ExPosition

جستارهای وابسته

منابع

الگو:پانویس

الگو:آمار

  1. الگو:Cite journal
  2. الگو:Cite journal
  3. Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.الگو:سخالگو:Cite journal
  4. Jolliffe I.T. Principal Component Analysis الگو:Webarchive, Series: Springer Series in Statistics, 2nd ed. , Springer, NY, 2002, XXIX, 487 p. 28 illus. الگو:ISBN
  5. Kaplan, R.M. , & Saccuzzo, D.P. (2010). Psychological Testing: Principles, Applications, and Issues. (8th ed.). Belmont, CA: Wadsworth, Cengage Learning.