کمترین مربعات جزئی
الگو:تحلیل رگرسیون کمترین مربعات جزئی الگو:یاد (انگلیسی: Partial least squares regression (PLS regression)) یکی از روشهای تحلیل رگرسیون است. در این روش، راه حل حداقل مربعات بر روی تعدادی مؤلفه متعامد که ترکیبی خطی از متغیرهای مستقل هستند و به صورت متناوب و با هدف بیشینهکردن کوواریانسِ تبدیل خطیِ متغیرهای مستقل و متغیرهای وابسته ایجاد شدهاند، اعمال میشود.[۱][۲]
کمترین مربعات جزئی توسط آماردان سوئدی، Herman O. A. Wold معرفیشد که سپس آن را با پسرش Svante Wold توسعهداد. یک اصطلاح جایگزین برای «حداقل مربعات جزئی»، نگاشت به ساختارهای پنهان است، اما هوز «حداقل مربعات جزئی» در بسیاری از حوزهها اصطلاح رایج است. اگرچه کاربردهای اصلی آن در علوم اجتماعی بود، اما امروزه PLS بیشترین کاربرد را در شیمیِ آماری و حوزههای مرتبط دارد. همچنین در بیوانفورماتیک، حس سنجی، علوم اعصاب و انسانشناسی نیز استفاده میشود.
رابطه ریاضی
فرض میکنیم داده داریم که هر کدام از یک متغیر وابسته و متغیر مستقل تشکیل شدهاست؛ به کمک متغیرهای مستقل متغیر وابسته را پیشبینی میکنیم. مقادیر متغیرهای مستقل (به همراه یک بردار ثابت ) و مقادیر متغیر وابسته را به ترتیب در ماتریسهای و به شکل پایین نمایش میدهیم؛ در اینجا یک ماتریس از مقادیر امین متغیر مستقل است: الگو:وسطچینالگو:پایان وسطچین الگو:وسطچینالگو:پایان وسطچین هدف از رگرسیون خطی بدست آوردن پارامتر است به شکلی که در اینجا یک متغیر تصادفی است که خطای مدل را نشان میدهد. این خطا از توزیع طبیعی با میانگین صفر و واریانس ثابت برای تمامی ابعاد پیروی میکند به این معنی که و . از طریق روش حداقل مربعات میتوان یعنی مربع میزان خطاها را کمینه کرد و به پارامتر بهینه رسید. این پارامتر با برابراست. یکی از مشکلات اصلی این روش عدم وارونپذیری است. برای حل این مشکل، حداقل مربعات جزئی، متناوباً مولفههایی متعامد ( در پایین) که ترکیبی خطی از متغیرهای مستقل هستند تولید میکند و در نهایت راه حل حداقل مربعات را بر روی این مولفهها اعمال میکند. ضرایب متغیرهای مستقل در مولفهها با ضرب نقطهایِ متغیرهای وابسته و مستقل برابر است. متغیرهای مستقل در ابتدای کار استاندارد شدهاند یعنی میانگین صفر و واریانس یک دارند. در پایان هر مرحله متغیرهای مستقل نسبت به مولفه آن مرحله متعامد میشوند. این کار باعث میشود که در پایان تمام مولفهها نسبت به هم متعامد باشند. الگوریتم تولید مولفهها برای به شکل پایین است ( از روش اعتبارسنجی متقابل محاسبه میشود): الگو:وسطچین الگو:پایان وسطچین از آنجا که یا همان مقدار پیشبینی شده، ترکیبی خطی از ها است و خود ها هم ترکیبی خطی از متغیرهای مستقل هستند، در نهایت مدل رگرسیون ترکیبی خطی از متغیرهای مستقل خواهد بود.[۱]
الگوریتم PLS1
PLS1 یک الگوریتم پرکاربرد است که وقتی از آن استفاده میشود که Y یک بردار باشد. این الگوریتم در شبهکد زیر بیان میشود (حروف بزرگ ماتریس هستند، حروف کوچک اگر بالانویس داشته باشند بردار، و اگر اندیس داشتهباشند اسکالر هستند):
الگو:چپچین 1 الگو:Nowrap 2 الگو:Nowrap 3 الگو:Nowrap, an initial estimate of الگو:Mvar. 4 الگو:Nowrap 5 الگو:Nowrap 6 الگو:Nowrap 7 الگو:Nowrap 8 الگو:Nowrap 9 الگو:Nowrap 10 الگو:Nowrap 11 الگو:Nowrap 12 الگو:Nowrap 13 الگو:Nowrap 14 الگو:Nowrap 15 الگو:Nowrap 16 define الگو:Mvar to be the matrix الگو:Nowrap Do the same to form the الگو:Mvar matrix and الگو:Mvar vector. 17 الگو:Nowrap 18 الگو:Nowrap 19 الگو:Nowrap
الگو:پایان چپچیناین شکل از الگوریتم نیازی به مرکزیت ورودی X و Y (کم کردن میانگین هر ستون از تک تک درایههای آن ستون در ماتریس) ندارد، زیرا این کار بهطور ضمنی توسط الگوریتم انجام میشود. متغیر l (فراهمشده توسط کاربر) محدودیتی برای تعداد متغییرهای پنهان در رگرسیون است و اگر با رتبه ماتریس X برابر باشد، الگوریتم تخمینهای رگرسیون کمترین مربعات را برای B و به دست میدهد.
جستارهای وابسته
یادداشتها
الگو:چندستونه الگو:یادداشت الگو:پایان چندستونه