رگرسیون لجستیک
الگو:تحلیل رگرسیون رگرسیون لجستیک الگو:انگلیسی یک مدل آماری رگرسیون برای متغیرهای وابسته دوسویی مانند بیماری یا سلامت، مرگ یا زندگی است. این مدل را میتوان به عنوان مدل خطی تعمیمیافتهای که از تابع لوجیت به عنوان تابع پیوند استفاده میکند و خطایش از توزیع چندجملهای پیروی میکند، بهحسابآورد. منظور از دو سویی بودن، رخ داد یک واقعه تصادفی در دو موقعیت ممکنه است. به عنوان مثال خرید یا عدم خرید، ثبت نام یا عدم ثبت نام، ورشکسته شدن یا ورشکسته نشدن و … متغیرهایی هستند که فقط دارای دو موقعیت هستند و مجموع احتمال هر یک آنها در نهایت یک خواهد شد. کاربرد این روش عمدتاً در ابتدای ظهور در مورد کاربردهای پزشکی برای احتمال وقوع یک بیماری مورد استفاده قرار میگرفت. لیکن امروزه در تمام زمینههای علمی کاربرد وسیعی یافتهاست. به عنوان مثال مدیر سازمانی میخواهد بداند در مشارکت یا عدم مشارکت کارمندان کدام متغیرها نقش پیشبینی دارند؟ مدیر تبلیغاتی میخواهد بداند در خرید یا عدم خرید یک محصول یا برند چه متغیرهایی مهم هستند؟ یک مرکز تحقیقات پزشکی میخواهد بداند در مبتلا شدن به بیماری عروق کرنری قلب چه متغیرهایی نقش پیشبینیکننده دارند؟ تا با اطلاعرسانی از احتمال وقوع کاسته شود.
رگرسیون لجستیک میتواند یک مورد خاص از مدل خطی عمومی و رگرسیون خطی دیده شود. مدل رگرسیون لجستیک، بر اساس فرضهای کاملاً متفاوتی (دربارهٔ رابطه متغیرهای وابسته و مستقل) از رگرسیون خطی است. تفاوت مهم این دو مدل در دو ویژگی رگرسیون لجستیک میتواند دیده شود. اول توزیع شرطی یک توزیع برنولی به جای یک توزیع گوسی است چونکه متغیر وابسته دودویی است. دوم مقادیر پیشبینی احتمالاتی است و محدود بین بازه صفر و یک و به کمک تابع توزیع لجستیک بهدست میآید رگرسیون لجستیک احتمال خروجی پیشبینی میکند.
این مدل به صورت
الگو:پایان وسطچین الگو:وسطچین
الگو:پایان وسطچین است که الگو:وسطچین
الگو:پایان وسطچین الگو:وسطچین

رگرسیون لجستیک را میتوان توسط تابع لجستیک تعریف کرد. دامنه این تابع اعداد حقیقی هستند و برد این تابع بین صفر و یک میباشد.[۱] این تابع با نمایش داده میشود و به نحو پایین محاسبه میشود:[۱] الگو:وسطچین الگو:پایان وسطچین با احتساب تابع لجستیک، رگرسیون لجستیک را میتوان به شکل پایین بازنویسی کرد:[۱] الگو:وسطچین الگو:پایان وسطچین
برآورد پارامترهای بهینه
برای بهدست آوردن پارامترهای بهینه یعنی میتوان از روش برآورد درست نمایی بیشینه (Maximum Likelihood Estimation) استفاده کرد. اگر فرض کنیم که تعداد مثالهایی که قرار است برای تخمین پارامترها استفاده کنیم است و این مثالها را به این شکل نمایش دهیم . پارامتر بهینه پارامتری است که برآورد درست نمایی را بیشینه کند، البته برای سادگی کار برآورد لگاریتم درست نمایی را بیشینه میکنیم. لگاریتم درست نمایی داده برای پارامتر را با نمایش میدهیم: الگو:وسطچین الگو:پایان وسطچین اگر برای داده ام باشد، هدف افزایش است و اگر صفر باشد هدف افزایش مقدار است. از این رو از فرمول استفاده میکنیم که اگر باشد، فرمول به ما را بدهد و اگر بود به ما را بدهد.
حال برای بهدست آوردن پارامتر بهینه باید یی پیدا کنیم که مقدار را بیشینه کند. از آنجا که این تابع نسبت به مقعر است حتماً یک بیشینه مطلق دارد. برای پیدا کردن جواب میتوان از روش گرادیان افزایشی از نوع تصادفی اش استفاده کرد (Stochastic Gradient Ascent). در این روش هر بار یک مثال را بهصورت اتفاقی از نمونههای داده انتخاب کرده، گرادیان درست نمایی را حساب میکنیم و کمی در جهت گرادیان پارامتر را حرکت میدهیم تا به یک پارامتر جدید برسیم. گرادیان جهت موضعی بیشترین افزایش را در تابع به ما نشان میدهد، برای همین در آن جهت کمی حرکت میکنیم تا به بیشترین افزایش موضعی تابع برسیم. اینکار را آنقدر ادامه میدهیم که گرادیان به اندازه کافی به صفر نزدیک شود. بهجای اینکه دادهها را بهصورت تصادفی انتخاب کنیم میتوانیم به ترتیب داده شماره تا داده شماره را انتخاب کنیم و بعد دوباره به داده اولی برگردیم و این کار را بهصورت متناوب چندین بار انجام دهیم تا به اندازه کافی گرادیان به صفر نزدیک شود. از لحاظ ریاضی این کار را میتوان به شکل پایین انجام داد، پارامتر را در ابتدا بهصورت تصادفی مقدار دهی میکنیم و بعد برای داده ام و تمامی ها، یعنی از تا تغییر پایین را اعمال میکنیم، دراینجا همان مقداریست که در جهت گرادیان هربار حرکت میکنیم و مشتق جزئی داده ام در بُعد ام است: الگو:وسطچین الگو:پایان وسطچین
تنظیم مدل (Regularization)
پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده میشود. هرچه این پیچیدگی بیشتر باشد خطر بیشبرازش (Overfitting) برای مدل بیشتر است.[۲] پدیده بیشبرازش زمانی رخ میدهد که مدل بهجای یادگیری الگوهای داده، داده را را حفظ کند و در عمل، فرآیند یادگیری به خوبی انجام نمیشود. برای جلوگیری از بیشبرازش در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمهای به تابع هزینه اضافه میشود تا از افزایش زیاد پارامترها جلوگیری شود. تابع هزینه را در رگرسیون لجستیک با منفی لگاریتم درستنمایی تعریف میکنیم تا کمینه کردن آن به بیشینه کردن تابع درست نمایی بینجامد. به این کار نرمالسازی (تنظیم مدل یا Regularization) گفته میشود. دو راه متداول تنظیم مدلهای خطی روشهای و هستند.[۳] در روش ضریبی از نُرمِ به تابع هزینه اضافه میشود و در روش ضریبی از نُرمِ که همان نُرمِ اقلیدسی است به تابع هزینه اضافه میشود.

در تنظیم مدل به روش تابع هزینه را به این شکل تغییر میدهیم:[۵] الگو:وسطچین الگو:پایان وسطچین این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث میشود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصطلاح خلوت (Sparse) شود.[۶]
در تنظیم مدل به روش تابع هزینه را به این شکل تغییر میدهیم: الگو:وسطچین الگو:پایان وسطچین در روش تنظیم از طریق سعی میشود طول اقلیدسی بردار کوتاه نگه داشته شود. در روش و یک عدد مثبت است که میزان تنظیم مدل را معین میکند. هرچقدر کوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی پرداخت میکنیم. مقدار ایدئال از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا میشود.
تفسیر احتمالی تنظیم مدل
اگر بهجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید.[۷] اگر مجموعه داده را با نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با ، احتمال پسین ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی و احتمال پیشین یعنی :[۸] الگو:وسطچین الگو:پایان وسطچین ازین رو الگو:وسطچین الگو:پایان وسطچین معادله خط پیشین نشان میدهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس در نظر بگیریم به معادله پایین میرسیم:[۸] الگو:وسطچین الگو:پایان وسطچین با ساده کردن این معادله به نتیجه پایین میرسیم: الگو:وسطچین الگو:پایان وسطچین با تغییر علامت معادله، بیشینهسازی را به کمینهسازی تغییر میدهیم، در این معادله همان است: الگو:وسطچین الگو:پایان وسطچین همانطور که دیدیم جواب همان تنظیم مدل با نرم است.
حال اگر توزیع پیشین را از نوع توزیع لاپلاس با میانگین صفر در نظر بگیریم به تنظیم مدل با نرم خواهیم رسید.[۸]
از آنجا که میانگین هر دو توزیع پیشین صفر است، پیشفرض تخمین پارامتر بر این بنا شدهاست که اندازه پارامتر مورد نظر کوچک و به صفر نزدیک باشد و این پیشفرض با روند تنظیم مدل همخوانی دارد.[۸]
کاربردها
رگرسیون لجستیک در زمینههای مختلف از جمله یادگیری ماشین، اکثر رشتههای پزشکی و علوم اجتماعی مورد استفاده قرار میگیرد. برای مثال، میزان آسیبدیدگی الگو:انگلیسی، که بهطور گسترده برای پیشبینی مرگ و میر در بیماران مصدوم مورد استفاده قرار میگیرد، توسط بوید و همکارانش با استفاده از رگرسیون لجستیک ایجاد شد.[۹] مقیاسهای پزشکی دیگری که برای ارزیابی شدت بیماری به کار میرود با استفاده از رگرسیون لجستیک ساخته شدهاند.[۱۰][۱۱][۱۲][۱۳] رگرسیون لجستیک ممکن است برای پیشبینی خطر ابتلا به یک بیماری خاص (به عنوان مثال دیابت؛ بیماری انسداد قلب)، بر اساس ویژگیهای مشاهده شده بیمار (سن، جنس، شاخص توده بدنی، نتایج آزمایشهای مختلف خون و غیره) مورد استفاده قرار گیرد.[۱۴][۱۵] رگرسیون لجستیک در علوم سیاسی هم کاربرد دارد. به عنوان مثال این مدل میتواند بر روی پیشبینی اینکه رایدهنده اهل نپال به کنگره نپال یا حزب کمونیست نپال یا هر حزب دیگری رأی دهد، بر اساس سن، درآمد، جنس، نژاد، وضعیت سکونت، آراء در انتخاباتهای قبلی و غیره کار کند.[۱۶] این روش همچنین میتواند در مهندسی مورد استفاده قرار گیرد، به ویژه برای پیشبینی احتمال عدم موفقیت یک فرایند، سیستم یا محصول معین.[۱۷][۱۸] همچنین در برنامههای بازاریابی مانند پیشبینی تمایل مشتری برای خرید یک محصول یا متوقف کردن اشتراک و غیره مورد استفاده قرار گیرد.[۱۹]
تاریخچه
تابع لجستیک به عنوان مدلی برای پیشبینی رشد جمعیت توسط پیر فرانسوا ورهولست و کمک آدولف کوتله در دهه ۱۸۳۰ و ۱۸۴۰ توسعه یافت و «لجستیک» نامگذاری شد.[۲۰]
تابع لجستیک بهطور مستقل در شیمی برای مدلسازی واکنش خودکاتالیزی توسعه یافت.[۲۱] واکنش خودکاتالیزی یک واکنش شیمیایی است که یکی از محصولات واکنش خود یک فروکافت برای همان واکنش یا یک واکنش جفت باشد.[۲۲]
تابع لجستیک بهطور مستقل به عنوان مدلی برای پیشبینی رشد جمعیت در سال ۱۹۲۰ توسط ریموند پرل و لاول رید دوباره ایجاد و به چاپ رسید که منجر به استفاده آن در علم آمار شد. آنها در ابتدا این مدل را برای مدلسازی جمعیت ایالات متحده آمریکا به کار گرفته بودند.[۲۳] ریموند پرل و لاول رید در ابتدا از کار ورهولست بیخبر بودند و احتمالاً در مورد آن از گوستاو دو پاسگیر آگاهی یافتند، اما اعتبار کمی به او دادند و اصطلاحات او را اتخاذ نکردند.[۲۴] تقدم کار ورهولست بعدها مورد تأکید قرار گرفت و اصطلاح «لجستیک» توسط اودنی یول در سال ۱۹۲۵ احیا شد و از آن زمان مورد استفاده قرار گرفت.[۲۵]
در دهه ۱۹۳۰، مدل پروبیت توسط چستر ایتنر بلیس و جان گادوم ابداع شد و اصطلاح «پروبیت» برای آن مورد استفاده قرار گرفت. فیشر کمی بعدتر مدل پروبیت را با تخمین از طریق برآورد درستنمایی بیشینه توسعه داد. مدل پروبیت در ابتدا اساساً برای زیست سنجی مورد استفاده قرار میگرفت و پیش از آن هم در کارهای مشابهی در این زمینه در دهه ۱۸۶۰ از آن استفاده میشد. مدل پروبیت بر توسعه بعدی رگرسیون لجستیک تأثیر گذاشت؛ این دو مدل رقیب یکدیگر بودند.[۲۶]
مدل لجستیک احتمالاً برای اولین بار به عنوان جایگزینی برای مدل پروبیت در زیست سنجی توسط ادوین بیدول ویلسون و شاگردش جین ورسستر در مورد استفاده قرار گرفت.[۲۷] با این حال، توسعه مدل لجستیک به عنوان یک جایگزین کلی برای مدل پروبیت، عمدتاً ناشی از کار جوزف برکسون طی چند دهه بود. وی کلمه «لوجیت» را با قیاس به «پروبیت» ایجاد کرد.[۲۸] مدل لوجیت در ابتدا به عنوان مدلی ضعیفتر از پروبیت رد شد،[۲۹] اما به تدریج به برابری با مدل پروبیت دست یافت و بعد از آن پیشیگرفت. این محبوبیت نسبی بخاطر سادگی محاسباتی، خصوصیات ریاضی و کلی بودن مدل بود که اجازه استفاده از آن را در حوزههای گوناگون میداد.[۳۰] دیوید کاکس بعدها اصلاحات فراوانی بر روی مدل لوجیت اعمال کرد.[۳۱]
با توسعه مدل لوجیت به مدلی چندجملهای دامنه کاربرد و محبوبیت مدل به شدت افزایش پیدا کرد.[۳۲]
جستارهای وابسته
- نسبت شانسها
- تحلیل تفکیک خطی
- پرسپترون
- شبکه عصبی مصنوعی
- کاوشهای ماشینی در دادهها
- رگرسیون خطی
- رگرسیون پواسون
منابع
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ Hosmer, David W. ; Lemeshow, Stanley (2000). Applied Logistic Regression (2nd ed.). Wiley. ISBN 978-0-471-35632-5.
- ↑ الگو:Cite journal
- ↑ الگو:یادکرد کتاب
- ↑ الگو:Citation
- ↑ الگو:یادکرد کتاب
- ↑ الگو:Cite journal
- ↑ الگو:یادکرد کتاب
- ↑ ۸٫۰ ۸٫۱ ۸٫۲ ۸٫۳ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite book
- ↑ الگو:Cite journal
- ↑ الگو:Cite book
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite book
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ Steinfeld J.I. , Francisco J.S. and Hase W.L. Chemical Kinetics and Dynamics (2nd ed. , Prentice-Hall 1999) p.151-2 الگو:ISBN
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal