معادله برآورد تعمیم‌یافته

از testwiki
نسخهٔ تاریخ ۱۲ دسامبر ۲۰۲۳، ساعت ۱۴:۴۵ توسط imported>InternetArchiveBot (Add 1 book for ویکی‌پدیا:تأییدپذیری (20231211)) #IABot (v2.0.9.5) (GreenC bot)
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو

در آمار، یک معادله برآورد تعمیم‌یافته (GEE) برای تخمین پارامترهای یک مدل خطی تعمیم‌یافته با یک همبستگی اندازه‌گیری نشده احتمالی، بین مشاهدات از نقاط زمانی مختلف استفاده می‌شود.[۱][۲] اگرچه برخی معتقدند که معادلات برآورد تعمیم یافته در همه چیز حتی با انتخاب نادرست ماتریس همبستگی کاری، کارایی دارند، اما این معادلات تنها در برابر از دست دادن سازگاری با انتخاب اشتباه، کارا هستند.

تخمین‌های ضریب بتای رگرسیون که از GEE Liang Zeger تخمین زده شده باشند تحت شرایط منظم، سازگار، بدون سوگیری، به‌طور مجانبی نرمال، حتی زمانی که همبستگی کاری به درستی مشخص شده باشد، هستند. GEE در کارایی از مدل تکرار شونده خطی تعمیم‌یافته GLIM (نرم‌افزار) در حضور خودهمبستگی بالا، بالاتر است.[۱] زمانی که همبستگی کاری واقعی شناخته شود، سازگاری نیازی به MCAR ندارد.[۱] خطاهای استاندارد Huber-White کارایی GEE Liang Zeger را در غیاب خودهمبستگی پیاپی بهبود می‌بخشند اما ممکن است تفسیر حاشیه ای را حذف کنند. GEE میانگین پاسخ را برای جمعیت (اثرات «متوسط جمعیت») با خطاهای استاندارد Liang Zeger تخمین می‌زند، و همچنین در افرادی که از خطاهای استاندارد Huber-White استفاده می‌کنند، به عنوان تخمین «خطای استاندارد قوی» یا «واریانس ساندویچ» شناخته می‌شود.[۳]

GEEها به دسته ای از تکنیک‌های رگرسیون تعلق دارند که به عنوان نیمه پارامتریک شناخته می‌شوند زیرا تنها بر مشخصات دو گشتاور اول تکیه دارند. آنها یک جایگزین محبوب برای مدل ترکیبی خطی تعمیم یافته مبتنی بر احتمال هستند که بیشتر در معرض خطر از دست دادن ثبات در مشخصات ساختار واریانس است.[۴] دستاورد تعیین نادرست ساختار واریانس و برآوردهای ضریب رگرسیون سازگار از دست دادن کارایی است، بنابراین مقادیر p آزمون والد در نتیجه واریانس بالاتر خطاهای استاندارد نسبت به بهینه‌ترین خطاها متورم می‌شود.[۵] GEEها معمولاً در مطالعات بزرگ اپیدمیولوژی، به ویژه در مطالعات هم گروهی که در چند محل انجام می‌شود استفاده می‌شوند، زیرا می‌توانند انواع زیادی از وابستگی اندازه‌گیری نشده بین نتایج را کنترل کنند.

فرمول بندی

با توجه به مدل متوسط μij برای موضوع i و زمان j که به پارامترهای رگرسیون βk و ساختار واریانس Vi بستگی دارد، معادله تخمینی از طریق زیر تشکیل می‌شود:[۶]

U(β)=i=1NμiβVi1{Yiμi(β)}

پارامترهای βk با حل U(β)=0 تخمین زده می‌شوند و معمولاً از طریق الگوریتم نیوتن-رافسون به دست می‌آیند. ساختار واریانس برای بهبود کارایی تخمین پارامترها انتخاب شده‌است. ماتریس هسین راه حل برای GEEها در فضای پارامتر می‌تواند برای محاسبه تخمین‌های خطای استاندارد قوی استفاده شود. اصطلاح «ساختار واریانس» به شکل جبری ماتریس کوواریانس بین نتایج، Y، در نمونه اشاره دارد. نمونه‌هایی از مشخصات ساختار واریانس عبارتند از: مستقل، مبادله پذیر، خودبازگشت، وابسته به m ثابت و بدون ساختار. محبوب‌ترین شکل استنباط بر روی پارامترهای رگرسیون GEE، آزمون والد است که با استفاده از خطاهای استاندارد ضعیف یا قوی است، اگرچه آزمون نمره نیز زمانی معتبر و حتی ارجح است که به دست آوردن تخمین از اطلاع فیشر تحت فرضیه جایگزین مشکل باشد. آزمون نسبت درست‌نمایی دراین موقعیت معتبر نیست زیرا معادلات تخمینی لزوماً معادلات درست‌نمایی نیستند. انتخاب مدل را می‌توان با معادل GEE برای معیار اطلاعاتی آکائیکه (AIC)، یعنی «شبه احتمال تحت معیار مدل مستقل» (QIC) انجام داد.[۷]

رابطه با روش تعمیم گشتاورها

معادله تخمین تعمیم یافته یک مورد خاص از روش تعمیم یافته گشتاورها (GMM) است.[۸] این رابطه از شرطی که تابع امتیاز معادله را برآورده کند پدید می‌آید:

𝔼[U(β)]=1Ni=1NμiβVi1{Yiμi(β)}=0

محاسبات

از نرم‌افزارهای متلب،[۹] ساس (proc genmod[۱۰]), SPSS (the gee procedure[۱۱]), استتا (the xtgee command[۱۲]), آر (packages gee,[۱۳] geepack[۱۴] و multgee[۱۵]), جولیا (package GEE.jl[۱۶]) و پایتون (package statsmodels[۱۷]) می‌توان برای حل معادلات تخمین تعمیم یافته استفاده کرد.

مقایسه بین بسته‌های نرم‌افزاری برای تجزیه و تحلیل داده‌های همبسته باینری[۱۸][۱۹] و داده‌های همبسته ترتیبی[۲۰] از طریق GEE در دسترس است.

جستارهای وابسته

الگو:آمار

منابع

الگو:پانویس