معادله برآورد تعمیمیافته
در آمار، یک معادله برآورد تعمیمیافته (GEE) برای تخمین پارامترهای یک مدل خطی تعمیمیافته با یک همبستگی اندازهگیری نشده احتمالی، بین مشاهدات از نقاط زمانی مختلف استفاده میشود.[۱][۲] اگرچه برخی معتقدند که معادلات برآورد تعمیم یافته در همه چیز حتی با انتخاب نادرست ماتریس همبستگی کاری، کارایی دارند، اما این معادلات تنها در برابر از دست دادن سازگاری با انتخاب اشتباه، کارا هستند.
تخمینهای ضریب بتای رگرسیون که از GEE Liang Zeger تخمین زده شده باشند تحت شرایط منظم، سازگار، بدون سوگیری، بهطور مجانبی نرمال، حتی زمانی که همبستگی کاری به درستی مشخص شده باشد، هستند. GEE در کارایی از مدل تکرار شونده خطی تعمیمیافته GLIM (نرمافزار) در حضور خودهمبستگی بالا، بالاتر است.[۱] زمانی که همبستگی کاری واقعی شناخته شود، سازگاری نیازی به MCAR ندارد.[۱] خطاهای استاندارد Huber-White کارایی GEE Liang Zeger را در غیاب خودهمبستگی پیاپی بهبود میبخشند اما ممکن است تفسیر حاشیه ای را حذف کنند. GEE میانگین پاسخ را برای جمعیت (اثرات «متوسط جمعیت») با خطاهای استاندارد Liang Zeger تخمین میزند، و همچنین در افرادی که از خطاهای استاندارد Huber-White استفاده میکنند، به عنوان تخمین «خطای استاندارد قوی» یا «واریانس ساندویچ» شناخته میشود.[۳]
GEEها به دسته ای از تکنیکهای رگرسیون تعلق دارند که به عنوان نیمه پارامتریک شناخته میشوند زیرا تنها بر مشخصات دو گشتاور اول تکیه دارند. آنها یک جایگزین محبوب برای مدل ترکیبی خطی تعمیم یافته مبتنی بر احتمال هستند که بیشتر در معرض خطر از دست دادن ثبات در مشخصات ساختار واریانس است.[۴] دستاورد تعیین نادرست ساختار واریانس و برآوردهای ضریب رگرسیون سازگار از دست دادن کارایی است، بنابراین مقادیر p آزمون والد در نتیجه واریانس بالاتر خطاهای استاندارد نسبت به بهینهترین خطاها متورم میشود.[۵] GEEها معمولاً در مطالعات بزرگ اپیدمیولوژی، به ویژه در مطالعات هم گروهی که در چند محل انجام میشود استفاده میشوند، زیرا میتوانند انواع زیادی از وابستگی اندازهگیری نشده بین نتایج را کنترل کنند.
فرمول بندی
با توجه به مدل متوسط برای موضوع و زمان که به پارامترهای رگرسیون و ساختار واریانس بستگی دارد، معادله تخمینی از طریق زیر تشکیل میشود:[۶]
پارامترهای با حل تخمین زده میشوند و معمولاً از طریق الگوریتم نیوتن-رافسون به دست میآیند. ساختار واریانس برای بهبود کارایی تخمین پارامترها انتخاب شدهاست. ماتریس هسین راه حل برای GEEها در فضای پارامتر میتواند برای محاسبه تخمینهای خطای استاندارد قوی استفاده شود. اصطلاح «ساختار واریانس» به شکل جبری ماتریس کوواریانس بین نتایج، Y، در نمونه اشاره دارد. نمونههایی از مشخصات ساختار واریانس عبارتند از: مستقل، مبادله پذیر، خودبازگشت، وابسته به m ثابت و بدون ساختار. محبوبترین شکل استنباط بر روی پارامترهای رگرسیون GEE، آزمون والد است که با استفاده از خطاهای استاندارد ضعیف یا قوی است، اگرچه آزمون نمره نیز زمانی معتبر و حتی ارجح است که به دست آوردن تخمین از اطلاع فیشر تحت فرضیه جایگزین مشکل باشد. آزمون نسبت درستنمایی دراین موقعیت معتبر نیست زیرا معادلات تخمینی لزوماً معادلات درستنمایی نیستند. انتخاب مدل را میتوان با معادل GEE برای معیار اطلاعاتی آکائیکه (AIC)، یعنی «شبه احتمال تحت معیار مدل مستقل» (QIC) انجام داد.[۷]
رابطه با روش تعمیم گشتاورها
معادله تخمین تعمیم یافته یک مورد خاص از روش تعمیم یافته گشتاورها (GMM) است.[۸] این رابطه از شرطی که تابع امتیاز معادله را برآورده کند پدید میآید:
محاسبات
از نرمافزارهای متلب،[۹] ساس (proc genmod[۱۰]), SPSS (the gee procedure[۱۱]), استتا (the xtgee command[۱۲]), آر (packages gee,[۱۳] geepack[۱۴] و multgee[۱۵]), جولیا (package GEE.jl[۱۶]) و پایتون (package statsmodels[۱۷]) میتوان برای حل معادلات تخمین تعمیم یافته استفاده کرد.
مقایسه بین بستههای نرمافزاری برای تجزیه و تحلیل دادههای همبسته باینری[۱۸][۱۹] و دادههای همبسته ترتیبی[۲۰] از طریق GEE در دسترس است.
جستارهای وابسته
منابع
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ الگو:Cite journal
- ↑ الگو:Cite book
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite book
- ↑ الگو:Citation.
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Citation
- ↑ الگو:Citation
- ↑ الگو:Cite web
- ↑ الگو:Cite web
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal
- ↑ الگو:Cite journal