پیشنویس:واریانس حفظ شده
واریانس حفظ شده
در علم آمار، واریانس حفظ شده (به انگلیسی: explained variance) ابزاری برای سنجش مقدار واریانس مد نظر گرفته شده توسط یه مدل ریاضیاتی روی یک مجموعه داده خاص است. هر چه میزان واریانس حفظ شده بیشتر باشد، آن مدل بیشتر میتواند تنوع دادهها در مجموعه دادهها را توضیح دهد.
به قسمت دیگر از واریانس کل، واریانس باقی مانده میگویند.
موارد خاص و کاربرد کلی
رگرسیون خطی
در رگرسیون خطی مبحث کسری از واریانس باقی مانده (به انگلیسی: Fraction of variance unexplained) مفهومی جافتاده است. همچنین ضریب تعیین بر پایه مبانی پایهای واریانس حفظ شده تعریف میشود.
ضریب همبستگی به عنوان معیار واریانس حفظ شده
فرض کنید برداری تصادفی و متغیری تصادفی که از یک توزیع نرمال با میانگین تولید میشود، میباشند. در این حالت واریانس حفظ شده برابر توان دو ضریب تعیین است.[۱]
توجه کنید که فرضیه مهم این مدل، خطی بودن مرکز توزیع نسبت به است.
تحلیل مولفه اصلی
واریانس حفظ شده برای انتخاب مدل مناسب در بخشهایی از یادگیری ماشین استفاده میشود. از مثالهای آن میتوان به کاربرد آن در کاهش ابعاد در تحلیل مؤلفههای اصلی اشاره کرد. در این روش از واریانس حفظ شده برای انتخاب مؤلفههای اصلیای که بیشترین اطلاعات را از مجموعه داده اولیه نگهداری میکنند، استفاده میشود.[۲]
در روش تحلیل مؤلفههای اصلی مقادیر و بردارهای ویژه ماتریس کوواریانس مجموعه دادهها محاسبه میشود و بردارهای ویژه با بیشترین مقدار واریانس حفظ شده نگهداری میشوند (به اندازهای که مجموع مقدار واریانس حفظ شده به مقداری مناسب، معمولا بالا ۹۰ درصد برسد) و مجموعه داده جدید را تشکیل میدهند. واریانس حفظ شده برای هر بردار ویژه به صورت زیر محاسبه میشود:
که مقدار ویژه متناظر با بردار ویژه i ام و برابر میزان واریانس حفظ شده توسط آن بردار ویژه است.