چهارتایی آنسکوم

از testwiki
نسخهٔ تاریخ ۱۲ سپتامبر ۲۰۲۲، ساعت ۰۱:۵۴ توسط imported>InternetArchiveBot (Add 1 book for ویکی‌پدیا:تأییدپذیری (20220911)) #IABot (v2.0.9.1) (GreenC bot)
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو

چهارتایی آنسکوم شامل چهار مجموعه داده‌است که دارای آمار توصیفی ساده و تقریباً یکسان هستند، اما توزیع‌های بسیار متفاوتی دارند و نمودارهایشان بسیار متفاوت به نظر می‌رسند. هر مجموعه داده از یازده نقطه (x و y) تشکیل شده‌است. فرانسیس آنسکوم این داده‌ها را در سال ۱۹۷۳ ساخت تا هم اهمیت رسم نمودار داده‌ها و هم تأثیر داده‌های پرت را بر مدل نهائی نشان داد. وی هدف از انتشار مقاله را مقابله با این تصور که «محاسبات عددی دقیق هستند، اما نمودارها تقریبی هستند» توصیف می‌کند.[۱]

داده‌ها

برای هر چهار مجموعه، آمارها و ویژگی‌های جدول پایین یکسان است:

هر چهار مجموعه با استفاده از آمار خلاصه ساده یکسان هستند اما نمودارها کاملاً متفاوت هستند
آمار ارزش دقت
میانگین x 9 دقیق
واریانس x 11 دقیق
میانگین y 7.50 ۲ رقم اعشار
واریانس y 4.125 ۳ ۰٫۰۰۳
همبستگی x و y 0.816 ۳ رقم اعشار
رگرسیون خطی y=3.00+0.500×x به ترتیب به ۲ و ۳ رقم اعشار
ضریب تعیین رگرسیون خطی 0.67 ۲ رقم اعشار
  • در اولین نمودار (بالا سمت چپ) به نظر می‌رسد یک رابطه خطی ساده مربوط به دو متغیر همبسته باشد. در این نمودار y از یک توزیع طبیعی پیروی می‌کند که میانگین آن وابستگی خطی به x دارد.
  • در نمودار دوم (بالا سمت راست) y از یک توزیع طبیعی پیروی نمی‌کند و رابطه بین دو متغیر خطی نیست. ضریب همبستگی پیرسون اهمیتی ندارد و ضریب تعیین مناسب‌تر به نظر می‌رسد بود.
  • در نمودار سوم (پایین سمت چپ)، رابطه بین دو متغیر خطی است، اما رگرسیون خطی محاسبه شده به علت وجود یک داده پرت باثبات نیست. داده پرت ضریب x را از ۱ به ۰٫۸۱۶ تغییر داده‌است.
  • نمودار چهارم (سمت راست پایین) مثالی را نشان می‌دهد که یک داده پرت برای تولید ضریب همبستگی بالا کفایت می‌کند، حتی اگر سایر داده‌ها هیچ ارتباطی بین متغیر مستقل و وابسته نشان ندهند.

این داده چهارتایی هنوز هم اغلب برای نشان دادن اهمیت مصورسازی داده قبل از شروع به تجزیه و تحلیل و عدم کفایت آمارهای توصیفی برای توصیف مجموعه داده‌ها مورد استفاده قرار می‌گیرد.[۲][۳][۴][۵][۶]

مجموعه داده‌ها به شرح زیر است. مقادیر x برای سه مجموعه داده اول یکسان است.[۷]

چهارتایی آنسکوم
اول دوم سوم چهارم
x y x y x y x y
۱۰٫۰ ۸٫۰۴ ۱۰٫۰ ۹٫۱۴ ۱۰٫۰ ۷٫۴۶ ۸٫۰ ۶٫۵۸
۸٫۰ ۶٫۹۵ ۸٫۰ ۸٫۱۴ ۸٫۰ ۶٫۷۷ ۸٫۰ ۵٫۷۶
۱۳٫۰ ۷٫۵۸ ۱۳٫۰ ۸٫۷۴ ۱۳٫۰ ۱۲٫۷۴ ۸٫۰ ۷٫۷۱
۹٫۰ ۸٫۸۱ ۹٫۰ ۸٫۷۷ ۹٫۰ ۷٫۱۱ ۸٫۰ ۸٫۸۴
۱۱٫۰ ۸٫۳۳ ۱۱٫۰ ۹٫۲۶ ۱۱٫۰ ۷٫۸۱ ۸٫۰ ۸٫۴۷
۱۴٫۰ ۹٫۹۶ ۱۴٫۰ ۸٫۱۰ ۱۴٫۰ ۸٫۸۴ ۸٫۰ ۷٫۰۴
۶٫۰ ۷٫۲۴ ۶٫۰ ۶٫۱۳ ۶٫۰ ۶٫۰۸ ۸٫۰ ۵٫۲۵
۴٫۰ ۴٫۲۶ ۴٫۰ ۳٫۱۰ ۴٫۰ ۵٫۳۹ ۱۹٫۰ ۱۲٫۵۰
۱۲٫۰ ۱۰٫۸۴ ۱۲٫۰ ۹٫۱۳ ۱۲٫۰ ۸٫۱۵ ۸٫۰ ۵٫۵۶
۷٫۰ ۴٫۸۲ ۷٫۰ ۷٫۲۶ ۷٫۰ ۶٫۴۲ ۸٫۰ ۷٫۹۱
۵٫۰ ۵٫۶۸ ۵٫۰ ۴٫۷۴ ۵٫۰ ۵٫۷۳ ۸٫۰ ۶٫۸۹

مشخص نیست که چگونه آنسکوم مجموعه داده‌های خود را ایجاد کرد.[۸] از زمان انتشار آن، روشهای مختلفی برای تولید مجموعه داده‌های مشابه با آمارهای یکسان و نمودارهای متفاوت ایجاد شده‌است.[۹]

منابع

الگو:پانویس