چهارتایی آنسکوم

چهارتایی آنسکوم شامل چهار مجموعه داده‌است که دارای آمار توصیفی ساده و تقریباً یکسان هستند، اما توزیع‌های بسیار متفاوتی دارند و نمودارهایشان بسیار متفاوت به نظر می‌رسند. هر مجموعه داده از یازده نقطه ( $x$ و $y$ ) تشکیل شده‌است. فرانسیس آنسکوم این داده‌ها را در سال ۱۹۷۳ ساخت تا هم اهمیت رسم نمودار داده‌ها و هم تأثیر داده‌های پرت را بر مدل نهائی نشان داد. وی هدف از انتشار مقاله را مقابله با این تصور که «محاسبات عددی دقیق هستند، اما نمودارها تقریبی هستند» توصیف می‌کند.^[۱]

داده‌ها

برای هر چهار مجموعه، آمارها و ویژگی‌های جدول پایین یکسان است:

آمار	ارزش	دقت
میانگین $x$	$9$	دقیق
واریانس $x$	$11$	دقیق
میانگین $y$	$7.50$	۲ رقم اعشار
واریانس $y$	$4.125$	۳ ۰٫۰۰۳
همبستگی $x$ و $y$	$0.816$	۳ رقم اعشار
رگرسیون خطی	$y = 3.00 + 0.500 \times x$	به ترتیب به ۲ و ۳ رقم اعشار
ضریب تعیین رگرسیون خطی	$0.67$	۲ رقم اعشار

در اولین نمودار (بالا سمت چپ) به نظر می‌رسد یک رابطه خطی ساده مربوط به دو متغیر همبسته باشد. در این نمودار $y$ از یک توزیع طبیعی پیروی می‌کند که میانگین آن وابستگی خطی به $x$ دارد.
در نمودار دوم (بالا سمت راست) $y$ از یک توزیع طبیعی پیروی نمی‌کند و رابطه بین دو متغیر خطی نیست. ضریب همبستگی پیرسون اهمیتی ندارد و ضریب تعیین مناسب‌تر به نظر می‌رسد بود.
در نمودار سوم (پایین سمت چپ)، رابطه بین دو متغیر خطی است، اما رگرسیون خطی محاسبه شده به علت وجود یک داده پرت باثبات نیست. داده پرت ضریب $x$ را از ۱ به ۰٫۸۱۶ تغییر داده‌است.
نمودار چهارم (سمت راست پایین) مثالی را نشان می‌دهد که یک داده پرت برای تولید ضریب همبستگی بالا کفایت می‌کند، حتی اگر سایر داده‌ها هیچ ارتباطی بین متغیر مستقل و وابسته نشان ندهند.

این داده چهارتایی هنوز هم اغلب برای نشان دادن اهمیت مصورسازی داده قبل از شروع به تجزیه و تحلیل و عدم کفایت آمارهای توصیفی برای توصیف مجموعه داده‌ها مورد استفاده قرار می‌گیرد.^[۲]^[۳]^[۴]^[۵]^[۶]

مجموعه داده‌ها به شرح زیر است. مقادیر $x$ برای سه مجموعه داده اول یکسان است.^[۷]

چهارتایی آنسکوم
اول		دوم		سوم		چهارم
$x$	$y$	$x$	$y$	$x$	$y$	$x$	$y$
۱۰٫۰	۸٫۰۴	۱۰٫۰	۹٫۱۴	۱۰٫۰	۷٫۴۶	۸٫۰	۶٫۵۸
۸٫۰	۶٫۹۵	۸٫۰	۸٫۱۴	۸٫۰	۶٫۷۷	۸٫۰	۵٫۷۶
۱۳٫۰	۷٫۵۸	۱۳٫۰	۸٫۷۴	۱۳٫۰	۱۲٫۷۴	۸٫۰	۷٫۷۱
۹٫۰	۸٫۸۱	۹٫۰	۸٫۷۷	۹٫۰	۷٫۱۱	۸٫۰	۸٫۸۴
۱۱٫۰	۸٫۳۳	۱۱٫۰	۹٫۲۶	۱۱٫۰	۷٫۸۱	۸٫۰	۸٫۴۷
۱۴٫۰	۹٫۹۶	۱۴٫۰	۸٫۱۰	۱۴٫۰	۸٫۸۴	۸٫۰	۷٫۰۴
۶٫۰	۷٫۲۴	۶٫۰	۶٫۱۳	۶٫۰	۶٫۰۸	۸٫۰	۵٫۲۵
۴٫۰	۴٫۲۶	۴٫۰	۳٫۱۰	۴٫۰	۵٫۳۹	۱۹٫۰	۱۲٫۵۰
۱۲٫۰	۱۰٫۸۴	۱۲٫۰	۹٫۱۳	۱۲٫۰	۸٫۱۵	۸٫۰	۵٫۵۶
۷٫۰	۴٫۸۲	۷٫۰	۷٫۲۶	۷٫۰	۶٫۴۲	۸٫۰	۷٫۹۱
۵٫۰	۵٫۶۸	۵٫۰	۴٫۷۴	۵٫۰	۵٫۷۳	۸٫۰	۶٫۸۹

مشخص نیست که چگونه آنسکوم مجموعه داده‌های خود را ایجاد کرد.^[۸] از زمان انتشار آن، روشهای مختلفی برای تولید مجموعه داده‌های مشابه با آمارهای یکسان و نمودارهای متفاوت ایجاد شده‌است.^[۹]

منابع

الگو:پانویس

[Anscombe2-1] الگو:Cite journal

[2] الگو:Cite web

[3] الگو:Cite book

[4] الگو:Cite book

[5] الگو:Cite book

[6] الگو:Cite book

[Anscombe-7] الگو:Cite journal

[ChatterjeeFirat-8] الگو:Cite journal

[9] الگو:Cite journal

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

چهارتایی آنسکوم

داده‌ها

منابع

منوی ناوبری

جستجو