پارادوکس سیمپسون

از testwiki
نسخهٔ تاریخ ۱۵ ژانویهٔ ۲۰۲۴، ساعت ۲۲:۵۰ توسط imported>Behshahri
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو
در این شکل درصد موفقیت L1و L2به ترتیب کمتر از B1و B2هستند اما به صورت جمع درصد موفقیت L بیشتر از Bاست.

پارادوکس سیمپسون به یک پدیده در آمار و احتمالات اشاره می‌کند که در آن هنگامی که داده‌ها به صورت دسته‌بندی شده بررسی شوند، نتایج متفاوتی نسبت به زمانی که به صورت کلی و یکجا بررسی شوند نشان می‌دهند. معمولاً یکی از دلایلی که باعث این تفاوت می‌شود نامتوازن بودن دسته‌بندی‌ها است. برای مثال هنگامی بررسی دو رخداد A و B، هنگامی که این دو رخداد به صورت دسته‌بندی‌شده بررسی می‌شوند، درصد موفقیت رخداد A در هر دسته نسبت به رخداد B بیش‌تر است اما هنگامی که داده‌های این دو رخداد به صورت یکجا بررسی می‌شوند، درصد موفقیت رخداد B نسبت به A بیش‌تر می‌شود؛ که این مخالف نتیجه به‌دست آمده در حالت قبلی است.

تاریخچه

ادوارد سیمپسون در سال ۱۹۵۱ برای اولین بار به این پدیده در یک مقاله خود اشاره کرد. البته قبل از او نیز کارل پیرسون در سال ۱۸۹۹ و اودنی یول در سال ۱۹۰۳ به مسائلی مشابه این پدیده نیز اشاره کرده بودند.[۱]

توضیح

به بیانی دیگر هنگامی که می‌خواهیم احتمال رویداد X را تحت شرایط Aو B در دسته‌بندی‌های Fi بررسی کنیم، به ازای هر iاگر P(X|AFi)>P(X|BFi)باشد لزوماً P(A)>P(B)نیست.[۲]

مثال

درمان سنگ کلیه

این مثال یک اتفاق واقعی است که در آن در یک مرکز درمانی برای بررسی دو نوع درمان A و B برای بیماری سنگ کلیه، بیماران را به دو دسته تقسیم کرده‌اند دسته اول بیماران با سنگ کلیه کوچک و دسته دوم بیماران با سنگ کلیه بزرگ هستند که نتایج درصد موفقیت درمان‌ها در این آزمایش در جدول زیر آمده‌است.

درمان A درمان B
سنگ‌های کوچک (۸۱/۸۷) ۹۳٪ (۲۳۴/۲۷۰) ۸۷٪
سنگ‌های بزرگ (۱۹۲/۲۶۳) ۷۳٪ (۵۵/۸۰) ۶۹٪
هر دو (۲۷۳/۳۵۰) ۷۸٪ (۲۸۹/۳۵۰) ۸۳٪

که با توجه به نتایج درصد موفقیت درمان A هم برای سنگ‌های کوچک و هم برای سنگ‌های بزرگ بیش‌تر از درمان B است ولی درصد موفقیت کلی درمان B بیش‌تر از A است که این نشان دهنده یک تناقض در نتایج داده‌ها است که این اتفاق به دلیل هم‌زمانی دو واقعه زیر است:

  1. اندازه دسته‌بندی‌ها با هم تفاوت زیادی دارند به طوری که برای بیماران با سنگ کلیه کوچک بیش‌تر درمان B و برای بیماران با سنگ کلیه بزرگ بیش‌تر درمان A بررسی شده‌است.
  2. تأثیر متغیر اختلاطی بر روی درصدهای موفقیت که در این‌جا این متغیر همان اندازه سنگ‌ها است. پس نتیجه این آزمایش تحت تأثیر نوع سنگ‌ها نیز است.[۳]

جنسیت

این مثال نیز یک مثال واقعی است که در آن از دانشگاه برکلی به دلیل اختلاف درصد قبولی زنان و مردان شکایت شده. در نتایج به‌دست آمده قبولی‌ها نشان دهنده آن بود که درصد بیش‌تری از مردان نسبت به زنان قبول شده‌اند (حدود ۱۰٪ بیش‌تر).

تعداد شرکت کننده درصد قبولی
زن 4321 35٪
مرد 8442 44٪

اما هنگام بررسی این نتایج در ادارات و بخش‌های مختلف در واقع در بیش‌تر بخش‌ها درصد قبولی زنان بیش‌تر از مردان است.

بخش مرد زن
A ۸۲۵ ۶۲٪ ۱۰۸ ۸۲٪
B ۵۶۰ ۶۳٪ ۲۵ ۶۸٪
C ۳۲۵ ۳۷٪ ۵۹۳ ۳۴٪
D ۴۱۷ ۳۳٪ ۳۷۵ ۳۵٪
E ۱۹۲ ۲۸٪ ۳۹۳ ۲۴٪
F ۲۷۲ ۶٪ ۳۴۱ ۷٪

این اختلاف در نتایج به دلیل این است که زنان تمایل بیش‌تری داشته‌اند که در بخش‌های درصد قبولی آن‌ها کمتر بوده شرکت کنند اما مردان بیش‌تر در بخش‌هایی که درصد قبولی آن‌ها بیشتر بوده و رقابت کم‌تر است شرکت کرده‌اند که این یکی از عواملی است که در هنگام بررسی اختلاف قبولی بررسی نشده بود.[۴]

نمایش برداری

اگر در صفحه مختصات احتمال pqرا با بردار A=(q,p)نشان دهیم آنگه مقدار این احتمال برابر با شیب بردار خواهد بود در واقع هر چه شیب بردار بیشتر باشد احتمال آن نیز بیشتر است. از طرفی چون جمع بردارها در فضای دو بعدی برابر با جمع مولفه های اول بردارها و جمع مولفه های دوم بردارها است پس جمع بردار های احتمال های p1q1و p2q2برابر با بردار(p1+p2,q1+q2)یعنی احتمال p1+p2q1+q2است.

مطابق شکل پارادوکس سیمپسون به این اشاره می کند که اگر بردار L1 شیب کمتری از بردار B1داشته باشد و بردار L2شیبش از بردار B2 کمتر باشد جمع دو بردار L1+L2می تواند شیب بیشتر نسبت به جمع دو بردار B1+B2داشته باشد.[۵]

منابع

الگو:پانویس الگو:ویکی‌انبار-رده الگو:آمار