آمار بعدبالا

از testwiki
نسخهٔ تاریخ ۱۸ ژانویهٔ ۲۰۲۲، ساعت ۰۶:۳۸ توسط imported>Mosayeb.zarrin (growthexperiments-addlink-summary-summary:4|0|0)
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو

در نظریه آماری، شاخهٔ آمار بُعدبالا، داده‌هایی را مطالعه می‌کند که بُعد آن‌ها از بُعدهای مطرح شده در تحلیل چندمتغیرهٔ کلاسیک بزرگ‌تر باشد. آمار بُعدبالا متکی بر نظریهٔ بردارهای تصادفی است. در بسیاری کاربردها، بُعد بردارهای داده ممکن است بزرگتر از حجم نمونهٔ آن‌ها باشد.[۱]

تاریخچه

به‌طور سنتی، آمار استنباطی یک مدل احتمال برای یک جمعیت را در نظر می‌گیرد و داده‌هایی را که به عنوان نمونه از یک جمعیت گرفته می‌شوند را در نظر می‌گیرد. برای بسیاری از مسائل، برآوردهای مشخه‌های جامعه (پارامترها) می‌تواند با افزایش حجم نمونه به سمت بی‌نهایت بهبود یابد (به‌طور نظری). نیازمندهای سنتی سازگاری است، که به همگرایی برآوردگر به مقدار واقعی پارامتر گفته می‌شود.

در سال ۱۹۶۸، آندری کولوموگروف شرایط دیگری را از مسائل آماری و شرایط دیگری برای مسائل مجانبی، که در آن‌ها بُعد متغیرها (p) در راستای اندازهٔ نمونه (n) افزایش می‌یابد و بنابراین p/n به مقداری ثابت میل می‌کند، مطرح کرد. این شرایط «مسائل مجانبی افزایش بُعد» یا «مسائل مجانبی کولوموگروف»[۲] نامیده شد. رویکرد کولوموگروف ایزوله‌کردن بسیاری از عبارت‌های احتمال خطا و اندازه‌های استانداردِ کیفیت برآوردگرها (توابع کیفیت) را برای شرایط «p بزرگ و n کوچک» ممکن ساخت. اخیراً، محققان به ابعاد حتی بزرگ‌تر از قبل علاقه‌مند شده‌اند، برای نمونه p=O(exp(nα))، که در آن 0<α<1 است. این موارد، از نیاز به استخراج اطلاعات معنی‌دار از نواحی مختلف بروز می‌کند. در این موارد بعضی نتایج جالب یافت شده‌اند. برای مثال آزمون تی-استیودنت، هنگامی که pexp(n1/2) ممکن است غلط باشد.[۳] برای اطلاعات بیشتر en:Šidák_correction_for_t-test را ببینید.

نظریهٔ ریاضی

بررسی‌های ریاضی گسترده‌ای انجام شده‌است که منجر به‌وجود آمدن نظریهٔ سیستماتیک برای بهبود نسخه‌های غیرقابل بهبود فرایندهای آماری چندمتغیره شدند. (مرجع[۴] را ببینید).کشف شد که که پارامتر ویژهٔ G که یک تابع از گشتاور چهارم متغیرهاست، این ویژگی را داراست که مقادیر پایین G تعدادی از پدیده‌های چندپارامتری را تولید می‌کند. برای n و p در حال افزایش، به‌طوری که p/n به یک مقدار ثابت میل کند و G0، جملات اساسی چرخش توابع ناوردا در اثبات آماری رخ می‌هد تا تنها از دو گشتاور اول متغیر مستقل باشد. تحت شرایطی که p و n به بی‌نهایت میل می‌کنند، p/ny>0 و G0، این توابع واریانس و کوواریانس محوشونده در یک مقدار ثابت را دارند که نشان‌دهندهٔ مقدار حدی میانگین و واریانس تجربی است. به‌عنوان نتیجه، برخی روابط انتگرالی پایدار بین توابع و پارامترها و توابع متغیرهای قابل مشاهده تولید شده‌اند. آن‌ها «معادلات متعارف تصادفی» یا «معادلات پراکندگی» نامیده می‌شوند.[۵] با استفاده از آن‌ها، می‌توان قسمت‌های اصولی توابع کیفی استاندارد آمار چندمتغیره منظم را به‌عنوان توابعی از متغیرهایی که تنها مشاهده شده‌اند، بیان کرد. این مسئله قابلیت انتخاب فرایندهای بهتر و پیدا کردن راه‌حل‌های به‌طور مجانبی غیرقابل بهبود را فراهم می‌سازد.

تحولات جاری

آمار بُعدبالا موضوع تمرکز بسیاری از سمینارها و همایش‌هاست.[۶][۷][۸][۹]

یادداشت

الگو:پانویس

منابع

  1. الگو:Cite journal
  2. S. A. Aivasian, V. M. Buchstaber, I. S. Yenyukov, L. D. Meshalkin. Applied Statistics. Classification and Reduction of Dimensionality. Moscow, 1989 (in Russian).
  3. الگو:Cite journal
  4. http://hd-stat.narod.ru 'HIGH-DIMENSIONAL (HD-) STATISTICS'.
  5. V.L.Girko. Canonical Stochastic Equations, vol. 1,2, Kluwer Academic Publishers, Dordrecht, 2000.
  6. Program on High-Dimensional Inference for 2006-2007. SAMSI, USA.
  7. Workshop in High-Dimensional Data Analysis, National University of Singapore. February, 2008.
  8. Workshops HD-statistics in biology, Isaac Newton Inst. for Math. Sci. , Cambridge. 31.03-27.06 2008.
  9. Young European Statistics Workshop (YES-2), Eindhoven, Netherland. June, 2008.