توزیع مزدوج پیشین

از testwiki
پرش به ناوبری پرش به جستجو

الگو:آمار بیزی توزیع مزدوج پیشین (انگلیسی: Conjugate prior)

در تئوری احتمال بیزی، اگر توزیعات احتمال پسین p(θx) با توزیع احتمال پیشین p(θ) خانواده ای یکسان داشته باشد آن گاه به توزیعات پیشین و پسین توزیعات مزدوج گفته شده و توزیع پیشین را توزیع مزدوج پیشین برای تابع درست‌نمایی (likelihood) می‌نامند. به عنوان مثال، خانوادهٔ گاوسی مزدوج خودش (یا خود مزدوج) نسبت به یک تابع درست‌نمایی گاوسی است: اگر تابع درست‌نمایی گوسی باشد، انتخاب توزیع پیشین گاوسی برای میانگین تضمین می‌کند که توزیع پسین نیز گاوسی خواهد بود. این به این معناست که توزیع گاوسی، تابع مزدوج پیشین تابع درست‌نمایی گوسی است. این مفهوم و عبارت «مزدوج پیشین» توسط هاوارد رایفا و رابرت اشلایفر در کارشان روی تئوری انتخاب بیزی معرفی شدند. مفهوم مشابهی نیز به‌طور مستقل توسط جورج آلفرد بارنارد کشف شده بود.[۱]

مسئلهٔ کلی یافتن توزیع برای یک پارامتر θ به شرط یک داده یا مجموعه داده‌های x را در نظر بگیرید. از قضیه بیز می‌دانیم که توزیع پسین برابر با حاصلضرب تابع درست‌نمایی θp(xθ) و توزیع پیشین p(θ) نرمالیزه شده با (تقسیم بر) احتمال دادهٔ p(x) است:

p(θx)=p(xθ)p(θ)p(xθ)p(θ)dθ.

فرض می‌کنیم تابع درست‌نمایی ثابت است. تابع درست‌نمایی معمولاً به خوبی از بیانی از فرایند تولید داده مشخص می‌گردد. واضح است که انتخاب‌های متفاوت برای توزیع پیشین p(θ) محاسبهٔ انتگرال را سخت‌تر یا آسان‌تر می‌کند و حاصل ضرب p(xθ).p(θ) فرم جبری متفاوتی بگیرد. برای انتخاب‌های مشخصی از توزیع پیشین، توزیع پسین فرم جبری مشابه توزیع پیشین خواهد داشت (عموماً با مقادیر پارامترهای متفاوت). چنین انتخابی یک توزیع مزدوج پیشین است.

یک توزیع مزدوج پیشین یک آسودگی جبری است که توصیف بسته ای برای توزیع پسین ارائه می‌دهد. در غیر این صورت ممکن است انتگرال عددی لازم باشد. علاوه بر این، توزیعات پیشین مزدوج با بیشتر و شفاف نشان دادن اینکه چگونه یک تابع درست‌نمایی یک توزیع پیشین را به روز می‌کند درکی مستقیم ارائه می‌دهند.

تمام اعضای خانواده نمایی توزیعات پیشین مزدوج دارند.[۲]

مثال

فرم توزیع پیشین مزدوج عموماً می‌تواند با بررسی تابع چگالی احتمال یا تابع جرم احتمال آن توزیع مشخص گردد. به عنوان مثال، یک متغیر تصادفی را در نظر بگیرید که شامل تعداد موفقیت‌های s در n آزمایش برنولی با احتمال موفقیت نامعلوم q در بازهٔ [۰٬۱] است. این متغیر تصادفی با تابع جرم احتمال زیر از توزیع دوجمله ای تبعیت می‌کند:

p(s)=(ns)qs(1q)ns

توزیع مزدوج پیشین معمول توزیع بتا با پارامترهای (α, β):

p(q)=qα1(1q)β1B(α,β)

که در آن α و β برای نمایش هرگونه باور یا اطلاعات به کار می‌رود (۱ = α و ۲ = β توزیع یکنواخت را به دست می‌دهند) و B(α, β) تابع بتا است که به عنوان ثابت نرمالیزه کننده استفاده می‌شود.

در اینجا α و β ابرپارامتر خوانده می‌شوند (پارامترهای توزیع پیشین) تا از پارامترهای مدل اساسی (در اینجا q) متمایز گردند. یکی از ویژگی‌های معمول توزیعات پیشین مزدوج این است که ابعاد ابرپارامترها یک واحد بزرگتر از ابعاد پارامترهای توزیع اصلی‌اند. اگر همهٔ پارامترها مقادیر اسکالر باشند آنگاه به این معناست که یک ابرپارامتر بیشتر از پارامتر خواهیم داشت. البته این نکته دربارهٔ پارامترهای با مقادیر برداری و ماتریسی نیز صدق می‌کند. (به مقالهٔ کلی دربارهٔ خانواده نمایی رجوع کنید و توزیع ویشارت را که مزدوج پیشین ماتریس کوواریانس توزیع نرمال چند متغیره است به عنوان مثالی برای ابعاد بزرگ در نظر بگیرید)

آن گاه اگر از این متغیر تصادفی نمونه برداری کنیم و s موفقیت و p شکست به دست آوریم داریم:

P(s,fq=x)=(s+fs)xs(1x)f,P(x)=xα1(1x)β1B(α,β),P(q=xs,f)=P(s,fx)P(x)P(s,fx)P(x)dx=(s+fs)xs+α1(1x)f+β1/B(α,β)y=01((s+fs)ys+α1(1y)f+β1/B(α,β))dy=xs+α1(1x)f+β1B(s+α,f+β),

که توزیع بتای دیگری با پارامترهای (s + α, β + f) است. این توزیع پسین نیز می‌تواند به عنوان توزیع پیشین نمونه‌های بیشتر با اضافه کردن هر چه بیشتر اطلاعات توسط ابرپارامترها مورد استفاده قرار گیرد.

شبه مشاهدات

اغلب سودمند است که هایپرپارامترهای توزیع مزدوج پیشین را متناظر با انجام تعدادی شبه مشاهده با ویژگی‌هایی که توسط پارامترها مشخص می‌شود در نظر بگیریم. به عنوان مثال، مقادیر α و β برای یک توزیع بتا را می‌توان متناظر با ۱ - α موفقیت و ۱ - β شکست در نظر گرفت اگر مد توزیع پسین برای انتخاب یک تنظیمات پارامتر بهینه انتخاب شود یا α موفقیت و β شکست اگر میانگین توزیع پسین برای انتخاب یک تنظیمات پارامتر بهینه انتخاب شود. در حالت کلی، برای تقریباً تمام توزیعات مزدوج پیشین هایپر پارامترها می‌توانند بر حسب شبه مشاهدات تفسیر شوند. این عمل می‌تواند هم به فراهم آوردن درکی برای معادلات به‌روزرسانی اغلب درهم و شلوغ و هم برای انتخاب هایپرپارامترهای معقول برای یک توزیع پیشین کمک می‌کند.

تفسیرها

شباهت با توابع ویژه

توزیعات مزدوج پیشین مشابه تابع ویژه در نظریه عمل‌گرها هستند از این جهت که توزیعاتی هستند که در آن‌ها «عمل‌گر شرطی سازی»، در صورت در نظر گرفتن فرایند تغییر از توزیع پیشین به پسین به عنوان یک عمل‌گر، به روشی کاملاً قابل درک عمل می‌کند.

در هر دو توابع ویژه و توزیعات مزدوج پیشین فضایی با بعد متناهی وجود دارد که توسط عمل‌گر حفظ و نگهداری می‌شود: خروجی فرمی مشابه (فضایی مشابه) ورودی دارد. این عمل به شدت تجزیه و تحلیل را ساده می‌کند چون در غیر این صورت فضایی با بعد نامتناهی (فضای تمام توابع، فضای تمام توزیع‌ها) را در نظر می‌گیرد.

با این وجود، فرایندها تنها مشابه و نه یکسان هستند: شرطی سازی خطی نیست زیرا فضای توزیعات تحت ترکیب خطی بسته نمی‌شود بلکه تحت ترکیب محدب بسته می‌شود و توزیع پسین تنها فرمی مشابه توزیع پیشین دارد و ضریبی اسکالر از آن نیست.

همان‌طور که به راحتی می‌توان تجزیه و تحلیل کرد که چگونه ترکیبی خطی از توابع ویژه تحت استفاده از یک عمل‌گر تکامل می‌یابد (چون عمل‌گر نسبت به این توابع، قطری شده است)، به راحتی می‌توان تجزیه و تحلیل کرد که چگونه یک ترکیب محدب از توزیعات مزدوج پیشین تحت شرط سازی کامل می‌یابد؛ این عمل به وسیلهٔ یک توزیع هایپرپیشین صورت می‌گیرد و متناظر با استفاده از چگالی مخلوط توزیعات مزدوج پیشین به جای تک توزیع مزدوج پیشین است.

سیستم دینامیکی

می‌توان عمل شرطی سازی روی توزیعات مزدوج پیشین را تعریف کردن نوعی سیستم دینامیکی (زمان گسسته) در نظر گرفت: به ازای مجموعه ای داده شده‌ای از هایپرپارامترها، دادهٔ ورودی این هایپرپارامترها را به روز می‌کند. پس می‌توان تغییر در هایپرپارامترها را به نوعی «تکامل زمانی» تعبیر کرد که با «یادگیری» متناظر است. شروع در نقاط متفاوت جریان‌هایی متفاوت در طول زمان را سبب می‌گردد. این نیز مشابه سیستم دینامیکی است که با یک عمل‌گر خطی تعریف می‌شود ولی توجه کنید چون نمونه‌های متفاوت به استنتاج‌های متفاوت ختم می‌شود، این عمل به تنهایی وابسته به زمان نیست بلکه بیشتر وابسته به داده‌است. برای رویکردهای مرتبط، تخمین بیزی بازگشتی و داده گواری را ببینید.

جدول توزیعات مزدوج

فرض کنید n نشان دهندهٔ تعداد مشاهدات باشد. در تمام موارد زیر، فرض می‌شود که داده از n نقطهٔ x1,,xn (که در موارد چند متغیره بردارهای تصادفی خواهند بود) تشکیل شود.

اگر تابع شباهت متعلق به خانواده نمایی باشد آن گاه توزیع مزدوج پیشین وجود دارد که اغلب اوقات آن نیز عضو خانوادهٔ نمایی است. به خانواده نمایی: توزیعات مزدوج رجوع کنید.

توزیعات گسسته

شباهت پارامترهای مدل توزیع مزدوج پیشین هایپرپارامترهای پیشین هایپرپارامترهای پسین تفسیر هایپر پارامترها توزیع پسین پیشگویانه[note ۱]
برنولی p (احتمال) بتا α,β α+i=1nxi,β+ni=1nxi α1 موفقیت، β1 شکست p(x~=1)=αα+β
دوجمله‌ای p (احتمال) بتا α,β α+i=1nxi,β+i=1nNii=1nxi α1 موفقیت، β1 شکست BetaBin(x~|α,β)الگو:سخ(بتا-دوجمله‌ای)
دوجمله‌ای منفیالگو:سخبا تعداد شکست‌های معلوم، r p (احتمال) بتا α,β α+i=1nxi,β+rn α1 total موفقیت، β1 شکست (یعنی، β1r آزمایش، با فرض اینکه r ثابت بماند)
پواسون λ (نرخ) گاما k,θ k+i=1nxi, θnθ+1 NB(x~|k,θ)الگو:سخ(دوجمله‌ای منفی)
α,β[note ۲] α+i=1nxi, β+n α تعداد رخدادها در β بازه NB(x~|α,11+β)الگو:سخ(دوجمله‌ای منفی)
مطلق p (بردار احتمال), k (تعداد دسته‌بندی ها؛ یعنی، اندازهٔ p) دیریکله α α+(c1,,ck), که ci تعداد مشاهدات در دسته‌بندی i است. αi1 رخداد در دسته‌بندی p(x~=i)=αiiαi=αi+ciiαi+n
چندجمله‌ای p (بردار احتمال), k (تعداد دسته‌بندی های؛ یعنی، اندازهٔ p) دیریکله α α+i=1n𝐱i αi1 رخدادهای دسته‌بندی DirMult(𝐱~|α)الگو:سخ(دیریکله—چندجمله‌ای)
فوق‌هندسیالگو:سخبا اندازهٔ جمعیت کل معلوم، N M (تعداد اعضای هدف) بتا-دوجمله‌ای n=N,α,β α+i=1nxi,β+i=1nNii=1nxi α1 موفقیت، β1 شکست
هندسی p0 (احتمال) بتا α,β α+n,β+i=1nxin α1 آزمایش، β1 کل شکست‌ها

توزیعات پیوسته

شباهت پارامترهای مدل توزیع مزدوج پیشین هایپرپارامترهای پیشین هایپرپارامترهای پسین تفسیر هایپرپارامترها توزیع پسین پیشگویانه[note ۳]
نرمالالگو:سخبا واریانس معلوم σ2 μ (میانگین) نرمال μ0,σ02 11σ02+nσ2(μ0σ02+i=1nxiσ2),(1σ02+nσ2)1 میانگین از مشاهدات با دقت کل (مجموع تمام دقت‌های منفرد)1/σ02 و میانگین نمونهٔ μ0 تحمین زده شده‌است. 𝒩(x~|μ0,σ02+σ2)[۳]
نرمالالگو:سخبا دقت معلوم τ μ (mean) نرمال μ0,τ0 τ0μ0+τi=1nxiτ0+nτ,τ0+nτ میانگین از مشاهدات با دقت کل (مجموع تمام دقت‌های منفرد)τ0 و میانگین نمونهٔ μ0 تخمین زده شده‌است. 𝒩(x~|μ0,1τ0+1τ)[۳]
نرمالالگو:سخبا میانگین معلوم μ σ2 (واریانس) گامای وارونه α,β[note ۴] α+n2,β+i=1n(xiμ)22 واریانس از 2α مشاهدات با واریانس نمونهٔ β/α (یعنی جمع مجذور انحرافات 2β, که انحرافات از میانگین معلوم μ هستند) تخمین زده شده‌است. t2α(x~|μ,σ2=β/α)[۳]
نرمالالگو:سخبا میانگین معلوم μ σ2 (واریانس) کی دو وارونهٔ مقیاس شده ν,σ02 ν+n,νσ02+i=1n(xiμ)2ν+n واریانس از ν مشاهدات با واریانس نمونهٔ σ02 تخمین زده شده‌است. tν(x~|μ,σ02)[۳]
نرمالالگو:سخبا میانگین معلوم μ τ (دقت) گاما α,β[note ۲] α+n2,β+i=1n(xiμ)22 دقت از 2α مشاهدات با واریانس نمونهٔ β/α (یعنی جمع مجذور انحرافات 2β, که انحرافات از میانگین معلوم μ هستند) تخمین زده شده‌است. t2α(x~|μ,σ2=β/α)[۳]
نرمال[note ۵] μ و σ2الگو:سخبا این فرض که تعویض پذیری دارند گامای نرمال وارونه μ0,ν,α,β νμ0+nx¯ν+n,ν+n,α+n2,الگو:سخβ+12i=1n(xix¯)2+nνν+n(x¯μ0)22
  • x¯ میانگین نمونه است.
میانگین از ν مشاهدات با میانگین نمونهٔ μ0 تخمین زده شده‌است؛ واریانس از 2α مشاهدات با میانگین نمونهٔ μ0 و مجموع مجذور انحرافات 2β تخمین زده شده‌است. t2α(x~|μ,β(ν+1)να)[۳]
نرمال μ و τالگو:سخبا فرض اینکه تعویض پذیری دارند نرمال-گاما μ0,ν,α,β νμ0+nx¯ν+n,ν+n,α+n2,الگو:سخβ+12i=1n(xix¯)2+nνν+n(x¯μ0)22
  • x¯ میانگین نمونه است.
میانگین از ν مشاهدات با میانگین نمونهٔ μ0, و دقت از 2α مشاهدات با میانگین نمونهٔ μ0 و مجموع مجذور انحرافات 2β تخمین زده شده‌است. t2α(x~|μ,β(ν+1)αν)[۳]
نرمال چندمتغیره با ماتریس کوواریانس معلوم Σ μ (بردار میانگین) نرمال چند متغیره μ0,Σ0 (Σ01+nΣ1)1(Σ01μ0+nΣ1𝐱¯),الگو:سخ(Σ01+nΣ1)1
  • 𝐱¯ میانگین نمونه است.
میانگین از مشاهداتی با دقت کل (مجموع تمام دقت‌های منفرد)Σ01 و میانگین نمونهٔ μ0 تخمین زده شده‌است. 𝒩(𝐱~|μ0,Σ0+Σ)[۳]
نرمال چندمتغیره با ماتریس دقت معلوم Λ μ (بردار میانگین) نرمال چندمتغیره μ0,Λ0 (Λ0+nΛ)1(Λ0μ0+nΛ𝐱¯),(Λ0+nΛ)
  • 𝐱¯ میانگین نمونه است.
میانگین از مشاهداتی با دقت کل (مجموع تمام دقت‌های منفرد)Λ و میانگین نمونهٔ μ0 تخمین زده شده‌است. 𝒩(𝐱~|μ0,(Λ01+Λ1)1)[۳]
نرمال چندمتغیره با میانگین معلوم μ Σ (ماتریس کوواریانس) ویشارت وارون ν,Ψ n+ν,Ψ+i=1n(𝐱𝐢μ)(𝐱𝐢μ)T ماتریس کوواریانس از ν مشاهدات با مجموع حاصل‌ضرب‌های انحراف دو به دو Ψ تخمین زده شده‌است. tνp+1(𝐱~|μ,1νp+1Ψ)[۳]
نرمال چندمتغیره با میانگین معلوم μ Λ (ماتریس دقت) ویشارت ν,𝐕 n+ν,(𝐕1+i=1n(𝐱𝐢μ)(𝐱𝐢μ)T)1 ماتریس کوواریانس از ν مشاهدات با مجموع حاصل‌ضرب‌های انحراف دو به دو 𝐕1 تخمین زده شده‌است. tνp+1(𝐱~|μ,1νp+1𝐕1)[۳]
نرمال چندمتغیره μ (بردار میانگین) و Σ (ماتریس کوواریانس) وارون نرمال-ویشارت μ0,κ0,ν0,Ψ κ0μ0+n𝐱¯κ0+n,κ0+n,ν0+n,الگو:سخΨ+𝐂+κ0nκ0+n(𝐱¯μ0)(𝐱¯μ0)T
  • 𝐱¯ میانگین نمونه است.
  • 𝐂=i=1n(𝐱𝐢𝐱¯)(𝐱𝐢𝐱¯)T
میانگین از κ0 مشاهدات با میانگین نمونهٔ μ0 تخمین زده شده‌است؛ ماتریس کوواریانس از ν0 مشاهدات با میانگین نمونهٔ μ0 و با مجموع حاصل‌ضرب‌های انحراف دو به دوΨ=ν0Σ0 تخمین زده شده‌است. tν0p+1(𝐱~|μ0,κ0+1κ0(ν0p+1)Ψ)[۳]
نرمال چندمتغیره μ (بردار میانگین) and Λ (ماتریس دقت) نرمال-ویشارت μ0,κ0,ν0,𝐕 κ0μ0+n𝐱¯κ0+n,κ0+n,ν0+n,الگو:سخ(𝐕1+𝐂+κ0nκ0+n(𝐱¯μ0)(𝐱¯μ0)T)1
  • 𝐱¯ میانگین نمونه است.
  • 𝐂=i=1n(𝐱𝐢𝐱¯)(𝐱𝐢𝐱¯)T
میانگین از κ0 مشاهدات با میانگین نمونهٔ μ0 تخمین زده شده‌است؛ ماتریس کوواریانس از ν0 مشاهدات با میانگین نمونهٔ μ0 و با مجموع حاصل‌ضرب‌های انحراف دو به دو 𝐕1 تخمین زده شده‌است. tν0p+1(𝐱~|μ0,κ0+1κ0(ν0p+1)𝐕1)[۳]
یکنواخت U(0,θ) پارتو xm,k max{x1,,xn,xm},k+n k مشاهدات با مقدار بیشینهٔ xm
پارتوالگو:سخبا کمینهٔ معلوم xm k (شکل) گاما α,β α+n,β+i=1nlnxixm α مشاهدات با مجموع β مرتبه بزرگی هر مشاهده (یعنی لگاریتم نسبت هر مشاهده به کمینهٔ xm)
توزیع وایبولالگو:سخبا شکل معلوم β θ (مقیاس) توزیع گامای وارونه a,b a+n,b+i=1nxiβ a مشاهدات با مجموع b β'امین توان هر مشاهده
توزیع لگاریتمی نرمالالگو:سخبا دقت معلوم τ μ (میانگین) نرمال μ0,τ0 (τ0μ0+τi=1nlnxi)/(τ0+nτ),τ0+nτ «میانگین» از مشاهداتی با دقت کل (مجموع تمام دقت‌های منفرد)τ0 و با میانگین نمونهٔ μ0 تخمین زده شده‌است.
توزیع لگاریتمی نرمالالگو:سخبا میانگین معلوم μ τ (دقت) گاما α,β[note ۲] α+n2,β+i=1n(lnxiμ)22 دقت از 2α مشاهدات با واریانس نمونهٔ βα (یعنی مجموع مجذور انحرافات لگاریتمی 2β — یعنی انحرافات لگاریتم نقاط داده از "میانگین")
نمایی λ (نرخ) گاما α,β[note ۲] α+n,β+i=1nxi α1 مشاهدات با مجموع β[۴] Lomax(x~|β,α)الگو:سخ(توزیع لوماکس)
گاماالگو:سخبا شکل معلوم α β (نرخ) گاما α0,β0 α0+nα,β0+i=1nxi α0/α مشاهدات با مجموع β0 CG(𝐱~|α,α0,β0)=β(𝐱~|α,α0,1,β0)[note ۶]
توزیع گامای وارونهالگو:سخبا شکل معلوم α β (نرخ معکوس) گاما α0,β0 α0+nα,β0+i=1n1xi α0/α مشاهدات با مجموع β0
گاماالگو:سخبا نرخ معلوم β α (شکل) aα1βαcΓ(α)b a,b,c ai=1nxi,b+n,c+n b or c مشاهدات (b برای تخمین α, c برای تخمین β) با حاصل‌ضرب a
گاما α (شکل), β (نرخ معکوس) pα1eβqΓ(α)rβαs p,q,r,s pi=1nxi,q+i=1nxi,r+n,s+n α از r مشاهدات با حاصل‌ضرب p تخمین زده شده‌است؛ β از s مشاهدات با مجموع q تخمین زده شده‌است.

جستارهای وابسته

نکات

الگو:Reflist

منابع

الگو:پانویس

  1. Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  2. For a catalog, see الگو:Cite book
  3. ۳٫۰۰ ۳٫۰۱ ۳٫۰۲ ۳٫۰۳ ۳٫۰۴ ۳٫۰۵ ۳٫۰۶ ۳٫۰۷ ۳٫۰۸ ۳٫۰۹ ۳٫۱۰ ۳٫۱۱ ۳٫۱۲ الگو:Cite paper
  4. Statistical Machine Learning, by Han Liu and Larry Wasserman, 2014, pg. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf


خطای یادکرد: برچسب <ref> برای گروهی به نام «note» وجود دارد، اما برچسب متناظر با <references group="note"/> یافت نشد.