مطلوبیت دسته

از testwiki
پرش به ناوبری پرش به جستجو

مطلوبیت دسته معیاری از "خوبی دسته" است که در الگو:Harvard citation text و الگو:Harvard citation text تعریف شده است. مطلوبیت دسته سعی می‌کند احتمال اینکه دو شی در یک دسته دارای مقادیر مشخصه مشترک هستند و همینطور احتمال اینکه اشیاء از دسته‌های مختلف دارای مقادیر مشخصه متفاوت هستند را به حداکثر برساند. این در نظر گرفته شده بود تا معیارهای محدودتری از خوبی دسته را جایگزین کند، مانند "اعتبار علامت " ( الگو:Harvard citation no brackets ; الگو:Harvard citation no brackets ) و "شاخص تطبیق" الگو:Harvard citation . این یک معیار اصولی نظریه اطلاعات از مزیت پیشگویانه به‌دست‌آمده توسط ناظری که از ساختار طبقه‌بندی داده شده (یعنی برچسب‌های کلاس از نمونه‌ها) نسبت به ناظری که دانشی از ساختار طبقه‌بندی ندارد به دست می‌آورد. از این نظر، انگیزه برای معیار مطلوبیت دسته مشابه معیار به دست آوردن اطلاعات مورد استفاده در یادگیری درخت تصمیم گیری است . در برخی ارائه ها، رسما معادل اطلاعات متقابل است، همانطور که در زیر مورد بحث قرار می گیرد. مروری بر مطلوبیت دسته در تجسم احتمالی آن، با کاربردهایی در یادگیری ماشین ، در الگو:Harvard citation text .

تعریف نظری-احتمال مطلوبیت دسته

تعریف نظری-احتمال مطلوبیت دسته در الگو:Harvard citation text و الگو:Harvard citation text به شرح زیر است:

CU(C,F)=1pcjCp(cj)[fiFk=1mp(fik|cj)2fiFk=1mp(fik)2]

جایی که F={fi}, i=1n یک اندازه است -n  مجموعه از m  ویژگی های آری و C={cj} j=1p مجموعه از p  دسته بندی. عبارت p(fik)  احتمال حاشیه‌ای را مشخص می کند که ویژگی fi  مقدار k  را می گیرد، و عبارتp(fik|cj)  دسته احتمال مشروطرا مشخص می کند که ویژگی fi  مقدارk  را می گیرد با توجه به اینکه شی مورد نظر به دستهcj  تعلق دارد.

انگیزه و توسعه این عبارت برای مطلوبیت دسته و نقش چندگانه 1p به عنوان یک کنترل بیش از حد خام، در منابع بالا آورده شده است. بی قید و شرط الگو:Harvard citation ، عبارت p(cj)fiFk=1mp(fik|cj)2 تعداد مورد انتظار از مقادیر مشخصه است که می تواند توسط ناظر با استفاده از استراتژی تطبیق احتمال به همراه دانش برچسب های دسته به درستی حدس بزند، در حالی که p(cj)fiFk=1mp(fik)2 تعداد مورد انتظار مقادیر مشخصه است که می تواند توسط ناظر همان استراتژی را به درستی حدس بزند، اما بدون آگاهی از برچسب های دسته. بنابراین تفاوت آنها نشان دهنده مزیت نسبی است که ناظر با داشتن دانش از ساختار دسته بندی به دست می آورد.

تعریف نظری اطلاعات از مطلوبیت دسته

تعریف نظری اطلاعات از مطلوبیت دسته برای مجموعه ای از موجودیت ها با اندازه-n  مجموعه ویژگی های دودویی F={fi}, i=1n و یک دسته دودویی C={c,c¯} در الگو:Harvard citation text به شرح زیر آمده است:

CU(C,F)=[p(c)i=1np(fi|c)logp(fi|c)+p(c¯)i=1np(fi|c¯)logp(fi|c¯)]i=1np(fi)logp(fi)

جایی که p(c)  احتمال پیشین یک موجودیت متعلق به دسته مثبتc  است (در صورت عدم وجود هرگونه اطلاعات از ویژگی)،p(fi|c)  احتمال مشروط یک موجودیت دارای ویژگیfi  است با توجه به اینکه این موجودیت به دستهc  تعلق دارد ، به همین ترتیب p(fi|c¯) احتمال مشروط یک موجودیت دارای ویژگیfi  است با توجه به اینکه این موجودیت به دسته c¯ تعلق دارد ، و p(fi)  احتمال پیشین یک موجودیت دارای ویژگیfi  است (در صورت عدم وجود هرگونه اطلاعات از دسته بندی).

بینش پشت عبارت فوق به شرح زیر است: عبارت p(c)i=1np(fi|c)logp(fi|c) هزینه (بر حسب بیت) رمزگذاری (یا انتقال) بهینه ویژگی اطلاعات را هنگامی نشان می دهد که مشخص شود اشیایی که باید توصیف شوند به دستهc  تعلق دارند.به طور مشابه، عبارت p(c¯)i=1np(fi|c¯)logp(fi|c¯) هزینه (بر حسب بیت) رمزگذاری (یا انتقال) بهینه ویژگی اطلاعات را هنگامی نشان می دهد که مشخص شود اشیایی که باید توصیف شوند به دسته c¯ تعلق دارند. بنابراین مجموع این دو عبارت در پرانتز میانگین وزنی این دو هزینه است. عبارت نهایی، i=1np(fi)logp(fi) ، هزینه (بر حسب بیت) رمزگذاری (یا انتقال) بهینه ویژگی اطلاعات را هنگامی که اطلاعات هیچ دسته ای در دسترس نیست نشان می دهد. مقدار مطلوبیت دسته، در فرمول بالا، منفی خواهد بود (؟؟؟ ).

همچنین ببینید

منابع

 الگو:Refbegin

الگو:Refend