کسب اطلاعات (درخت تصمیم)

از testwiki
پرش به ناوبری پرش به جستجو

در نظریه اطلاعات و یادگیری ماشین، کسب اطلاعات الگو:به انگلیسی مترادف واگرایی کولبک-لیبلر است؛ یعنی میزان اطلاعات کسب‌شده درباره یک متغیر تصادفی یا سیگنال از مشاهده متغیر تصادفی دیگر. با این حال، در زمینه درخت‌های تصمیم‌گیری، این اصطلاح مترادف با اطلاعات متقابل است، که مقدار انتظاری شرطی واگرایی کولبک-لیبلر از توزیع احتمال تک‌متغیره از یک متغیر از توزیع شرطی این متغیر با شرط اینکه دیگری داده شود.

کسب اطلاعات یک متغیر تصادفی X که از مشاهده یک متغیر تصادفی A وقتیکه مقدار الگو:Tmath را می‌گیرد به صورت IGX,A(X,a)=DKL(PX(x|a)PX(x|I)), تعریف می‌شود، که واگرایی کولبک-لیبلر توزیع پیشین PX(x|I) از x از توزیع پسین PX|A(x|a) برای x موقعی است که a داده شود.

مقدار انتظاری کسب اطلاعات برابر اطلاعات متقابل الگو:Tmath از X و A است، یعنی کاهش انتروپی X که توسط یادگیری حالت متغیر تصادفی A به دست می‌آید.

در یادگیری ماشین، از این مفهوم برای تعریف ترتیب ترجیحی ویژگی‌ها برای بررسی سریع‌ترین روش کاهش حالت X است. چنین ترتیبی (که بستگی به بررسی ویژگی‌های قبلی در هر مرحله دارد) یک درخت تصمیم نامیده می‌شود، و در حوزه یادگیری ماشین که یادگیری درخت تصمیم نامیده می‌شود، اعمال می‌شود. معمولا ویژگی با اطلاعات متقابل بالا باید به دیگر ویژگی‌ها ترجیح داده شود.الگو:Why?

تعریف عمومی

به صورت عام، کسب اطلاعات انتظاری برابر کاهش انتروپی اطلاعات الگو:Mvar از یک حالت پیشین به یک حالت است که اطلاعاتی گرفته است، به این صورت:

IG(T,a)=H(T)H(T|a),

که در آن H(T|a) برابر انتروپی شرطی T موقعی است که مقدار ویژگی a را داشته باشیم.

این موضوع به صورت بدیهی موقعی قابل قبول است که انتروپی الگو:Mvar به صورت مقدار عدم‌قطعیت یک متغیر تصادفی T تفسیر شود: با یادگیری (یا فرض) a درباره T، عدم‌قطعیت ما درباره T کاهش می‌یابد (یعنی IG(T,a) مثبت است)، مگر آنکه T مستقل از a باشد که در این حالت، H(T,a)=H(T) است، یعنی IG(T,a)=0 است.

تعریف صوری

فرض کنید که الگو:Mvar به یک مجموعه از مثال‌های آموزشی اشاره کند، که هر کدام حالت (x,y)=(x1,x2,x3,...,xk,y) را دارد که در آن xavals(a) برابر مقدار ویژگی ath با ویژگی مثال x و الگو:Mvar برابر برچسب کلاس متناظر است. میزان کسب اطلاعات یک ویژگی الگو:Mvar به صورت انتروپی شانون H() به این صورت تعریف می‌شود. برای یک مقدار الگو:Mvar که ویژگی الگو:Mvar آن را گرفته است، فرض کنید که Sa(v)={xT|xa=v} به صورت مجموعه ورودی‌های آموزشی از الگو:Mvar که در آن ویژگی الگو:Mvar با مقدار الگو:Mvar برابر است تعریف شده باشد. آنوقت کسب اطلاعات الگو:Mvar برای ویژگی الگو:Mvar برابر تفاضل بین انتروپی شانون پیشین H(T) از مجموعه آزمایشی و انتروپی شرطی H(T|a) است.

H(T|a)=vvals(a)|Sa(v)||T|H(Sa(v)).

IG(T,a)=H(T)H(T|a)

اطلاعات متقابل برابر انتروپی کلی برای یک ویژگی است اگر برای هرکدام از مقادیر ویژگی یک طبقه‌بندی یکتا برای ویژگی نتیجه شده قابل ساخت باشد. در این حالت، انتروپی‌های نسبی که از انتروپی کلی کم می‌شود برابر 0 است. بخصوص، مقادیر vvals(a) یک افراز از داده‌های مجموعه آموزشی الگو:Mvar به زیرمجموعه‌های متقابل انحصاری و کامل شامل‌شونده است، که یک توزیع احتمالی طبقه‌ای Pa(v) را روی مقادیر vvals(a) از ویژگی الگو:Mvar القا می‌کند. این توزیع به این صورت است:Pa(v):=|Sa(v)||T|. در این نمایش، کسب اطلاعات الگو:Mvar با داشتن الگو:Mvar را می‌توان به صورت تفاضل بین انتروپی شانون غیرشرطی از الگو:Mvar و انتروپی انتظاری الگو:Mvar با این شرط که الگو:Mvar با داده شدن الگو:Mvar را بتوان به صورت تفاضل بین انتروپی شانون غیرشرطی الگو:Mvar و انتروپی انتظاری الگو:Mvar مشروط بر الگو:Mvar تعریف کرد، که در آن مقدار انتظاری نسبت به توزیع القاشده روی مقادیر الگو:Mvar به دست می‌آید.IG(T,a)=H(T)vvals(a)Pa(v)H(Sa(v))=H(T)𝔼Pa[H(Sa(v))]=H(T)H(T|a).

مزیت‌ها

کسب اطلاعات خصیصه اساسی است که با آن تصمیم گرفته می‌شود که آیا یک ویژگی باید برای شکستن یک گره استفاده شود یا نه. ویژگی که شکست بهینه دارد، یعنی، بیشترین مقدار کسب اطلاعات در یک گره از یک درخت تصمیم به عنوان ویژگی برای شکستن گره استفاده می‌شود.

مفهوم تابع کسب اطلاعات تحت الگوریتم C4.5 برای تولید درخت‌های تصمیم، و انتخاب شکست بهینه برای یک گره درخت تصمیم قرار می‌گیرد.[۱] بعضی از مزیت‌ها شامل:

  • هم با متغیر پیوسته و هم گسسته می‌تواند کار کند.
  • به دلیل عامل –[p ∗ log(p)] در تعریف انتروپی که در بالا آمد، گره‌های برگ که تعداد نمونه کمتری دارند دارای وزن کمتری خواهند بود، و علاقه به آن است که بقیه داده را به گروه‌های بزرگتر ولی همگن تقسیم کنیم. و بنابراین، مادامیکه به سمت عمق درخت فرو می‌رویم، مجموعه داده همگن‌تر می‌شود. این دیدگاه پایدارتر است و تاثیرگذارترین ویژگی‌ها را در گره‌ها انتخاب می‌کند.[۲]

عیوب و ‌راه‌حل‌ها

اگرچه کسب اطلاعات معمولا یک معیار خوب برای تصمیم‌گیری در مورد ارتباط یک ویژگی است، بی‌عیب نیست. یک مشکل قابل ذکر وقتی رخ می‌دهد که کسب اطلاعات به ویژگی‌هایی اعمال شود که می‌تواند مقادیر متمایز زیادی بپذیرند. برای مثال، فرض کنید که کسی می‌خواهد یک درخت تصمیم برای داده‌ای بسازد که توصیف کننده مشتریان یک کسب‌وکار هستند. از کسب اطلاعات اکثرا برای تصمیم‌گیری در مورد آنکه کدام ویژگی مرتبط‌ترین است استفاده می‌شود، از این‌رو از آن‌ها می‌توان در نزدیکی ریشه درخت آزمون گرفت. یکی از ویژگی‌های ورودی می‌تواند شماره عضویت مشتری باشد، اگر آن‌ها اعضای برنامه عضویت یک کسب‌وکار باشند. این ویژگی دارای اطلاعات متقابل زیادی است، زیرا این ویژگی به صورت یکتا هر مشتری را شناسایی می‌کند، اما ما نمی‌خواهیم که آن را در درخت تصمیم شامل کنیم. دلیل آن بیش‌برازش است، یعنی تصمیم‌گیری در مورد چگونگی تعامل با یک مشتری براساس شماره عضویت برای تعمیم آن به مشتریانی که قبلا ندیده‌ایم نامحتمل است. این موضوع وقتیکه نمونه‌هایی که تست می‌شوند دارای ویژگی چندگانه با مقادیر بسیار متمایزاند هم پیش می‌آید. در این حالت، این منجر به آن می‌شود که کسب اطلاعات هر کدام از این ویژگی‌ها بسیار بیشتر از ویژگی‌هایی باشد که مقادیر متمایز زیاد ندارد.

برای جلوگیری از این مشکل، آقای راس کوین‌لان پیشنهاد کرده است که در عوض ویژگی با بیشترین نسبت کسب اطلاعات از بین ویژگی‌هایی که کسب اطلاعات‌شان برابر میانگین یا بیشتر است، انتخاب شود.[۳] این موضوع درخت تصمیم را دربرابر درنظر گرفتن ویژگی‌هایی با مقادیر متمایز بسیار بزرگ متوازن می‌کند، درحالیکه مزیت غیرعادلانه به ویژگی‌هایی نمی‌دهد که مقدار اطلاعات بسیار کم دارند، زیرا مقدار اطلاعات برابر یا بالاتر از کسب اطلاعات است.[۴]

پانویس

منابع

الگو:یادکرد-ویکی