تقویت گرادیان

تقویت گرادیان یا گرادیان بوستینگ الگو:به انگلیسی یک روش یادگیری ماشین برای مسائل رگرسیون و طبقه‌بندی است. مدل تقویت گرادیان ترکیبی خطی از یک سری مدل‌های ضعیف است که به صورت تناوبی برای ایجاد یک مدل نهائیِ قوی ساخته شده‌است.^[۱]^[۲] این روش به خانواده الگوریتم‌های یادگیری گروهی تعلق دارد و عملکرد آن همواره از الگوریتم‌های اساسی یا ضعیف (مثلا درخت تصمیم) یا روش‌های براساس کیسه‌گذاری (مانند جنگل تصادفی) بهتر است. اما صحت این گزاره تا حدی از مشخصات داده‌های ورودی تأثیر می‌پذیرد.^[۳]^[۴]

مقدمه

مانند دیگر روش‌های تقویتی (بوستینگ)، تقویت گرادیان (گرادیان بوستینگ) ترکیبی خطی از یک سری از مدل‌های ضعیف برای ایجاد یک مدل قوی و کارآمد است.^[۴] ساده‌ترین مثال برای توضیح تقویت گرادیان، مثال کمترین مربعات در مسئله رگرسیون است که در آن هدف، یادگیری یک مدل به اسم $F$ برای کمینه کردن $\frac{1}{n} \sum_{i} ({\hat{y}}_{i} - y_{i})^{2}$ یا میانگین مربعات خطا است. در اینجا $\hat{y_{i}} = F (x_{i})$ ، $n$ تعداد داده‌های ماست و $(x_{i}, y_{i})$ داده $i$ ام است.^[۴]

برای پیدا کردن $F$ به صورت مرحله‌ای عمل می‌کنیم. در مرحله $m$ به مدل $F_{m}$ که تا به حال ساخته‌ایم یک مدل دیگر اضافه می‌کنیم به اسم $h$ و مدل $F_{m + 1}$ را می‌سازیم،^[۴] به عبارت دیگر $F_{m + 1} (x) = F_{m} (x) + h (x)$ . مدل $h$ را به گونه‌ای انتخاب می‌کنیم که بتواند تفاضل $y$ با پیش‌بینی مدلِ مرحله قبلی را پیش‌بینی کند یعنی $y - F_{m} (x)$ را، در اینجا پیش‌بینی مرحله قبلی $F_{m} (x)$ است. به عبارت دیگر هدف پیش‌بینی باقیمانده‌هاست، یعنی $y - F_{m} (x)$ . باقیمانده‌ها را از یک منظر دیگر نیز می‌توان دید، آن‌ها در واقع منفی گرادیان مربع خطا هستند، یعنی منفی گرادیان تابع $\frac{1}{2} {(F (x) - y)}^{2}$ .

الگوریتم

فرض کنید داده‌هایی که مدل برای یادگیری از آن‌ها استفاده می‌کند ${(x_{1}, y_{1}), \dots, (x_{n}, y_{n})}$ باشد و هدف از یادگیری، کمینه کردن یک تابع ضرر به اسم $L$ باشد؛ یعنی $\hat{F} = \underset{F}{\arg \min} 𝔼_{x, y} [L (y, F (x))]$

در مدل تقویت گرادیان این کار به صورت متناوب انجام می‌شود^[۲]^[۵] و مدل نهایی برابر خواهد بود با $\hat{F} (x) = \sum_{i = 1}^{M} γ_{i} h_{i} (x) + F_{0}$ .

در اینجا $h_{i}$ ‌ها مدل‌هایی هستند که از یک گروه از مدل‌های به اسم $ℋ$ انتخاب می‌شوند، به عنوان مثال $ℋ$ می‌تواند مجموعه درخت‌های تصمیم‌گیری با عمق ۱۰ یا کمتر باشد.^[۲]

اولین مدل یک عدد ثابت است به اسم $F_{0}$ که به صورت ذیل انتخاب می‌شود:

$F_{0} = \underset{γ}{\arg \min} \sum_{i = 1}^{n} L (y_{i}, γ)$

بقیه مدل‌ها به این صورت ساخته و فراگرفته می‌شوند:

$F_{m} (x) = F_{m - 1} (x) + \underset{h_{m} \in ℋ}{a r g m i n} [\sum_{i = 1}^{n} L (y_{i}, F_{m - 1} (x_{i}) + h_{m} (x_{i}))]$

برای انجام این مرحله از گرادیان تابع ضرر به این شکل استفاده می‌کنیم: الگو:وسط‌چین $F_{m} (x) = F_{m - 1} (x) - γ_{m} \sum_{i = 1}^{n} \nabla_{F_{m - 1}} L (y_{i}, F_{m - 1} (x_{i})),$ الگو:پایان وسط‌چین الگو:وسط‌چین $γ_{m} = \underset{γ}{\arg \min} \sum_{i = 1}^{n} L (y_{i}, F_{m - 1} (x_{i}) - γ \nabla_{F_{m - 1}} L (y_{i}, F_{m - 1} (x_{i})))$ الگو:پایان وسط‌چین به عبارت دیگر ما بدنبال مدلسازی منفی گرادیان تابع ضرر در هر مرحله هستیم یعنی یک مدل به اسم $h_{m}$ از $ℋ$ که بتواند با داده پایین تابع ضرر را کمینه کند:^[۵] الگو:وسط‌چین ${(x_{1}, - \nabla_{F_{m - 1}} L (y_{1}, F_{m - 1} (x_{1}))), \dots, (x_{n}, - \nabla_{F_{m - 1}} L (y_{n}, F_{m - 1} (x_{n})))}$ الگو:پایان وسط‌چین الگوریتم کلی را می‌توان به شکل پایین خلاصه کرد:^[۲]^[۵]

$F_{0} = \underset{γ}{\arg \min} \sum_{i = 1}^{n} L (y_{i}, γ)$
برای m از 1 تا M:
- برای i از 1 تا n:
  - $r_{i m} = - {[\frac{\partial L (y_{i}, F (x_{i}))}{\partial F (x_{i})}]}_{F (x) = F_{m - 1} (x)}$
- برای داده‌های ${(x_{i}, r_{i m})}_{i = 1}^{n}$ یک مدل به اسم $h_{m}$ از $ℋ$ انتخاب کن که تابع ضرر را به حداقل برساند، به عبارت دیگر $h_{m} = \underset{h \in ℋ}{a r g m i n} L (r_{i m}, h (x_{i}))$
- $γ_{m} = \underset{γ}{a r g m i n} \sum_{i = 1}^{n} L (y_{i}, F_{m - 1} (x_{i}) + γ h_{m} (x_{i}))$
- $F_{m} (x) = F_{m - 1} (x) + γ_{m} h_{m} (x)$
مدل نهایی $F_{M}$ است.

درختِ تقویت گرادیان

در این مدل $ℋ$ یا مجوعه مدل‌های ما درخت‌های تصمیم‌گیری هستند. در مرحله $m$ ، مدل فراگرفته شده یک درخت است به اسم $h_{m} (x)$ که توانسته منفی گرادیانها را مدلسازی کند. این درخت اگر $J_{m}$ برگ داشته باشد، فضای برداری $𝒳$ را به $J_{m}$ زیرفضای تجزیه می‌کند، این زیرفضاها با هم اشتراکی ندارند و اجتماعشان کل $𝒳$ را تشکیل می‌دهد. این زیرفضاها را $R_{1 m}, \dots, R_{J_{m} m}$ می‌نامیم. $h_{m} (x)$ برای هر کدام از این زیرفضاها یک پیش‌بینی جداگانه دارد به اسم $b_{j m}$ . $b_{j m}$ یا میانگین داده‌های خروجی، اگر مسئله رگرسیون باشد، یا مُدِ دسته (دسته‌ای که از همه بیشتر اتفاق افتاده باشد:^[۶] $h_{m} (x) = \sum_{j = 1}^{J_{m}} b_{j m} 𝟏_{R_{j m}} (x)$

$h_{m} (x)$ در ضریبی به اسم $γ_{m}$ ضرب می‌شود که تابع ضرر را کمینه کند، به عبارت دیگر $γ_{m} = \underset{γ}{a r g m i n} \sum_{i = 1}^{n} L (y_{i}, F_{m - 1} (x_{i}) + γ h_{m} (x_{i}))$ و مدل در این مرحله به این شکل به‌روز می‌شود: $F_{m} (x) = F_{m - 1} (x) + γ_{m} h_{m} (x)$

به پیشنهاد فریدمن به جای اینکه در هر مرحله یک ضریب کلی به اسم $γ_{m}$ فراگرفته شود، بهتر است $J_{m}$ ضریب به تعداد تمام زیرفضاهای ایجاد شده توسط $h_{m}$ فراگرفته شود و الگوریتم به این شکل تغییر کند):^[۵] الگو:وسط‌چین $F_{m} (x) = F_{m - 1} (x) + \sum_{j = 1}^{J_{m}} γ_{j m} 𝟏_{R_{j m}} (x), γ_{j m} = \underset{γ}{a r g m i n} \sum_{x_{i} \in R_{j m}} L (y_{i}, F_{m - 1} (x_{i}) + γ)$ الگو:پایان وسط‌چین

مشخصات درخت

اگر $J$ را اندازه تعداد برگهای درخت یا همان تعداد زیرفضاهای $𝒳$ بگیریم معمولاً $4 \leq J \leq 8$ مدل خوبی ایجاد می‌کند.^[۵]

اهمیت متغیرها

این الگوریتم می‌تواند، مانند درخت تصمیم یا جنگل تصادفی، برای رتبه‌بندی اهمیت متغیرها به کار رود. فرمول اهمیت متغیرها در الگوریتم تقویت گرادیان با همان درخت تصمیم یکی است، اما در این الگوریتم امتیاز تمام یادگیرنده‌های ضعیف (یعنی درخت‌های تصمیم) میانگین‌گیری می‌شود.^[۱]^[۴]

جستارهای وابسته

منابع

الگو:پانویس

↑ ^۱٫۰ ^۱٫۱ الگو:Cite journal
↑ ^۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ الگو:Cite paper
↑ الگو:Cite journal
↑ ^۴٫۰ ^۴٫۱ ^۴٫۲ ^۴٫۳ ^۴٫۴ الگو:یادکرد کتاب
↑ ^۵٫۰ ^۵٫۱ ^۵٫۲ ^۵٫۳ ^۵٫۴ الگو:Cite book
↑ Note: in case of usual CART trees, the trees are fitted using least-squares loss, and so the coefficient $b_{j m}$ for the region $R_{j m}$ is equal to just the value of output variable, averaged over all training instances in $R_{j m}$ .

[:12-1] ۱٫۰ ^۱٫۱ الگو:Cite journal

[Friedman1999a-2] ۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ الگو:Cite paper

[:1-3] الگو:Cite journal

[:0-4] ۴٫۰ ^۴٫۱ ^۴٫۲ ^۴٫۳ ^۴٫۴ الگو:یادکرد کتاب

[hastie3-5] ۵٫۰ ^۵٫۱ ^۵٫۲ ^۵٫۳ ^۵٫۴ الگو:Cite book

[6] Note: in case of usual CART trees, the trees are fitted using least-squares loss, and so the coefficient $b_{j m}$ for the region $R_{j m}$ is equal to just the value of output variable, averaged over all training instances in $R_{j m}$ .

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

تقویت گرادیان

فهرست

مقدمه

الگوریتم

درختِ تقویت گرادیان

مشخصات درخت

اهمیت متغیرها

جستارهای وابسته

منابع

منوی ناوبری

تقویت گرادیان

مقدمه

الگوریتم

درختِ تقویت گرادیان

مشخصات درخت

اهمیت متغیرها

جستارهای وابسته

منابع

منوی ناوبری

جستجو