آدابوست

آدابوست الگو:به انگلیسی تطبیقی بوده و یک الگوریتم یادگیری ماشین است که توسط یاو فروند و رابرت شاپیر اختراع شد.^[۱] تطبیقی بودن آدابوست به این معناست که مدلها یکی پس از دیگری ساخته شده و عملکرد مدل‌های قبلی بر روند مدل‌سازی مدل‌های پس از آن تأثیر می‌گذارد.^[۲] در واقع آدابوست یک متا الگوریتم است که به منظور ارتقاء عملکرد، و رفع مشکل رده‌های نامتوازن^[۳] همراه دیگر الگوریتم‌های یادگیری استفاده می‌شود. در این الگوریتم، طبقه‌بندی هر مرحله جدید به نفع نمونه‌های غلط طبقه‌بندی شده در مراحل قبل تنظیم می‌گردد. آدابوست نسبت به داده‌های نویزی و پرت حساس است؛ ولی نسبت به مشکل بیش برازش از بیشتر الگوریتم‌های یادگیری برتری دارد. طبقه‌بندی پایه که در اینجا استفاده می‌شود فقط کافیست از طبقه‌بندی تصادفی (۵۰٪) بهتر باشد و به این ترتیب عملکرد الگوریتم در تکرارهای بیشتر بهبود می‌یابد. حتی طبقه‌بندهای با خطای بالاتر از تصادفی با گرفتن ضریب منفی عملکرد کلی را بهبود می‌بخشند.^[۱] در الگوریتم آدابوست در هر دور $t = 1, \dots, T$ یک طبقه‌بند ضعیف اضافه می‌شود. در هر فراخوانی بر اساس اهمیت نمونه‌ها، وزن‌ها $D_{t}$ بروز می‌شود. در هر دور وزن نمونه‌های غلط طبقه‌بندی شده افزایش و وزن نمونه‌های درست طبقه‌بندی شده کاهش داده می‌شود؛ بنابراین طبقه‌بند جدید تمرکز بر نمونه‌هایی که سخت‌تر یادگرفته می‌شوند، خواهند داشت.^[۱] پس به‌طور خلاصه این الگوریتم منطبق بر یادگیری گروهی می‌باشد. به بیان ساده‌تر طرز کار این الگوریتم به این صورت است که عملکرد مدلهایی که به تنهایی ضعیف عمل می‌کنند را با یکدیگر ترکیب کرده و باعث بهبود عملکرد آنها می‌شود. پس در نظرگرفتن پیش‌بینی که مجموع چند الگوریتم یادگیری ضعیف ارائه می‌دهد می‌تواند در نهایت به اندازهٔ عملکرد یک الگوریتم قوی قابل اتکا باشد.^[۲]

الگوریتم طبقه‌بندی دوگانه

داده شده‌ها:

مجموعه یادگیری: $(x_{1}, y_{1}), \dots, (x_{N}, y_{N})$ که $x_{i} \in X, y_{i} \in Y = {- 1, + 1}$
تعداد تکرارها: $T$

مقداردهی اولیه: $D_{1} (i) = \frac{1}{N}, i = 1, \dots, N .$ برای $t = 1, \dots, T$

برای خانواده طبقه‌بندهای ضعیف ℋ طبقه‌بند $h_{t}$ را پیدا کن که میزان خطا نسبت به توزیع $D_{t}$ کمینه شود، در این معادله $I$ یک تابع نشانگر است:

الگو:وسط‌چین $h_{t} = \underset{h \in ℋ}{argmin} \sum_{i = 1}^{N} D_{t} (i) I (y_{i} \neq h (x_{i}))$ الگو:پایان وسط‌چین خطای $h_{t}$ را با $ϵ_{t}$ نمایش می‌دهیم: الگو:وسط‌چین $ϵ_{t} = \sum_{i = 1}^{N} D_{t} (i) I (y_{i} \neq h_{t} (x_{i}))$ الگو:پایان وسط‌چین

اگر $| 0.5 - ϵ_{t} | \leq β$ که $β$ یک آستانه تعیین شده قبلی است، توقف انجام شود.
معمولاً مقدار $α_{t} = \frac{1}{2} ln \frac{1 - ϵ_{t}}{ϵ_{t}}$ برای $α_{t} \in ℝ$ در نظر گرفته می‌شود.
بروز رسانی:

الگو:وسط‌چین $D_{t + 1} (i) = \frac{D_{t} (i) \exp (α_{t} I (y_{i} \neq h_{t} (x_{i})))}{Z_{t}}$ الگو:پایان وسط‌چین

که

Z_{t}

یک عامل نرمال‌سازی با مقدار

\sum_{i} D_{t} (i) \exp (- α_{t} y_{i} h_{t} (x_{i}))

است که موجب می‌شود

D_{t + 1}

یک توزیع احتمالاتی مجاز را نشان دهد (مجموع روی همه

x

‌ها یک شود)

خروجی نهایی طبقه‌بند

الگو:وسط‌چین $H (x) = sign (\sum_{t = 1}^{T} α_{t} h_{t} (x))$ الگو:پایان وسط‌چین

توجه شود که معادله بروز رسانی توزیع

D_{t}

بگونه‌ای بروز می‌شود که

الگو:وسط‌چین

- α_{t} y_{i} h_{t} (x_{i}) {\begin{matrix} < 0, & y (i) = h_{t} (x_{i}) \\ > 0, & y (i) \neq h_{t} (x_{i}) \end{matrix}

الگو:پایان وسط‌چین بنابراین بعد از انتخاب بهینه طبقه‌بند $h_{t}$ برای توزیع $D_{t}$ آندسته از نمونه‌ها $x_{i}$ که طبقه‌بند $h_{t}$ آن‌ها را غلط طبقه‌بندی می‌کند وزن بیشتری نسبت به بقیه داده می‌شود؛ بنابراین وقتی الگوریتم طبقه‌بندها را براساس توزیع $D_{t + 1}$ تست می‌کند، طبقه‌بندی انتخاب می‌شود که نمونه‌های غلط طبقه‌بندی شده را بهتر تشخیص دهد.

مراحل الگوریتم آدابوست

الگوریتم آدابوست مطابق مراحل زیر به صورت مکرر کار می‌کند

در ابتدا برای این الگوریتم الزامی است یک زیرمجموعه آموزشی انتخاب شود.
با استفاده از مجموعه آموزشی که بر اساس پیش‌بینی صحیح آخرین آموزش ایجاد شده به صورت مکرر مدل یادگیری‌ماشینی آدابوست را آموزش می‌دهیم.
تمام نمونه‌های آموزشی در فرایند آموزش دارای وزنی خواهند بود که براساس خطای ناشی از مدل یادگیری‌ماشین به‌دست می‌آید. این الگوریتم وزن بالاتری را به مشاهداتی که به صورت اشتباه طبقه‌بندی شده‌اند اختصاص می‌دهد تا در تکرارهای بعدی این مشاهدات برای فرایند طبقه‌بندی احتمال بالاتری را به‌دست آورند.
در مرحله بعد طبقه‌بندهایی که آموزش دیده شده‌اند وزن‌دهی می‌شوند. هرچه طبقه‌بندی دقیق‌تر باشد وزن بالاتری خواهد داشت.
این مراحل تا زمانی تکرار می‌شوند که داده‌های آموزشی کامل و بدون هیچ خطایی توسط مدل آموزش ببیند.
برای انجام طبقه‌بندی کافی است یک رای به ازای هر الگوریتم یادگیری ساخته‌شده در نظر گرفته شود.^[۴]

ایجاد مدل در پایتون

در این مرحله مطابق کد زیر کتابخانه‌های مورد نیاز را وارد می‌کنیم.

# Load libraries
from sklearn.ensemble import AdaBoostClassifier
from sklearn import datasets
# Import train_test_split function
from sklearn.model_selection import train_test_split
# Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics

در مرحله بعد از یک مجموعه‌داده برای بررسی مدل روی آن استفاده می‌کنیم.

# Load data
iris = datasets.load_iris()
X = iris.data
y = iris.target

سپس مجموعه‌داده را به دو قسمت آموزش و تست تقسیم می‌کنیم.

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) # 70% training and 30% test

در نهایت یک مدل آدابوست روی مجموعه‌داده اجرا می‌کنیم.

# Create adaboost classifer object
abc = AdaBoostClassifier(n_estimators=۵۰,
  learning_rate=۱)
# Train Adaboost Classifer
model = abc.fit(X_train, y_train)
# Predict the response for test dataset
y_pred = model.predict(X_test)

^[۴]

اثبات و فهم ریاضی آدابوست

عمل تقویت کردن را می‌توان به صورت حداقل کردن یک تابع هزینه محدب روی یک مجموعه محدب از توابع در نظر گرفت.^[۵] به‌طور خاص تابعی که حداقل می‌شود نمایی است: الگو:وسط‌چین $E = \sum_{i = 1}^{N} exp (- y_{i} \times f_{m} (x_{i}))$ الگو:پایان وسط‌چین و ما به‌دنبال تابعی به شکل زیر هستیم:^[۶] الگو:وسط‌چین $f_{m} (x) = \frac{1}{2} \sum_{t = 1}^{m} α_{t} h_{t} (x)$ الگو:پایان وسط‌چین مجهولِ تابع هزینه $E$ ، $f_{m} (\cdot)$ است که خود به $α_{1}, \dots, α_{m}, h_{1}, \dots, α_{m}$ بستگی دارد. در نتیجه بهینه‌سازی تابع هزینه در نهایت باید نسبت به $α_{1}, \dots, α_{m}, h_{1}, \dots, h_{m}$ صورت بگیرد.

حال برای راحتتر شدن کار فرض می‌کنیم که مقادیر $α_{1}, \dots, α_{m - 1}, h_{1}, \dots, h_{m - 1}$ ثابت هستند و هدف ما پیدا کردن $α_{m}$ و $h_{m}$ است. با این اوصاف تابع $E$ را می‌توان به شکل پایین نوشت: الگو:وسط‌چین $E = \sum_{i = 1}^{N} exp (- y_{i} \times (f_{m - 1} (x_{i}) + \frac{1}{2} α_{m} h_{m} (x_{i}))) = \sum_{i = 1}^{N} exp (- y_{i} \times f_{m - 1} (x_{i})) exp (- \frac{1}{2} y_{i} \times α_{m} h_{m} (x_{i}))$ الگو:پایان وسط‌چین اگر $exp (- y_{i} \times f_{m - 1} (x_{i}))$ را با $w_{i}^{(m)}$ نمایش دهیم، تابع هزینه ما به شکل پایین تغییر شکل خواهد داد:^[۶] الگو:وسط‌چین $E = \sum_{i = 1}^{N} w_{i}^{(m)} e^{- \frac{1}{2} y_{i} \times α_{m} h_{m} (x_{i})}$ الگو:پایان وسط‌چین اگر مجموعه تمام داده‌هایی که توسط $h_{m} (\cdot)$ به درستی پیش‌بینی می‌شوند را با $T_{m}$ و مجموعه تمام داده‌هایی که توسط $h_{m} (\cdot)$ نادرست پیش‌بینی می‌شوند را با $M_{m}$ نمایش دهیم. تابع هزینه به شکل پایین تغییر خواهد کرد: الگو:وسط‌چین $\begin{matrix} E & = exp (- \frac{α_{m}}{2}) \sum_{i \in T_{m}} w_{i}^{(m)} + exp (\frac{α_{m}}{2}) \sum_{i \in M_{m}} w_{i}^{(m)} \\ = (exp (\frac{α_{m}}{2}) - exp (- \frac{α_{m}}{2})) \sum_{i = 1}^{N} w_{i}^{(m)} I (h_{m} (x_{i}) \neq y_{i}) + exp (- \frac{α_{m}}{2}) \sum_{i = 1}^{N} w_{i}^{(m)} \end{matrix}$ الگو:پایان وسط‌چین حال اگر $E$ را نسبت به $h_{m}$ بهینه کنیم، از آنجا که $exp (- \frac{α_{m}}{2}) \sum_{i = 1}^{N} w_{i}^{(m)}$ و $(exp (\frac{α_{m}}{2}) - exp (- \frac{α_{m}}{2}))$ نسبت به $h_{m}$ ثابت هستند، فقط باید $\sum_{i = 1}^{N} w_{i}^{(m)} I (h_{m} (x_{i}) \neq y_{i})$ را نسبت به $h_{m}$ کمینه کنیم؛ یعنی $h_{m} = \underset{h \in ℋ}{argmin} \sum_{i = 1}^{N} w_{i}^{(m)} I (h (x_{i}) \neq y_{i})$

بعد از پیدا کردن $h_{m}$ باید $α_{m}$ را پیدا کنیم اگر $\frac{\sum_{i = 1}^{N} w_{i}^{(m)} I (h (x_{i}) \neq y_{i})}{\sum_{i = 1}^{N} w_{i}^{(m)}}$ را $ϵ_{m}$ بنامیم تابع هزینه ما تبدیل می‌شود به $((exp (\frac{α_{m}}{2}) - exp (- \frac{α_{m}}{2})) ϵ_{m} + exp (- \frac{α_{m}}{2})) \sum_{i = 1}^{N} w_{i}^{(m)}$ که اگر از آن نسبت به $α_{m}$ مشتق بگیریم و جواب را در نقطه صفر به‌دست بیاوریم به این جواب می‌رسیم: $α_{m} = \frac{1}{2} ln \frac{1 - ϵ_{m}}{ϵ_{m}}$ .

حال که $α_{m}$ و $h_{m}$ را پیدا کردیم باید ببینیم که $w_{i}^{(m + 1)}$ به چه شکل نسبت به $w_{i}^{(m)}$ بروز می‌شود. $w_{i}^{(m + 1)}$ همان $exp (- y_{i} \times f_{m} (x_{i}))$ است یعنی الگو:وسط‌چین $\begin{matrix} w_{i}^{(m + 1)} & = exp (- y_{i} \times f_{m} (x_{i})) \\ = exp (- y_{i} \times (f_{m - 1} (x_{i}) + \frac{1}{2} α_{m} h_{m} (x_{i}))) \\ = exp (- y_{i} f_{m - 1} (x_{i})) exp (- \frac{1}{2} y_{i} α_{m} h_{m} (x_{i})) \\ = w_{i}^{(m)} exp (- \frac{1}{2} y_{i} α_{m} h_{m} (x_{i})) \end{matrix}$ الگو:پایان وسط‌چین پس ارتباط $w_{i}^{(m + 1)}$ با $w_{i}^{(m)}$ به این شکل خواهد بود:^[۶] الگو:وسط‌چین $w_{i}^{(m + 1)} = w_{i}^{(m)} exp (- \frac{1}{2} y_{i} α_{m} h_{m} (x_{i}))$ الگو:پایان وسط‌چین از آنجا که $y_{i} h_{m} (x_{i}) = 1 - 2 I (h (x_{i}) \neq y_{i})$ به‌روز کردن $w_{i}^{(m + 1)}$ به این شکل تغییر خواهد کرد: الگو:وسط‌چین $w_{i}^{(m + 1)} = w_{i}^{(m)} exp (- \frac{α_{m}}{2}) exp (α_{m} I (h_{m} (x_{i}) \neq y_{i}))$ الگو:پایان وسط‌چین اگر تمام $w_{i}^{(m + 1)}$ ‌ها را در یک مقدار ثابتی ضرب کنیم تأثیری در جواب نهایی $ϵ_{m + 1}$ و $α_{m + 1}$ و $h_{m + 1}$ نخواهد داشت. ازین رو همیشه می‌توان مقدار آن‌ها را نرمال‌سازی کرد. با نرمال‌سازی $w_{i}^{(m + 1)}$ به معادله بازگشتی پایین می‌رسیم، در این معادله $Z_{m} = \sum_{i} w_{i}^{(m)}$ : الگو:وسط‌چین $w_{i}^{(m + 1)} = \frac{w_{i}^{(m)} exp (α_{m} I (h_{m} (x_{i}) \neq y_{i}))}{Z_{m}}$ الگو:پایان وسط‌چین $w_{i}^{(m + 1)}$ همان $D_{m + 1} (i)$ است، و از آنجا که $\frac{1}{2}$ در جواب $s i g n (f_{m} (x))$ تأثیری ندارد، می‌توان آن را حذف کرد. حال اگر $m$ را همان $T$ بگیریم به الگوریتم آدابوست خواهیم رسید.^[۶]

جستارهای وابسته

منابع

الگو:پانویس

پیاده‌سازی‌ها

الگو:چپ‌چین

AdaBoost and the Super Bowl of Classifiers - A Tutorial on AdaBoost.
Adaboost in C++, an implementation of Adaboost in C++ and boost by Antonio Gulli
icsiboost, an open source implementation of Boostexter
JBoost, a site offering a classification and visualization package, implementing AdaBoost among other boosting algorithms.
MATLAB AdaBoost toolbox. Includes Real AdaBoost, Gentle AdaBoost and Modest AdaBoost implementations.
A Matlab Implementation of AdaBoost
milk الگو:Webarchive for Python implements AdaBoost.
MPBoost++, a C++ implementation of the original AdaBoost.MH algorithm and of an improved variant, the MPBoost algorithm.
NPatternRecognizer الگو:Webarchive, a fast machine learning algorithm library written in C#. It contains support vector machine, neural networks, bayes, boost, k-nearest neighbor, decision tree, … , etc.
OpenCV implementation of several boosting variants
Into contains open source implementations of many AdaBoost and FloatBoost variants in C++.

الگو:پایان چپ‌چین

پیوند به بیرون

الگو:چپ‌چین

Boosting.org, a site on boosting and related ensemble learning methods
AdaBoost Presentation summarizing Adaboost (see page 4 for an illustrated example of performance)
A Short Introduction to Boosting Introduction to Adaboost by Freund and Schapire from 1999
A decision-theoretic generalization of on-line learning and an application to boosting Journal of Computer and System Sciences, no. 55. 1997 (Original paper of Yoav Freund and Robert E.Schapire where Adaboost is first introduced.)
An applet demonstrating AdaBoost
Ensemble Based Systems in Decision Making الگو:پیوند مرده, R. Polikar, IEEE Circuits and Systems Magazine, vol.6, no.3, pp. 21–45, 2006. A tutorial article on ensemble systems including pseudocode, block diagrams and implementation issues for AdaBoost and other ensemble learning algorithms.
Additive logistic regression: a statistical view of boosting by Jerome Friedman, Trevor Hastie, Robert Tibshirani. Paper introducing probabilistic theory for AdaBoost, and introducing GentleBoost

الگو:پایان چپ‌چین

↑ ^۱٫۰ ^۱٫۱ ^۱٫۲ Yoav Freund, Robert E. Schapire. "A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting", 1995
↑ ^۲٫۰ ^۲٫۱ https://towardsdatascience.com/adaboost-in-7-simple-steps-a89dc41ec4
↑ الگو:یادکرد وب
↑ ^۴٫۰ ^۴٫۱ https://www.datacamp.com/tutorial/adaboost-classifier-python
↑ T. Zhang, "Statistical behavior and consistency of classification methods based on convex risk minimization", Annals of Statistics 32 (1), pp. 56-85, 2004.
↑ ^۶٫۰ ^۶٫۱ ^۶٫۲ ^۶٫۳ الگو:یادکرد کتاب

[:1-1] ۱٫۰ ^۱٫۱ ^۱٫۲ Yoav Freund, Robert E. Schapire. "A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting", 1995

[towardsdatascience.com-2] ۲٫۰ ^۲٫۱ https://towardsdatascience.com/adaboost-in-7-simple-steps-a89dc41ec4

[3] الگو:یادکرد وب

[datacamp.com-4] ۴٫۰ ^۴٫۱ https://www.datacamp.com/tutorial/adaboost-classifier-python

[5] T. Zhang, "Statistical behavior and consistency of classification methods based on convex risk minimization", Annals of Statistics 32 (1), pp. 56-85, 2004.

[:0-6] ۶٫۰ ^۶٫۱ ^۶٫۲ ^۶٫۳ الگو:یادکرد کتاب

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

آدابوست

فهرست

الگوریتم طبقه‌بندی دوگانه

مراحل الگوریتم آدابوست

ایجاد مدل در پایتون

اثبات و فهم ریاضی آدابوست

جستارهای وابسته

منابع

پیاده‌سازی‌ها

پیوند به بیرون

منوی ناوبری

آدابوست

الگوریتم طبقه‌بندی دوگانه

مراحل الگوریتم آدابوست

ایجاد مدل در پایتون

اثبات و فهم ریاضی آدابوست

جستارهای وابسته

منابع

پیاده‌سازی‌ها

پیوند به بیرون

منوی ناوبری

جستجو