بیشینه هموار
در ریاضیات تابع بیشینهٔ هموار الگو:به انگلیسی یا تابع نمایی نرمالسازیشده الگو:به انگلیسی[۱]الگو:Rp تعمیم تابع لجستیک است. تابع بیشینهٔ هموار یک بردار -تایی از اعداد حقیقی مانند را به عنوان ورودی دریافت میکند و بردار -تایی از مقادیر حقیقی را به عنوان خروجی میدهد که جمع مولفههای آن ۱ میشود. ضابطه تابع به شرح زیر است:
الگو:چپچین for j = 1, …, K. الگو:پایان چپچین
خروجی تابع بیشینههموار، در نظریه احتمالات میتواند برای نمایش یک توزیع رستهای الگو:به انگلیسی استفاده شود. توزیع رستهای، توزیع احتمالاتی بر روی نتیجه مختلف است.
تابع بیشینههموار در روشهای طبقهبندی متعددی استفاده میشود؛ مانند: رگرسیون لجستیک چندجملهای[۱]الگو:Rp الگو:به انگلیسی، آنالیز افتراقی خطی، دستهبندی کننده بیز ساده و شبکه عصبی مصنوعی.[۲] در رگرسیون لجستیک چندجملهای و آنالیز افتراقی خطی، ورودی تابع، خروجی تابع خطی است و در صورتی که بردار نمونه ورودی و بردار وزنها باشد، احتمال پیشبینی شده برای کلاس ام برابر است با:
که سطر ام بردار وزنهاست و هم برابر با مقدار ضرب داخلی بردارهای ورودی و بردار وزن است. در توصیف دیگری از عبارت بالا به جای ضرب داخلی، میتوان از عملیات ترکیب توابع استفاده کرد؛ یعنی عبارت بالا به صورت ترکیب الگو:Mvar تابع خطی و تابع بیشینههموار تلقی گردد. به عبارت دیگر عملگری که با استفاده از بردار وزن تعریف شدهاست، بر روی ورودی اعمال شده و ورودی را به برداری در فضای انتقال میدهد.[۳]

بیان ساده
در راهنمای متلب [۴] چنین آمده است: الگو:چپچین softmax(n) = exp(n)/sum(exp(n)) الگو:پایان چپچین
علت نامگذاری
از دو منظر میتوان علت این نامگذاری را بررسی کرد؛ معنی اصلی و معنی در یادگیری ماشین.
معنی اصلی
معنی دیدگاه اول این است که تابع تابعی با دامنه و برد است؛ ولی این تابع پیوسته نیست و به همین دلیل نمیتوان مشتق آن را تعریف کرد؛ بنابراین در بسیاری از کاربردها از تابع زیر:
استفاده میشود. تابع بیشینهٔ هموار، تقریب هموار و پیوستهای از تابع بیشینه الگو:به انگلیسی ارائه میکند که مشتقپذیر است.
در شکل مقابل دو تابع و در بازه مقایسه شدهاند. تابع بیشینه هموار (قرمز رنگ) تقریب مشتق پذیری از تابع بیشینه (آبی رنگ) ارائه میکند.
معنی در یادگیری ماشین
در یادگیری ماشین به منظور انجام طبقهبندی الگو:به انگلیسی از تابع بیشینهٔ هموار استفاده میشود. به طور مثال در صورتی که کلاس مختلف وجود داشته باشد و الگوریتم یادگیری ماشین به طور مستقیم احتمال حضور ورودی در هر کدام از این کلاسها را تولید نکند و به جای آن، برداری از عدد حقیقی که متناظر با امتیاز قرارگیری ورودی در هر دسته است، خروجی دهد، میتوان از تابع زیر برای تبدیل امتیازهای حقیقی به احتمال استفاده کرد؛ بدین ترتیب شرایط تعریف یک تابع جرم احتمال (قرارگیری در و جمع احتمالات برابر با ۱) رعایت خواهد شد:
الگو:چپچین الگو:پایان چپچین که در آن تا مقادیر مطلوب احتمال و تا مقادیر حقیقی امتیازهای هر کلاس هستند.
حال پس از بررسی ضابطه تابع میتوان متوجه شد که این عبارت برابر با ضابطه تابع گرادیان بیشینهٔ هموار است.[۵] الگو:چپچین الگو:پایان چپچین
مثال
اگر ورودی باشد، مقدار تابع بیشینهٔ هموار برابر با بردارِ خواهد بود. همانطور که در قسمت قبل اشاره شد، به دلیل نمایی بودن تابع بیشینهٔ هموار، مقدار خروجی متناظر با عدد بیشینه در ورودی، از خروجی بقیه اعداد به مراتب بیشتر شدهاست.
در زیر کد این تابع با ورودی مثال، به زبان R آمدهاست:
> softmax <- function(inp) {
+ s <- sum(exp(inp))
+ return(exp(inp)/s)
+ }
>
> inp <- c(5, 2, 3, 1, 2, 3)
> softmax(inp)
[1] 0.72017036 0.03585517 0.09746446 0.01319038 0.03585517 0.09746446
شبکههای عصبی مصنوعی
میتوان از تابع بیشینهٔ هموار در لایه آخر شبکههای عصبی مصنوعی استفاده کرد[۶]. چنین شبکههای عصبی معمولاً به وسیله یک تابع اختلاف آنتروپی الگو:به انگلیسی تعلیم داده میشوند و یک حالت غیرخطی از تابع رگرسیون لجستیک چندجملهای حاصل میشود.
به دلیل اینکه تابع، یک بردار و یک اندیس مشخص را به یک عدد حقیقی نگاشت میکند، این اندیس در مشتقات نیز ظاهر میشود:
در اینجا از تابع دلتا کرونکر استفاده شدهاست.
یادگیری تقویتی
در حوزه یادگیری تقویتی شبیه آنچه در قسمت نامگذاری گفته شد، از تابع بیشینهٔ هموار میتوان برای تبدیل مقادیر به احتمال کنش استفاده کرد.[۷]
ضابطه تابعی که به طور متداول استفاده میشود برابر است با:
که در این تابع مقدار کنش متناظر است با امتیاز پیشبینی شدهٔ آن عمل و از نیز به عنوان پارامتر دما یاد میشود (با اشاره به مکانیک آماری). برای دماهای بالا () تقریباً همه کنشها احتمال یکسانی دارند و هرچه دما پایینتر باشد، مقدار پیشبینی شدهٔ تأثیر جایزه بر احتمال بیشتر است. در دمای کم () احتمال مربوط به کنشی که بیشترین امتیاز نسبت به سایر کنشها را دارد، به ۱ میل میکند.
نرمالسازی بیشینهٔ هموار
نرمالسازی بیشینهٔ هموار یا نرمالسازی سیگموید، روشی برای کاهش اثر دادههای پرت بدون حذف این دادهها از مجموعه است. وجود این دادههای پرت میتواند مفید باشد در صورتی که بتوان مقدار قابل توجهی از دادهها را در شعاع یک واحد انحراف معیار از میانگین نگه داشت.
دادهها به صورت غیرخطی به وسیله یکی از توابع سیگموید انتقال داده میشوند:
تابع سیگموید لجستیک:[۸]
تابع تابع_هذلولوی، :[۸]
تابع سیگموید بازه اعداد را به محدوده صفر تا یک نگاشت میکند. این تابع در محدوده میانگین تقریباً خطی است و در دو سر طیف مقادیر آن، شیب ملایمی دارد و به این ترتیب از محدود بودن برد آن و کراندار بودن آن اطمینان حاصل میشود. همچنین این خاصیت موجب میشود بیشتر مقادیر در فاصله یک واحد انحراف معیار نسبت به میانگین قرار گیرند.
تابع تانژانت هذلولوی مقادیر ورودی را به بازی -۱ تا ۱ نگاشت میکند. این تابع در نزدیک میانگین تقریباً خطی است ولی شیبی تقریباً برابر با نصف شیب تابع سیگموید دارد. مانند تابع سیگموید، این تابع در همه نقاط برد مشتق پذیر است و جهت شیب آن توسط نرمالسازی تأثیری نمیبیند. این خاصیت به الگوریتمهای عددی و الگوریتمهای بهینهسازی اطمینان میدهد که تغییر مشتق تابع پس از نرمالسازی روند مشابهی با دادههای اولیه (پیش از نرمالسازی) دارد.
ارتباط آن با توزیع بولتسمان
احتمال یافتن یک اتم در سطح انرژی کوانتومی هنگامی که این اتم جزئی از یک گروه باشد که آن گروه به تعادل دمایی در دمای رسیدهاست، برابر با مقدار تابع بیشینهٔ هموار است که از آن به عنوان توزیع بولتسمان یاد میشود. مقدار متوسط اشتغال شدن هر سطح برابر با است و این مقدار نرمالسازی شده تا جمع انرژی ۱ شود. در چنین محیطی، ورودی تابع بیشینهٔ هموار مقدارِ منفیِ انرژی هر سطح کوانتومی تقسیم بر است.
منابع
الگو:پانویس الگو:چپچین الگو:پایان چپچین
- ↑ ۱٫۰ ۱٫۱ الگو:Cite book
- ↑ ai-faq What is a softmax activation function?
- ↑ الگو:Cite web
- ↑ https://au.mathworks.com/help/deeplearning/ref/softmax.html
- ↑ الگو:Cite web
- ↑ الگو:Cite book
- ↑ Sutton, R. S. and Barto A. G. Reinforcement Learning: An Introduction. The MIT Press, Cambridge, MA, 1998.Softmax Action Selection الگو:Webarchive
- ↑ ۸٫۰ ۸٫۱ الگو:Cite book