خودبازی (هوش مصنوعی)
خودبازی روشی است برای بهبود عملکرد عاملهای یادگیری تقویتی. بهطور شهودی، عوامل یادمیگیرند که با بازی کردن «در مقابل خودشان»، عملکرد خود را بهبود بخشند.
تعریف و انگیزه
در آزمایشهای یادگیری تقویتی چند عاملی، محققان تلاش میکنند تا عملکرد یک عامل یادگیری را در یک کار معین، با همکاری یا رقابت در کنار یک یا چند عامل دیگر، بهینه کنند. این عوامل با آزمون و خطا آموزش میبینند و بهتر میشوند و یادمیگیرند. محققان آزدای انتخاب دارند و میتوانند تصمیم بگیرند که الگوریتم یادگیری نقش دو یا چند عامل مختلف را ایفا کند. وقتی این تکنیک با موفقیت اجرا شود، یک مزیت مضاعف دارد:
- منجر به یک چالش معنادار میشود، زیرا که برای تعیین اقدامات سایر عوامل یک راه ساده و دستیافتنی.
- میزان تجربه ای را که میتوان برای بهبود خطمشی استفاده کرد به میزان دو تا چند برابر افزایش میدهد، زیرا از دیدگاه همه عوامل بازی میتوان برای یادگیری استفاده کرد.
مقاله Czarnecki و همکاران[۱] بر این باور است که بیشتر بازیهایی که مردم برای سرگرمی انجام میدهند «بازیهای مهارت» هستند. بدین معنی که در «بازیهای مهارت» فضای همه استراتژیهای ممکن در آنها شبیه یک فرفره است.
جزئیات علمی مقاله این مسئله به صورت تحلیلی زیر خلاصه میشود:
- میتوانیم فضای استراتژیها را به مجموعهها تقسیم کنیم
- به طوری که
- و استراتژی استراتژی را شکست میدهد
- در نتیجه، در خودبازی مبتنی بر جمعیت، اگر جمعیت بیشتر از باشد، آنگاه الگوریتم به بهترین استراتژی ممکن همگرا میشود.
کاربرد
برنامه آلفا زیرو برای بهبود عملکرد خود در بازیهای شطرنج، شوگی و گو از خودبازی استفاده میکند.[۲]
خودبازی، برای آموزش سیستم هوش مصنوعی Cicero نیز استفاده میشود تا در بازی الگو:پم از انسانها پیشی بگیرد. این تکنیک در آموزش سیستم DeepNash نیز با هدف بازی در فتح پرچم استفاده میشود.[۳][۴]
ارتباط با سایر رشتهها
عموماً خودبازی را با مفهوم معرفتشناختی لوح سفید مقایسه میکنند. این مفهوم، روشی را توصیف میکند که انسانها دانش را از یک «لوح خالی» کسب میکنند.[۵]