خودبازی (هوش مصنوعی)

از testwiki
پرش به ناوبری پرش به جستجو

الگو:یادگیری ماشین

خودبازی روشی است برای بهبود عملکرد عامل‌های یادگیری تقویتی. به‌طور شهودی، عوامل یادمی‌گیرند که با بازی کردن «در مقابل خودشان»، عملکرد خود را بهبود بخشند.

تعریف و انگیزه

در آزمایش‌های یادگیری تقویتی چند عاملی، محققان تلاش می‌کنند تا عملکرد یک عامل یادگیری را در یک کار معین، با همکاری یا رقابت در کنار یک یا چند عامل دیگر، بهینه کنند. این عوامل با آزمون و خطا آموزش می‌بینند و بهتر می‌شوند و یادمی‌گیرند. محققان آزدای انتخاب دارند و می‌توانند تصمیم بگیرند که الگوریتم یادگیری نقش دو یا چند عامل مختلف را ایفا کند. وقتی این تکنیک با موفقیت اجرا شود، یک مزیت مضاعف دارد:

  1. منجر به یک چالش معنادار می‌شود، زیرا که برای تعیین اقدامات سایر عوامل یک راه ساده و دست‌یافتنی.
  2. میزان تجربه ای را که می‌توان برای بهبود خط‌مشی استفاده کرد به میزان دو تا چند برابر افزایش می‌دهد، زیرا از دیدگاه همه عوامل بازی می‌توان برای یادگیری استفاده کرد.

مقاله Czarnecki و همکاران[۱] بر این باور است که بیشتر بازی‌هایی که مردم برای سرگرمی انجام می‌دهند «بازی‌های مهارت» هستند. بدین معنی که در «بازی‌های مهارت» فضای همه استراتژی‌های ممکن در آنها شبیه یک فرفره است.

جزئیات علمی مقاله این مسئله به صورت تحلیلی زیر خلاصه می‌شود:

  1. می‌توانیم فضای استراتژی‌ها را به مجموعه‌ها L1,L2,...,Ln تقسیم کنیم
  2. به طوری کهi<j,πiLi,πjLj
  3. و استراتژی πj استراتژی πi را شکست می‌دهد
  4. در نتیجه، در خودبازی مبتنی بر جمعیت، اگر جمعیت بیشتر از maxi|Li| باشد، آنگاه الگوریتم به بهترین استراتژی ممکن همگرا می‌شود.

کاربرد

برنامه آلفا زیرو برای بهبود عملکرد خود در بازی‌های شطرنج، شوگی و گو از خودبازی استفاده می‌کند.[۲]

خودبازی، برای آموزش سیستم هوش مصنوعی Cicero نیز استفاده می‌شود تا در بازی الگو:پم از انسان‌ها پیشی بگیرد. این تکنیک در آموزش سیستم DeepNash نیز با هدف بازی در فتح پرچم استفاده می‌شود.[۳][۴]

ارتباط با سایر رشته‌ها

عموماً خودبازی را با مفهوم معرفت‌شناختی لوح سفید مقایسه می‌کنند. این مفهوم، روشی را توصیف می‌کند که انسان‌ها دانش را از یک «لوح خالی» کسب می‌کنند.[۵]

مطلعات بیشتر

منابع

الگو:پانویس