فرایندهای تصمیمگیری مارکوف
فرایندهای تصمیمگیری مارکوف الگو:به انگلیسی (به اختصار: MDPs) یک چارچوب ریاضی است برای مدلسازی تصمیمگیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیمگیر است. MDPs برای مطالعه طیف گستردهای از مسائل بهینه سازی که از طریق برنامهنویسی پویا و یادگیری تقویتی حل میشوند مفید است. حداقل از اوایل ۱۹۵۰ میلادی MDPs شناخته شدهاست (cf. الگو:Harvard citation no brackets). هسته اصلی پژوهش در فرایندهای تصمیمگیری مارکوف حاصل کتاب رونالد هوارد است که در سال ۱۹۶۰ تحت عنوان «برنامهنویسی پویا و فرایندهای مارکف» منتشر شد.الگو:Sfn فرایندهای تصمیمگیری مارکوف در طیف گستردهای از رشتهها از جمله رباتیک، اقتصاد و تولید استفاده میشود.
بهطور دقیق تر، فرایندهای تصمیمگیری مارکوف، فرایندهای کنترل تصادفی زمان گسسته است. در هر گام، فرایند در حالت است و تصمیمگیر اقدام (عمل) را انتخاب میکند. پاسخ فرایند، رفتن به حالت جدید (در گام بعدی) بهطور تصادفی و همچنین دادن پاداش R_a(s,s') به تصمیمگیر است .
تعریف

فرایندهای تصمیمگیری مارکوف شامل پنج عنصر است که در ادامه شرح داده میشود
- مجموعه متناهی (شمارش پذیر) حالتها است.
- مجموعه متناهی عملها است. بهطور جایگزین مجموعه متناهی از عملها است که در حالت قرار دارند.
- احتمال این که اقدام در حالت و در زمان منجر به حالت در زمان شود.
- پاداش فوری (یا انتظار پاداش فوری) است که به علت رفتن از حالت به حالت رخ می دهد.
- ضریب کاهش است که نشان دهنده تفاوت ارزش پاداش آتی با پاداش فعلی است.
مسئله
مسئله اصلی در فرایندهای تصمیمگیری مارکوف پیدا کردن یک «سیاست» برای تصمیمگیر است. یافتن یک تابع مشخص عمل که تصمیمگیر در هنگامی که در حالت s است انتخاب کند. توجه داشته باشید که که افزودن یک سیاست ثابت به فرایندهای تصمیمگیری مارکوف منجر به یک زنجیره مارکوف میشود.
هدف انتخاب یک سیاست است که منجر به حداکثر رساندن برخی مجموع پاداش تصادفی شود.
- (زمانی که )
که در آن ضریب کاهش بوده و است. (به عنوان مثال زمانی که ضریب کاهش r است) بهطور معمول نزدیک به ۱ است.
به دلیل خاصیت مارکوف، سیاست بهینه برای یک مسئله خاص را میتوان به عنوان یک تابع از نوشت
الگوریتم
MDPs را میتوان با برنامهریزی خطی یا برنامهنویسی پویا حل کرد.
تعمیم و گسترش
فرایندهای تصمیمگیری مارکوف یک بازی تصادفی با تنها یک بازیکن است.
مشاهده پذیری جزئی
در راه حل بالا فرض میشود که وقتی عمل انتخاب میشود که حالت شناخته شده باشد؛ در غیر این صورت را نمیتوان حساب کرد. زمانی که این فرض درست نیست مسئله فرایندهای تصمیمگیری مارکوف با مشاهده پذیری جزئی یا POMDP نامیده میشود.
یادگیری تقویتی
اگر احتمالات یا پاداش مشخص نباشد مسئله به عنوان یادگیری تقویتی شناخته میشود الگو:Harvard citation.
یادگیری اتوماتا
یکی دیگر از کاربردهای MDP یادگیری ماشین با نام یادگیری اوتوماتا شناخته میشود. این هم یک نوع از یادگیری تقویتی است البته در صورتی که محیط به شیوه تصادفی باشد. الگو:Sfn
تفسیر نظریه ردهها
غیر از پاداش، فرایندهای تصمیمگیری مارکوف را میتوان به عنوان نظریه ردهها درک کرد.
در این روش پردازشهای تصمیمگیری مارکوف میتواند تعمیم از monoids (دستهها با یک شی) را به دلخواه دستهبندی کنید. یکی میتوانید تماس بگیرید و نتیجه یک متن وابسته به پردازشهای تصمیمگیری مارکوف روندچرا که در حال حرکت از یک شیء به دیگری در تغییرات در این مجموعه موجود اقدامات و مجموعهای از امکان متحده است.
فرایندهای تصمیمگیری مارکوف فازی (FDMPs)
در فرایندهای تصمیمگیری مارکوف سیاست بهینه سیاستی است که مجموع پاداشهای آتی را به حداکثرمیرساند؛ بنابراین سیاست بهینه شامل چندین عمل است که متعلق به مجموعه متناهی از اعمال است. در فرایندهای تصمیمگیری مارکوف فازی (FDMPs) ابتدا تابع ارزش با فرض غیر فازی بودن محاسبه میشود؛ سپس توسط یک سیستم استنتاج فازی سیاست مطلوب استخراج میشود. به عبارت دیگر تابع ارزش تابع به عنوان یک ورودی برای سیستم استنتاج فازی استفاده شدهاست و سیاست مطلوب، خروجی سیستم استنتاج فازی است.[۱]