فرایندهای تصمیم‌گیری مارکوف

فرایندهای تصمیم‌گیری مارکوف الگو:به انگلیسی (به اختصار: MDPs) یک چارچوب ریاضی است برای مدل‌سازی تصمیم‌گیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیم‌گیر است. MDPs برای مطالعه طیف گسترده‌ای از مسائل بهینه سازی که از طریق برنامه‌نویسی پویا و یادگیری تقویتی حل می‌شوند مفید است. حداقل از اوایل ۱۹۵۰ میلادی MDPs شناخته شده‌است (cf. الگو:Harvard citation no brackets). هسته اصلی پژوهش در فرایندهای تصمیم‌گیری مارکوف حاصل کتاب رونالد هوارد است که در سال ۱۹۶۰ تحت عنوان «برنامه‌نویسی پویا و فرایندهای مارکف» منتشر شد.الگو:Sfn فرایندهای تصمیم‌گیری مارکوف در طیف گسترده‌ای از رشته‌ها از جمله رباتیک، اقتصاد و تولید استفاده می‌شود.

به‌طور دقیق تر، فرایندهای تصمیم‌گیری مارکوف، فرایندهای کنترل تصادفی زمان گسسته است. در هر گام، فرایند در حالت $s$ است و تصمیم‌گیر اقدام (عمل) $a$ را انتخاب می‌کند. پاسخ فرایند، رفتن به حالت جدید $s$ (در گام بعدی) به‌طور تصادفی و همچنین دادن پاداش R_a(s,s') به تصمیم‌گیر است $R_{a} (s, s^{'})$ .

تعریف

فرایندهای تصمیم‌گیری مارکوف شامل پنج عنصر $(S, A, P_{\cdot} (\cdot, \cdot), R_{\cdot} (\cdot, \cdot), γ)$ است که در ادامه شرح داده می‌شود

$S$ مجموعه متناهی (شمارش پذیر) حالت‌ها است.
$A$ مجموعه متناهی عمل‌ها است. به‌طور جایگزین $A_{s}$ مجموعه متناهی از عمل‌ها است که در حالت $s$ قرار دارند.
$P_{a} (s, s^{'}) = \Pr (s_{t + 1} = s^{'} ∣ s_{t} = s, a_{t} = a)$ احتمال این که اقدام $a$ در حالت $s$ و در زمان $t$ منجر به حالت $s^{'}$ در زمان $t + 1$ شود.
$R_{a} (s, s^{'})$ پاداش فوری (یا انتظار پاداش فوری) است که به علت رفتن از حالت $s^{'}$ به حالت $s$ رخ می دهد.
$γ \in [0, 1]$ ضریب کاهش است که نشان دهنده تفاوت ارزش پاداش آتی با پاداش فعلی است.

مسئله

مسئله اصلی در فرایندهای تصمیم‌گیری مارکوف پیدا کردن یک «سیاست» برای تصمیم‌گیر است. یافتن یک تابع مشخص عمل $π$ که تصمیم‌گیر در هنگامی که در حالت s است انتخاب کند. توجه داشته باشید که که افزودن یک سیاست ثابت به فرایندهای تصمیم‌گیری مارکوف منجر به یک زنجیره مارکوف می‌شود.

هدف انتخاب یک سیاست $π$ است که منجر به حداکثر رساندن برخی مجموع پاداش تصادفی شود.

\sum_{t = 0}^{\infty} γ^{t} R_{a_{t}} (s_{t}, s_{t + 1})

(زمانی که

a_{t} = π (s_{t})

)

که در آن $γ$ ضریب کاهش بوده و $0 \leq γ < 1$ است. (به عنوان مثال $γ = 1 / (1 + r)$ زمانی که ضریب کاهش r است) $γ$ به‌طور معمول نزدیک به ۱ است.

به دلیل خاصیت مارکوف، سیاست بهینه برای یک مسئله خاص را می‌توان به عنوان یک تابع از $s$ نوشت

الگوریتم

MDPs را می‌توان با برنامه‌ریزی خطی یا برنامه‌نویسی پویا حل کرد.

تعمیم و گسترش

فرایندهای تصمیم‌گیری مارکوف یک بازی تصادفی با تنها یک بازیکن است.

مشاهده پذیری جزئی

در راه حل بالا فرض می‌شود که وقتی عمل انتخاب می‌شود که حالت $s$ شناخته شده باشد؛ در غیر این صورت $π (s)$ را نمی‌توان حساب کرد. زمانی که این فرض درست نیست مسئله فرایندهای تصمیم‌گیری مارکوف با مشاهده پذیری جزئی یا POMDP نامیده می‌شود.

یادگیری تقویتی

اگر احتمالات یا پاداش مشخص نباشد مسئله به عنوان یادگیری تقویتی شناخته می‌شود الگو:Harvard citation.

یادگیری اتوماتا

یکی دیگر از کاربردهای MDP یادگیری ماشین با نام یادگیری اوتوماتا شناخته می‌شود. این هم یک نوع از یادگیری تقویتی است البته در صورتی که محیط به شیوه تصادفی باشد. الگو:Sfn

تفسیر نظریه رده‌ها

غیر از پاداش، فرایندهای تصمیم‌گیری مارکوف $(S, A, P)$ را می‌توان به عنوان نظریه رده‌ها درک کرد.

در این روش پردازش‌های تصمیم‌گیری مارکوف می‌تواند تعمیم از monoids (دسته‌ها با یک شی) را به دلخواه دسته‌بندی کنید. یکی می‌توانید تماس بگیرید و نتیجه $(𝒞, F : 𝒞 \to 𝐃 𝐢 𝐬 𝐭)$ یک متن وابسته به پردازش‌های تصمیم‌گیری مارکوف روندچرا که در حال حرکت از یک شیء به دیگری در $𝒞$ تغییرات در این مجموعه موجود اقدامات و مجموعه‌ای از امکان متحده است.