برنامه‌نویسی پویای دیفرانسیلی

برنامه‌نویسی پویای دیفرانسیلی (DDP)، یک الگوریتم کنترلی بهینه از رده بهینه سازی مسیر است. این الگوریتم در سال (۱۹۹۶) توسط ماینی Mayne^[۱] معرفی شد و بعدها در کتاب جاکوبسون (Jacobson )و ماینی مورد تحلیل قرارگرفت^[۲]. این الگوریتم از مدل‌های با مرتبه دوی توابع هزینه و حرکت بهره می برد و همگرایی از نوع درجه دومquadratic convergence را به نمایش می گذارد. این رویکرد خیلی نزدیک به روش نیوتون(Newton) قدم به قدم که متعلق به پانتوجا(Pantoja) هست می‌باشد ^[۳]^[۴].

مسائل زمان گسسته با کران محدود

مکانیک حرکت:

 الگو:NumBlk

این فرمول تغییرات $𝐱$ را به صورت تابعی از متغیرکنترلی $𝐮$ از زمان $i$ تا $i + 1$ نشان می‌دهد. هزینه کل $J_{0}$ یعنی مجموع هزینه‌های اجرا $ℓ$ و هزینه نهایی $ℓ_{f}$ است که وقتی محقق می‌شود که با شروع از وضعیت $𝐱$ و اعمال دنباله کنترلی $𝐔 \equiv {𝐮_{0}, 𝐮_{1} \dots, 𝐮_{N - 1}}$ به کران مورد نظر برسیم:

J_{0} (𝐱, 𝐔) = \sum_{i = 0}^{N - 1} ℓ (𝐱_{i}, 𝐮_{i}) + ℓ_{f} (𝐱_{N}),

در اینجا $𝐱_{0} \equiv 𝐱$ است و $𝐱_{i}$ برای $i > 0$ از معادله الگو:EquationNote بدست می آید. راه حل مسئله کنترل بهینه، مینیمم کردن دنباله کنترلی $𝐔^{*} (𝐱) \equiv {argmin}_{𝐔} J_{0} (𝐱, 𝐔) .$ است. بهینه سازی مسیر یعنی پیدا کردن $𝐔^{*} (𝐱)$ برای یک $𝐱$ خاص به جای تمامی وضعیت‌های اولیهٔ ممکن.

برنامه نویسی پویا

فرض کنید که $𝐔_{i}$ یک دنباله کنترل جزئی $𝐔_{i} \equiv {𝐮_{i}, 𝐮_{i + 1} \dots, 𝐮_{N - 1}}$ باشد : و هزینه رفتن به $J_{i}$ به صورت مجموع جزئی هزینه هااز $i$ به $N$ تعریف شود:

J_{i} (𝐱, 𝐔_{i}) = \sum_{j = i}^{N - 1} ℓ (𝐱_{j}, 𝐮_{j}) + ℓ_{f} (𝐱_{N}) .

هزینه بهینهٔ رفتن یا تابع ارزش در زمان $i$ ، هزینه رفتنی است که دنباله کنترلی مینیمم را می‌دهد:

V (𝐱, i) \equiv \min_{𝐔_{i}} J_{i} (𝐱, 𝐔_{i}) .

با قراردادن

V (𝐱, N) \equiv ℓ_{f} (𝐱_{N})

، اصل برنامه نویسی پویاdynamic programming principle، مینیمم سازی را به جای انجام آن در کل دنباله کنترل¬ها به دنباله¬ای از مینیمم سازی ها روی تنها یک کنترل محدود می کند، که روند پیشرفت آن نسبت به زمان، روبه عقب است:

الگو:NumBlk

این معادله بلمن(Bellman) معادله بلمناست.

برنامه نویسی پویای دیفرانسیلی

DDP، از طریق انجام تکراری یک پاس روبه عقب روی مسیری جزئی انجام می‌شود تا دنباله کنترلی جدید تولید کند و سپس یک پاس رو به جلو برای محاسبه و ارزیابی یک مسیر جزئی جدید انجام می‌شود. ما با پاس رو به عقب شروع می کنیم. اگر

ℓ (𝐱, 𝐮) + V (𝐟 (𝐱, 𝐮), i + 1)

آرگومانی از عملگر $\min []$ در معادله الگو:EquationNoteباشد، $Q$ را تغییرات این کمیت درمحدوده $i$ امین جفت $(𝐱, 𝐮)$ در نظر می گیریم:

\begin{matrix} Q (δ 𝐱, δ 𝐮) \equiv & ℓ (𝐱 + δ 𝐱, 𝐮 + δ 𝐮) & + V (𝐟 (𝐱 + δ 𝐱, 𝐮 + δ 𝐮), i + 1) \\ - & ℓ (𝐱, 𝐮) & - V (𝐟 (𝐱, 𝐮), i + 1) \end{matrix}

و آن را به مرتبه 2 بسط می دهیم.

الگو:NumBlk

زیرنویس $Q$ در اینجا نوع دیگر از زیرنویسی موریموتو(Morimoto) است که زیرنویس‌ها تفاوت در چیدمان مشتق را نشان می دهند. ^[۵] با رها کردن اندیس $i$ جهت خوانایی، علامت پرایم گام زمانی بعدی را نشان می‌دهد $V^{'} \equiv V (i + 1)$ ، ضرایب بسط داده شده به صورت زیر هستند:

\begin{matrix} Q_{𝐱} & = ℓ_{𝐱} + 𝐟_{𝐱}^{𝖳} V'_{𝐱} \\ Q_{𝐮} & = ℓ_{𝐮} + 𝐟_{𝐮}^{𝖳} V'_{𝐱} \\ Q_{𝐱 𝐱} & = ℓ_{𝐱 𝐱} + 𝐟_{𝐱}^{𝖳} V'_{𝐱 𝐱} 𝐟_{𝐱} + {V_{𝐱}}^{'} \cdot 𝐟_{𝐱 𝐱} \\ Q_{𝐮 𝐮} & = ℓ_{𝐮 𝐮} + 𝐟_{𝐮}^{𝖳} V'_{𝐱 𝐱} 𝐟_{𝐮} + V'_{𝐱} \cdot 𝐟_{𝐮 𝐮} \\ Q_{𝐮 𝐱} & = ℓ_{𝐮 𝐱} + 𝐟_{𝐮}^{𝖳} V'_{𝐱 𝐱} 𝐟_{𝐱} + V'_{𝐱} \cdot 𝐟_{𝐮 𝐱} . \end{matrix}

جملات آخر در سه معادله آخر ادغانم یک بردار را با یک تانسور نشان می دهند. با کمینه کردن تخمین درجه دوم الگو:EquationNote برحسب $δ 𝐮$ داریم:

الگو:NumBlk

با دادن جمله حلقه باز $𝐤 = - Q_{𝐮 𝐮}^{- 1} Q_{𝐮}$ و جمله بازخورد $𝐊 = - Q_{𝐮 𝐮}^{- 1} Q_{𝐮 𝐱}$ و قرار دادن نتیجه در الگو:EquationNote اکنون ما مدل درجه دوم ارزش در زمان $i$ را داریم:

\begin{matrix} Δ V (i) & = & - \frac{1}{2} Q_{𝐮} Q_{𝐮 𝐮}^{- 1} Q_{𝐮} \\ V_{𝐱} (i) & = Q_{𝐱} & - Q_{𝐮} Q_{𝐮 𝐮}^{- 1} Q_{𝐮 𝐱} \\ V_{𝐱 𝐱} (i) & = Q_{𝐱 𝐱} & - Q_{𝐱 𝐮} Q_{𝐮 𝐮}^{- 1} Q_{𝐮 𝐱} . \end{matrix}

با محاسبه بازگشتی مدل‌های درجه دوم محلی از $V (i)$ و اصلاحات کنترلی ${𝐤 (i), 𝐊 (i)}$ ، از $i = N - 1$ تا $i = 1$ گذر رو به عقب را تشکیل می‌شود. همانند بالا، ارزش با $V (𝐱, N) \equiv ℓ_{f} (𝐱_{N})$ مقداردهی اولیه می‌شود. هر وقت گذر روبه عقب کامل شد، گذر روبه جلو یک مسیر جدیدی را محاسبه می نماید:

\begin{matrix} \hat{𝐱} (1) & = 𝐱 (1) \\ \hat{𝐮} (i) & = 𝐮 (i) + 𝐤 (i) + 𝐊 (i) (\hat{𝐱} (i) - 𝐱 (i)) \\ \hat{𝐱} (i + 1) & = 𝐟 (\hat{𝐱} (i), \hat{𝐮} (i)) \end{matrix}

پاس‌های روبه عقب و جلو آنقدر تکرار می‌شوند تا در نهایت همگرا شوند.

قاعده سازی و جستجوی خطی

برنامه‌نویسی پویای دیفرانسیلی الگویتم مرتبه دویی شبیه به روش نیوتون است. بنابراین این روش از گام‌های بزرگی در راستای مینیم کردن بهره می برد و اغلب نیاز به قاعده سازیregularization و/یا جستجوی خطی line-search برای رسیدن همگرایی دارد. ^[۶] .^[۷] قاعده سازی در زمینه DDP، یعنی اطمینان پیدا کردن از اینکه ماتریس $Q_{𝐮 𝐮}$ در معادله الگو:EquationNote همیشه مثبت positive definite است. جستجوی خطی در DDP یعنی تغییر مقیاس دادن کنترل حلقه باز $𝐤$ از طریق ضریب آلفا که به نحوی که $0 < α < 1$ برقرار باشد.

جستارهای وابسته

کنترل بهینهکنترل بهینه

منابع

الگو:Reflist

پیوندهای خارجی

[1] الگو:Cite journal

[2] الگو:Cite book

[3] الگو:Cite journal

[4] الگو:Cite web

[5] الگو:Cite conference

[6] الگو:Cite journal

[7] الگو:Cite thesis

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

برنامه‌نویسی پویای دیفرانسیلی

فهرست

مسائل زمان گسسته با کران محدود

برنامه نویسی پویا

برنامه نویسی پویای دیفرانسیلی

قاعده سازی و جستجوی خطی

جستارهای وابسته

منابع

پیوندهای خارجی

منوی ناوبری