Ecuația Hamilton-Jacobi-Bellman

Ecuația Hamilton-Jacobi-Bellman este o ecuație diferențială parțială care joacă un rol central în teoria controlului optim . Soluția ecuației este funcția de valoare , care dă valoarea optimă pentru un sistem dinamic controlat cu o funcție de cost dată .

Dacă ecuațiile Hamilton-Jacobi-Bellman sunt rezolvate într-o anumită parte a spațiului, ele joacă rolul unei condiții necesare; atunci cand sunt rezolvate in intregul spatiu devin si o conditie suficienta pentru o solutie optima. Tehnica poate fi aplicată și sistemelor stocastice.

Problemele variaționale clasice (cum ar fi problema brahistocronului ) pot fi rezolvate folosind această metodă.

Ecuația este rezultatul dezvoltării teoriei programării dinamice , lansată de Richard Bellman și colegii de muncă. [unu]

Ecuația corespunzătoare a timpului discret se numește pur și simplu ecuația Bellman . Când se analizează o problemă cu timp continuu, ecuațiile rezultate pot fi considerate ca o continuare a lucrărilor anterioare în domeniul fizicii teoretice legate de ecuația Hamilton-Jacobi .

Probleme de control optim

Luați în considerare următoarea problemă de control optim pe intervalul de timp : $[0,T]$

V=\min _{u}\left\{\int _{0}^{T}C[x(t),u(t)]\,dt+D[x(T)]\dreapta \},

unde C și D sunt funcțiile de cost care determină părțile integrale și, respectiv, terminale ale funcționalei. x ( t ) este un vector care determină starea sistemului în fiecare moment de timp. Se presupune că valoarea sa inițială x (0) este cunoscută. Vectorul de control u ( t ) trebuie ales astfel încât să minimizeze valoarea lui V.

Evoluția sistemului sub acțiunea controlului u ( t ) este descrisă astfel:

{\dot {x}}(t)=F[x(t),u(t)].

PDE

Pentru un astfel de sistem dinamic simplu, ecuațiile Hamilton-Jacobi-Bellman iau următoarea formă:

{\dot {V}}(x,t)+\min _{u}\left\{\nabla V(x,t)\cdot F(x,u)+C(x,u)\ dreapta\}=0

( se înțelege prin produsul scalar) și sunt date de valoarea la momentul final T : $a\cdot b$

V(x,T)=D(x).

Necunoscuta în această ecuație este „funcția valorii” Bellman V ( x , t ), care corespunde prețului maxim care poate fi obținut prin conducerea sistemului din starea ( x , t ) într-un mod optim până la momentul T . În consecință, costul optim care ne interesează este valoarea V = V ( x (0), 0).

Derivarea ecuației

Să demonstrăm raționamentul intuitiv care duce la această ecuație. Fie o funcție de valoare, apoi luăm în considerare tranziția de la timpul t la momentul t + dt în conformitate cu principiul Bellman : $V{\big (}x(t),t{\big ))$

V{\big (}x(t),t{\big )}=\min _{u}\left\{C{\big (}x(t+dt), u(t+dt) {\big )}\,dt+V{\big (}x(t+dt),t+dt{\big )}\right\}.

Să extindem ultimul termen conform lui Taylor:

V{\big (}x(t+dt),t+dt{\big )}=V{\big (}x(t),t{\big )}+{\dot {V)} {\big (}x(t),t{\big )}\,dt+\nabla V{\big (}x(t),t{\big )}\cdot {\dot {x}}(t) \,dt+o(dt^{2}).

Rămâne să mutați V ( x , t ) la stânga, împărțiți cu dt și treceți la limită.

Note

↑ RE Bellman. Programare dinamică. Princeton, NJ, 1957.

Literatură

R. E. Bellman: Programarea dinamică și un nou formalism în calculul variațiilor. Proc. Nat. Acad. sci. 40, 1954, 231-235.
R. E. Bellman: Programare dinamică, Princeton 1957.
R. Bellman, S. Dreyfus: O aplicație de programare dinamică la determinarea traiectoriilor optime ale satelitului. J Brit. Interplanetă. soc. 17, 1959, 78-83.