Ecuația Hamilton-Jacobi-Bellman

Ecuația Hamilton-Jacobi-Bellman  este o ecuație diferențială parțială care joacă un rol central în teoria controlului optim . Soluția ecuației este funcția de valoare , care dă valoarea optimă pentru un sistem dinamic controlat cu o funcție de cost dată . 

Dacă ecuațiile Hamilton-Jacobi-Bellman sunt rezolvate într-o anumită parte a spațiului, ele joacă rolul unei condiții necesare; atunci cand sunt rezolvate in intregul spatiu devin si o conditie suficienta pentru o solutie optima. Tehnica poate fi aplicată și sistemelor stocastice.

Problemele variaționale clasice (cum ar fi problema brahistocronului ) pot fi rezolvate folosind această metodă.

Ecuația este rezultatul dezvoltării teoriei programării dinamice , lansată de Richard Bellman și colegii de muncă. [unu]

Ecuația corespunzătoare a timpului discret se numește pur și simplu ecuația Bellman . Când se analizează o problemă cu timp continuu, ecuațiile rezultate pot fi considerate ca o continuare a lucrărilor anterioare în domeniul fizicii teoretice legate de ecuația Hamilton-Jacobi .

Probleme de control optim

Luați în considerare următoarea problemă de control optim pe intervalul de timp :

unde C și D  sunt funcțiile de cost care determină părțile integrale și, respectiv, terminale ale funcționalei. x ( t ) este un vector care determină starea sistemului în fiecare moment de timp. Se presupune că valoarea sa inițială x (0) este cunoscută. Vectorul de control u ( t ) trebuie ales astfel încât să minimizeze valoarea lui V.

Evoluția sistemului sub acțiunea controlului u ( t ) este descrisă astfel:

PDE

Pentru un astfel de sistem dinamic simplu, ecuațiile Hamilton-Jacobi-Bellman iau următoarea formă:

( se înțelege prin produsul scalar) și sunt date de valoarea la momentul final T :

Necunoscuta în această ecuație este „funcția valorii” Bellman V ( x ,  t ), care corespunde prețului maxim care poate fi obținut prin conducerea sistemului din starea ( x ,  t ) într-un mod optim până la momentul T . În consecință, costul optim care ne interesează este valoarea V  =  V ( x (0), 0).

Derivarea ecuației

Să demonstrăm raționamentul intuitiv care duce la această ecuație. Fie  o funcție de valoare, apoi luăm în considerare tranziția de la timpul t la momentul t  +  dt în conformitate cu principiul Bellman :

Să extindem ultimul termen conform lui Taylor:

Rămâne să mutați V ( x ,  t ) la stânga, împărțiți cu dt și treceți la limită.

Note

  1. RE Bellman. Programare dinamică. Princeton, NJ, 1957.

Literatură