Ecuația Hamilton-Jacobi-Bellman este o ecuație diferențială parțială care joacă un rol central în teoria controlului optim . Soluția ecuației este funcția de valoare , care dă valoarea optimă pentru un sistem dinamic controlat cu o funcție de cost dată .
Dacă ecuațiile Hamilton-Jacobi-Bellman sunt rezolvate într-o anumită parte a spațiului, ele joacă rolul unei condiții necesare; atunci cand sunt rezolvate in intregul spatiu devin si o conditie suficienta pentru o solutie optima. Tehnica poate fi aplicată și sistemelor stocastice.
Problemele variaționale clasice (cum ar fi problema brahistocronului ) pot fi rezolvate folosind această metodă.
Ecuația este rezultatul dezvoltării teoriei programării dinamice , lansată de Richard Bellman și colegii de muncă. [unu]
Ecuația corespunzătoare a timpului discret se numește pur și simplu ecuația Bellman . Când se analizează o problemă cu timp continuu, ecuațiile rezultate pot fi considerate ca o continuare a lucrărilor anterioare în domeniul fizicii teoretice legate de ecuația Hamilton-Jacobi .
Luați în considerare următoarea problemă de control optim pe intervalul de timp :
unde C și D sunt funcțiile de cost care determină părțile integrale și, respectiv, terminale ale funcționalei. x ( t ) este un vector care determină starea sistemului în fiecare moment de timp. Se presupune că valoarea sa inițială x (0) este cunoscută. Vectorul de control u ( t ) trebuie ales astfel încât să minimizeze valoarea lui V.
Evoluția sistemului sub acțiunea controlului u ( t ) este descrisă astfel:
Pentru un astfel de sistem dinamic simplu, ecuațiile Hamilton-Jacobi-Bellman iau următoarea formă:
( se înțelege prin produsul scalar) și sunt date de valoarea la momentul final T :
Necunoscuta în această ecuație este „funcția valorii” Bellman V ( x , t ), care corespunde prețului maxim care poate fi obținut prin conducerea sistemului din starea ( x , t ) într-un mod optim până la momentul T . În consecință, costul optim care ne interesează este valoarea V = V ( x (0), 0).
Să demonstrăm raționamentul intuitiv care duce la această ecuație. Fie o funcție de valoare, apoi luăm în considerare tranziția de la timpul t la momentul t + dt în conformitate cu principiul Bellman :
Să extindem ultimul termen conform lui Taylor:
Rămâne să mutați V ( x , t ) la stânga, împărțiți cu dt și treceți la limită.