Bragman Divergence

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 20 noiembrie 2021; verificările necesită 2 modificări .

Divergența Bragman sau distanța Bragman este o măsură a distanței dintre două puncte , definită în termenii unei funcții strict convexe . Ele formează o clasă importantă de divergențe . Dacă punctele sunt interpretate ca o distribuție de probabilitate , fie ca valori ale unui model parametric , fie ca un set de valori observate, atunci distanța rezultată este o distanță statistică . Cea mai elementară divergență Bragman este distanța euclidiană pătrată .

Divergențele Bragman sunt similare cu metrica , dar nu satisfac nici inegalitatea triunghiului, nici simetria (în cazul general), dar satisfac teorema generalizată a lui Pitagora . În geometria informației varietatea statistică corespunzătoare este interpretată ca o varietate plată (sau duală). Acest lucru permite ca multe tehnici de optimizare să fie generalizate la divergența Bragman, care corespunde geometric unei generalizări a metodei celor mai mici pătrate .

Divergența Bragman este numită după Lev Meerovich Bragman , care a propus conceptul în 1967.

Definiție

Fie o funcție strict convexă diferențiabilă continuu definită pe o mulțime convexă închisă .

Distanța Bragman asociată cu funcția F pentru puncte este diferența dintre valoarea funcției F în punctul p și valoarea expansiunii Taylor de ordinul întâi a funcției F în punctul q , calculată în punctul p :

Proprietăți

Aici , și sunt punctele duale corespunzătoare lui p și q.

Exemple

este format din funcția de entropie negativă generalizat printr-o funcţie convexă

Generalizarea dualității proiective

Un instrument cheie în geometria computațională este ideea dualității proiective , care mapează punctele către hiperplan și invers, menținând totuși incidența și relațiile deasupra/dedesubt. Există multe tipuri de dualitate proiectivă - forma obișnuită mapează un punct la un hiperplan . Această mapare poate fi înțeleasă (dacă identificăm hiperplanul cu normalul) ca o mapare conjugată convexă care duce punctul p la punctul dual , unde F definește un paraboloid d -dimensional .

Dacă înlocuim acum paraboloidul cu orice funcție convexă, obținem o altă mapare duală care păstrează incidența și proprietățile de deasupra/dedesubt ale dualității proiective standard. De aici rezultă că conceptele naturale duale ale geometriei computaționale, cum ar fi diagrama Voronoi și triangulațiile Delaunay , își păstrează valoarea în spații cu o distanță definită de o divergență Bragman arbitrară. Algoritmii de geometrie „normală” se extind în mod natural la aceste spații [4] .

Generalizări ale divergenței Bragman

Divergențele Bragman pot fi interpretate ca cazuri limitative de divergențe skew Jensen [5] (vezi lucrarea lui Nielsen și Bolz [6] ). Divergențele Jensen pot fi generalizate folosind convexitatea comparativă, iar generalizarea cazurilor limită ale acestor divergențe Jensen oblice duce la divergențe Bragman generalizate (vezi lucrarea lui Nielsen și Nock [7] ). Divergența de acorduri a lui Bragman [8] se obține prin luarea unei coarde în locul unei tangente.

Divergenta bragman asupra altor obiecte

Divergența Bragman poate fi definită pentru matrici, funcții și măsuri (distribuții). Divergența Bragman pentru matrice include funcția de pierdere Stein [9] și entropia Neumann . Divergențele Bragman pentru funcții includ eroarea pătrată totală, entropia relativă și părtinirea pătratului (vezi Frigik și colab . [3] mai jos pentru definiții și proprietăți). În mod similar, divergența Bragman este definită și pentru mulțimi prin intermediul funcției set submodulare , cunoscută sub numele de analogul discret al funcției convexe . Divergența Bragman submodulară include o serie de măsuri discrete, cum ar fi distanța Hamming , precizia și rechemarea , informații reciproce și alte măsuri de distanță pe seturi (vezi Ayer și Bilmes [10] pentru detalii și proprietăți ale divergenței Bragman submodulare).

O listă cu divergențele comune ale matricei Bragman poate fi găsită în Tabelul 15.1 din articolul lui Nock, Magdalow, Bryce, Nielsen [11] .

Aplicații

În învățarea automată, divergența Bragman este utilizată pentru a calcula o funcție de eroare logistică modificată care funcționează mai bine decât softmax pe date zgomotoase [12] .

Note

  1. Bauschke, Borwein, 2001 .
  2. Banerjee, Merugu, Dhillon, Ghosh, 2005 .
  3. 1 2 Frigyik, Srivastava, Gupta, 2008 .
  4. Boissonnat, Nielsen, Nock, 2010 .
  5. ↑ Numele Jensen-Shannon Divergence a prins rădăcini în literatura în limba rusă , deși Jensen este danez și ar trebui citit în daneză, nu în engleză. Wikipedia are un articol despre Jensen .
  6. Nielsen, Boltz, 2011 .
  7. Nielsen, Nock, 2017 .
  8. Nielsen, Frank & Nock, Richard (2018), The Bregman chord divergence, arΧiv : 1810.09113 [cs.LG]. 
  9. Pentru termenul de pierdere a lui Stein, consultați https://www.jstor.org/stable/2241373?seq=1 Arhivat 17 noiembrie 2020 la Wayback Machine
  10. Iyer, Bilmes, 2012 .
  11. Nock, Magdalou, Briys, Nielsen, 2012 , p. 373-402.
  12. Amid, Warmuth, Anil, Koren, 2019 , p. 14987-14996.

Literatură