Distanța Kullback-Leibler

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 decembrie 2021; verificările necesită 2 modificări .

Distanța (divergență, divergență) Kullback-Leibler ( în engleză  Kullback-Leibler divergence ), RKL , discrepanță informațională , informații distinctive , câștig de informație , entropie relativă ( entropia relativă în engleză  ) [1] - funcțional  nenegativ , care este o măsură asimetrică a distanța unul față de celălalt prieten a două distribuții de probabilitate [2] definite pe spațiul comun al evenimentelor elementare . Aplicat adesea în teoria informației și statistica matematică .

Definiție și interpretări

Divergența Kullback-Leibler a unei distribuții în raport cu (sau, relativ vorbind, „distanța de la la ”) este notă cu . Primul argument al funcționalului ( distribuția ) este de obicei interpretat ca o distribuție adevărată sau postulată a priori , al doilea ( distribuția ) ca o distribuție asumată (verificabilă). Distribuția servește adesea ca o aproximare a unei distribuții . Valoarea funcționalului poate fi înțeleasă ca cantitatea de informații despre distribuție nesocotită dacă a fost folosită pentru aproximare . Această măsură a distanței în teoria informației este , de asemenea, interpretată ca cantitatea de pierdere de informații atunci când se înlocuiește distribuția adevărată cu distribuția .

În cazul general, dacă  orice măsură pentru care există funcții este absolut continuă în raport cu și , atunci divergența Kullback-Leibler a distribuției în raport cu este definită ca

.

Baza logaritmului din această formulă nu joacă un rol semnificativ. Alegerea acestuia permite fixarea unui anumit tip de funcțional dintr-o familie de funcționale echivalente și echivalează cu alegerea unității de măsură pentru discrepanța Kullback-Leibler (asemănătoare situației cu calcularea entropiei ), deci este posibil să se utilizeze un logaritm cu orice baza mai mare de unu. Cu alte cuvinte, funcționalitatea este definită până la un factor constant pozitiv. Cele mai comune sunt logaritmul natural (din motive de comoditate), precum și logaritmul binar  - pentru a măsura discrepanța în biți (utilizat de obicei în teoria informației ). Divergența Kullback-Leibler este o mărime adimensională , indiferent de dimensiunea variabilelor aleatoare originale.

Deși distanța Kullback-Leibler (RKL) este adesea considerată o modalitate de a măsura distanța dintre distribuțiile de probabilitate, această funcțională nu este o metrică în spațiul distribuțiilor, deoarece nu satisface inegalitatea triunghiului și nu satisface axioma lui simetrie: . Cu toate acestea, forma sa infinitezimală, în special Hessian , dă un tensor metric , care este cunoscut sub numele de metrica informațiilor Fisher .

Distanța Kullback-Leibler este un caz special al unei clase mai generale de discrepanțe numite f - discrepanțe , precum și un caz special al clasei Bregman de discrepanțe . RKL este singura divergență de probabilități care aparține ambelor clase.

RKL a fost introdus inițial de Solomon Kullback și Richard Leibler în 1951 ca o divergență direcțională între două distribuții. Acest lucru este discutat în textul lui Kullback Teoria și statistica informațiilor. [unu]

Distanța Kullback-Leibler este uneori interpretată și ca câștigul de informații obținut atunci când este utilizat în loc de . Uneori sunt folosite nume confuze pentru RKL relativă entropie relativă (notata ) sau cross entropy .

Există diverse convenții cu privire la modul de citire a notației . Deseori denumită pur și simplu discrepanța sau distanța dintre și , cu toate acestea, aceasta nu transmite asimetria fundamentală în relație. Uneori se spune „divergență de la (relativ la) ” sau, relativ vorbind, „distanță de la ” (de obicei, în contextul entropiei relative sau al câștigului de informații). În acest caz, distribuția este interpretată ca adevărată.

Definiții și definiții particulare în ceea ce privește derivatul Radon–Nikodim

Pentru distribuțiile de probabilitate discrete și cu un număr de evenimente elementare , divergența Kullback-Leibler a unei distribuții în raport cu distribuția (sau „distanța de la la ”) este definită [3] ca:

.

Cu alte cuvinte, este media diferenței logaritmice dintre probabilitățile și , unde media este luată din distribuția . RKL este definit doar dacă , pentru toate ( continuitate absolută ). Ori de câte ori , contribuția celui de-al treilea termen este interpretată ca zero deoarece .

Pentru distribuțiile absolut continue -dimensionale și distanța Kullback-Leibler este dată de expresia [4]

,

unde și  sunt funcțiile de densitate de distribuție și , respectiv, definite pe intervalul .

Mai general, dacă și  sunt măsuri de probabilitate în mulțime și sunt absolut continue în raport cu , atunci RKL de la până este definită ca:

,

unde  este derivata Radon-Nikodym în raport cu , și cu condiția ca expresia din dreapta să existe. În mod echivalent, aceasta poate fi scrisă ca

.

Trebuie remarcat faptul că utilizarea derivatului Radon-Nikodim servește ca mijloc formal de scriere a acestor expresii, dar nu dezvăluie sensul lor semnificativ.

Funcționala de divergență Kullback-Leibler este adimensională, dar valorile sale pot avea unități diferite. Deci, dacă logaritmii din aceste formule sunt luați în baza 2, atunci divergența (este și informație, din punctul de vedere al teoriei informațiilor) se măsoară în biți ; dacă se bazează pe e (cu bază naturală), atunci divergența (informația) se măsoară în nats . Majoritatea formulelor care conțin RKL își păstrează semnificația indiferent de baza logaritmului.

Caracterizare

Arthur Hobson a demonstrat că distanța Kullback-Leibler este singura măsură a diferenței dintre distribuțiile de probabilitate care satisface unele proprietăți dezirabile care sunt extensii canonice ale celor care apar în caracterizările utilizate în mod obișnuit ale entropiei . [5] Prin urmare, informația reciprocă  este singura măsură a dependenței reciproce care este supusă unor condiții conexe, deoarece poate fi definită în termeni de RCL .

Există, de asemenea, o caracterizare bayesiană a distanței Kullback-Leibler. [6]

Motivație

În teoria informației, teorema Kraft-McMillan afirmă că orice schemă de codificare direct decodabilă pentru codificarea unui mesaj pentru a identifica o singură valoare , poate fi văzută ca reprezentând o distribuție implicită de probabilitate peste , unde  este lungimea codului pentru , în biți. Prin urmare, RCL poate fi interpretat ca lungimea suplimentară așteptată a mesajului de la marcajul zero care urmează să fie transmis dacă este utilizat un cod care este optim pentru o distribuție dată (incorectă) a lui Q, în comparație cu utilizarea unui cod bazat pe distribuția adevărată a lui P. .

, unde  este entropia încrucișată a lui P și Q,  este entropia lui P.

Rețineți, de asemenea, că există o legătură între RKL și „funcția de viteză” în teoria abaterilor mari . [7] [8]

Proprietăți

,

unde si . În ciuda presupunerii că transformarea a fost continuă, acest lucru nu este necesar în acest caz. Acest lucru arată, de asemenea, că RKL specifică o valoare compatibilă cu dimensiunea , deoarece dacă x este o variabilă dimensională, atunci P(x) și Q(x) au și o dimensiune, deoarece este o mărime adimensională. Cu toate acestea, expresia de sub logaritm rămâne fără dimensiune, așa cum ar trebui. Prin urmare, distanța Kullback-Leibler poate fi considerată, într-un sens, ca o mărime mai fundamentală decât alte proprietăți în teoria informației [9] (cum ar fi auto-informația sau entropia Shannon ), care poate deveni nedefinită sau negativă pentru non- probabilități discrete.

Distanța Kullback-Leibler pentru distribuția normală multivariată

Să presupunem că avem două distribuții normale multivariate , cu medie și cu matrici de covarianță (reversibile) . Dacă două distribuții au aceeași dimensiune k, atunci RCL dintre distribuții este după cum urmează [10] :

Logaritmul ultimului termen trebuie luat la baza e, deoarece toți, cu excepția ultimului termen, sunt logaritmi naturali ai expresiilor care fie sunt factori ai funcției de densitate, fie apar în mod natural. Prin urmare, ecuația dă un rezultat măsurat în nat . Împărțind această expresie în întregime la log e 2, obținem distribuția în biți.

Relația cu valorile

S-ar putea numi RCL o „ metrică ” în spațiul distribuțiilor de probabilitate, dar acest lucru ar fi incorect, deoarece nu este simetric și nu satisface inegalitatea triunghiului . Totuși, fiind o metrică preliminară , generează o topologie în spațiul distribuțiilor de probabilitate . Mai precis, dacă este o secvență de distribuții astfel încât , atunci spunem că . Din inegalitatea lui Pinsker rezultă că — , unde aceasta din urmă este necesară pentru convergența în variație .

Potrivit lui Alfred Renyi (1970, 1961). [11] [12]

Indicatorul informațiilor lui Fisher

Cu toate acestea, distanța Kullback-Leibler este direct legată de metrica, și anume metrica de informații Fisher . Să presupunem că avem distribuții de probabilitate P și Q, ambele parametrizate de același parametru (posibil multivariat) . Luați în considerare acum două valori apropiate ale lui și , astfel încât parametrul să difere doar cu un număr mic de parametru . Și anume, extinzând într- o serie Taylor până la primul ordin, avem (folosind convenția Einstein )

,

unde  este o mică modificare în direcția j și este rata corespunzătoare de modificare a distribuției probabilității. Deoarece RCL are un minim absolut egal cu 0 la P=Q, adică RCL are al doilea ordin de micime în ceea ce privește parametrii . Mai formal, ca pentru orice minim, prima derivată a divergenței dispare

iar expansiunea Taylor pleacă de la al doilea ordin al micimii

,

unde Hessianul trebuie să fie nenegativ. Dacă este permis să varieze (și omițând sub-indicele 0), atunci Hessianul definește o metrică Riemann (posibil degenerată) în spațiul parametrilor , numită metrica informațiilor Fisher.

Relația cu alte dimensiuni ale teoriei informației

Multe alte mărimi ale teoriei informației pot fi interpretate ca aplicarea distanței Kullback-Leibler la cazuri particulare.

Valoarea proprie este RCL a distribuției de probabilitate din simbolul Kronecker , reprezentând certitudinea că  — adică numărul de biți suplimentari care trebuie transmis pentru a determina , dacă numai distribuția de probabilitate este disponibilă pentru receptor, nu faptul că .

Informații reciproce -

este RCL al produsului a două distribuții de probabilitate marginale din distribuția de probabilitate comună  - adică numărul așteptat de biți suplimentari care trebuie trimiși pentru a determina și dacă sunt codificați folosind numai distribuția lor marginală în loc de distribuția comună. În mod echivalent, dacă probabilitatea comună este cunoscută, acesta este numărul așteptat de biți suplimentari care ar trebui să fie trimiși în medie pentru a determina dacă valoarea nu este deja cunoscută de receptor.

Entropia lui Shannon -

este numărul de biți care trebuie transmiși pentru a identifica rezultate la fel de probabile, acesta este mai mic decât distribuția uniformă RCL din distribuția adevărată  - adică mai puțin decât numărul așteptat de biți stocați care trebuie trimiși dacă valoarea este codificată conform la distribuţia uniformă şi nu la distribuţia adevărată .

Entropia condiționată -

este numărul de biți care trebuie trimiși pentru a identifica din rezultate la fel de probabile, acesta este mai mic decât RCL-ul produsului distribuțiilor din distribuția comună adevărată  - adică mai mic decât numărul așteptat de biți stocați care trebuie trimiși dacă valoarea este codificată conform distribuției uniforme și nu cu distribuția condiționată a datelor și .

Entropia încrucișată între două distribuții de probabilitate măsoară numărul mediu de biți necesari pentru a identifica un eveniment dintr-un set de evenimente posibile dacă se folosește o schemă de codificare bazată pe o distribuție de probabilitate dată, mai degrabă decât distribuția „adevărată” . Entropia încrucișată pentru două distribuții și pe același spațiu de probabilitate este definită după cum urmează:

Distanța Kullback-Leibler și modificarea bayesiană

În statistica bayesiană , distanța Kullback-Leibler poate fi utilizată ca măsură a câștigului de informații atunci când se trece de la o distribuție de probabilitate anterioară la cea a posteriori . Dacă se descoperă un fapt nou , acesta poate fi folosit pentru a modifica distribuția de probabilitate (a priori) într-o distribuție de probabilitate nouă (posterior) folosind teorema lui Bayes :

Această distribuție are o nouă entropie

care poate fi mai mică sau mai mare decât entropia originală . Cu toate acestea, în ceea ce privește noua distribuție de probabilitate, se poate estima că utilizarea codului original bazat pe în loc de codul nou bazat pe ar adăuga numărul așteptat de biți la lungimea mesajului. Aceasta este astfel cantitatea de informații utile, sau câștig de informații, cu privire la , care a fost obținută prin constatarea că .

Dacă ulterior ajunge o altă bucată de date, , atunci distribuția de probabilitate pentru x poate fi actualizată în continuare pentru a oferi o nouă estimare optimă , . Dacă reexaminăm câștigul de informații pentru a folosi , și nu , rezultă că acesta poate fi mai mult sau mai puțin decât se credea anterior: , poate fi sau , decât , și prin urmare câștigul total de informații nu satisface inegalitatea triunghiului:

, poate fi mai mare decât, mai mic sau egal cu

Tot ce se poate spune este că, în medie, luând media folosind , ambele părți vor da media.

Modelul experimental al lui Bayes

Un obiectiv comun într- un model Bayesian experimental  este de a maximiza RCL așteptat între distribuțiile anterioare și posterioare. [13] Atunci când posteriorul este aproximat de o distribuție Gaussiană, modelul care maximizează RCL așteptat se numește d-optimal bayesian .

Informații distinctive

Distanța Kullback-Leibler poate fi interpretată și ca informația discriminatorie așteptată pentru peste : informație medie per eșantion pentru diferența în favoarea ipotezei , față de ipoteza când ipoteza este adevărată [14] . Un alt nume pentru această cantitate, dat de Irving John Good , este masa de probă așteptată pentru peste așteptată de la fiecare probă.

Ponderea așteptată a dovezilor pentru peste nu este aceeași cu câștigul de informații așteptat, de exemplu, pentru distribuția de probabilitate p(H) a ipotezei, .

Oricare dintre cele două mărimi poate fi utilizată ca funcție de utilitate în forma experimentală bayesiană pentru a selecta următoarea întrebare optimă pentru investigare, dar în general vor conduce mai degrabă la strategii experimentale diferite.

Pe scara de entropie a câștigului de informații, există o diferență foarte mică între certitudinea aproape și certitudinea deplină - este puțin probabil ca codificarea cu certitudine aproape să necesite mai mulți biți decât codificarea cu certitudine totală. Pe de altă parte, ponderea dovezilor este implicată în scara logit , iar diferența dintre cele două este uriașă, aproape infinită. Acest lucru poate reflecta diferența dintre a fi aproape sigur (la nivel probabilistic), să spunem, că ipoteza Riemann este adevărată și a fi complet sigur că este adevărată deoarece există o demonstrație matematică. Două scale diferite ale funcției de pierdere pentru incertitudine sunt ambele utile, în funcție de cât de bine reflectă fiecare circumstanțele particulare ale problemei luate în considerare în problemă.

Principiul informațiilor distinctive minime

Ideea RKL ca informație discriminatorie l-a determinat pe Kullback să propună Principiul informațiilor privind discriminarea minimă  (MDI ) : având în vedere fapte noi, o nouă distribuție ar trebui să fie aleasă dintre cele care sunt greu de distins de distribuția originală ; deoarece datele noi generează cât mai puțin câștig de informații .

De exemplu, dacă avem o distribuție anterioară peste și , și apoi studiem distribuția adevărată a și . RCL dintre noua distribuție comună pentru și , și vechea distribuție anterioară ar fi:

adică suma RKL a distribuției anterioare pentru din distribuția actualizată , plus valoarea așteptată (distribuția de probabilitate utilizată ) a RKL a distribuției condiționate anterioare din noua distribuție . (Rețineți că valoarea așteptată, adesea ulterioară, se numește RKL condiționat (sau entropia relativă condiționată) și se notează [15] . Acest lucru minimizează dacă peste conținutul total . Și observăm că acest rezultat unifică teorema lui Bayes dacă noua distribuție este de fapt o funcție care reprezintă cu încredere , care are o anumită valoare.

Informațiile minime distinctive pot fi privite ca o extensie a principiului indiferenței al lui Laplace (cunoscut și sub numele de Principiul rațiunii insuficiente) și a principiului entropiei maxime al lui Jaynes . În special, este o extensie naturală a principiului entropiei maxime de la o distribuție discretă la o distribuție continuă, pentru care entropia Shannon nu devine foarte convenabilă (vezi entropia diferențială ), dar RCL continuă să fie la fel de relevant.

În literatura de inginerie, MDI este uneori denumit principiul minim al entropiei încrucișate . Minimizarea RCL de la față de este echivalentă cu minimizarea entropiei încrucișate și , deci este potrivit dacă se încearcă să aleagă o valoare aproximativă exactă până la .

Exemplu de utilizare

Fie, pe baza unui eșantion din distribuția unei variabile aleatoare, se cere restabilirea densității distribuției acesteia, dată sub forma unei familii parametrice , unde  argumentul funcției,  este un parametru necunoscut. Estimarea parametrilor poate fi găsită ca o soluție la problema minimizării distanței Kullback-Leibler dintre densitate și densitatea distribuției empirică considerată „adevărată”,

,

unde  este functia Dirac :

.

Este ușor de observat că rezolvarea acestei probleme conduce la o estimare a probabilității maxime pentru parametru . Dacă densitatea reală de distribuție a variabilei aleatoare nu aparține familiei , parametrul estimat găsit se numește cvasi-probabilitate și oferă cea mai bună aproximare a distribuției reale reprezentate de eșantion între distribuțiile cu densități în termeni de distanță Kullback-Leibler. .

Note

  1. ↑ 1 2 Kullback S. Teoria și statistica informațiilor. — John Wiley & Sons, 1959.
  2. Kullback S., Leibler R. A. Despre informare și suficiență // The Annals of Mathematical Statistics. 1951.V.22. Nr 1. P. 79-86.
  3. MacKay, David JC Teoria informației, inferența și algoritmii de învățare. - Prima ed.. - Cambridge University Press, 2003. - C. p. 34.
  4. Bishop C. Pattern Recognition and Machine Learning. - 2006. - S. str. 55.
  5. Hobson, Arthur. Concepte în mecanica statistică. Gordon și Breach. - New York, 1971. - ISBN 0677032404 .
  6. Baez, Ioan; Fritz, Tobias. Teoria și aplicarea categoriilor 29.—C. „O caracterizare bayesiană a entropiei relative”, p. 421–456..
  7. I.N. Sanov. Despre probabilitatea unor abateri mari ale variabilelor aleatoare. - 1957. - S. 11-44.
  8. Novak SY Extreme Value Methods with Applications to Finance cap. 14.5. — Chapman și Hall. - 2011. - ISBN 978-1-4398-3574-6 .
  9. Entropie relativă . videolectures.net. Consultat la 14 iunie 2016. Arhivat din original la 25 decembrie 2018.
  10. Duchi J. „Derivations for Linear Algebra and Optimization”. - S. 13 .
  11. Rényi A. Teoria probabilității. - 1970. - ISBN 0-486-45867-9 ..
  12. Rényi, A. „Despre măsurile entropiei și informațiilor”. - 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. - pp. 547–561.
  13. Chaloner, K.; Verdinelli, I. „Design experimental bayesian: o revizuire”. — Statistical Science 10, 1995. — 273–304 p.
  14. Apăsați, W.H.; Teukolsky, SA; Vetterling, WT; Flannery, B. P. (2007). „Secțiunea 14.7.2. Distanța Kullback–Leibler”. Rețete numerice: Arta calculului științific (ed. a III-a). Cambridge University Press. ISBN 978-0-521-88068-8 . .
  15. Thomas M. Coperta, Joy A. Thomas. Elemente de teoria informației . — John Wiley & Sons. - 1991. - S. p.22.