Entropia Renyi

În teoria informației, entropia Rényi , o generalizare a entropiei Shannon , este o familie de funcționale utilizate ca măsură a diversității cantitative, incertitudinii sau aleatoriei unui sistem. Numit după Alfred Renyi .

Dacă un sistem are un set discret de stări disponibile , care corespunde distribuției de probabilitate pentru (adică probabilitatea ca sistemul să fie în stări ), atunci entropia Rényi cu parametrul (at și ) al sistemului este definită ca $X=\{x_{1},...,x_{n}\}$ $p_{i}$ $i=1,...,n$ $p_{i}$ $x_{i}$ $\alfa$ $\alpha \geq 0$ $\alpha \neq 1$

H_{\alpha }(X)={\frac {1}{1-\alpha }}\log \sum _{i=1}^{n}p_{i}^{\alpha }={ \frac {1}{1-\alpha }}\log {\Big \langle }p^{\alpha -1}{\Big \rangle }

unde parantezele unghiulare denotă așteptarea matematică prin distribuție ( este probabilitatea ca sistemul să fie într-o anumită stare ca o variabilă aleatoare ), logaritmul este luat în baza 2 (pentru numărarea în biți) sau într-o altă bază convenabilă (trebuie să fie mai mare). decât 1). Baza logaritmului determină unitatea de entropie. Deci, în statistica matematică , se folosește de obicei logaritmul natural . $p_{i}$ $p$

Dacă toate probabilitățile sunt , atunci pentru orice entropia Rényi este . În caz contrar -entropia scade în funcție de . În plus, valorile mai mari (mergând la infinit) dau valorile entropiei Renyi care sunt în mare măsură determinate doar de cele mai mari probabilități de evenimente (adică, contribuția stărilor cu probabilitate scăzută la entropie scade). Cazul intermediar din limită dă entropia Shannon, care are proprietăți speciale. Valorile mai mici (care merg la zero) dau o valoare a entropiei Rényi care ponderează evenimentele posibile mai uniform, mai puțin dependente de probabilitățile lor. Și când obținem maximul posibil -entropie egală indiferent de distribuție (dacă numai ). $p_{i}=1/n$ $\alfa$ $H_{\alpha }(X)=\log n$ $\alfa$ $\alfa$ $\alfa$ $\alpha =1$ $\alfa$ $\alpha =0$ $\alfa$ $\log n$ $p_{i}\neq 0$

Sensul parametrului poate fi descris, vorbind informal, ca susceptibilitatea funcționalului la abaterea stării sistemului de la starea de echilibru: cu cât este mai mare , cu atât mai repede scade entropia atunci când sistemul se abate de la starea de echilibru. Sensul restricției este de a oferi o creștere a entropiei atunci când sistemul se apropie de o stare de echilibru (mai probabil). Această cerință este firească pentru conceptul de entropie . Trebuie remarcat faptul că pentru entropia Tsallis , care este echivalentă cu entropia Renyi până la o transformare monotonă independentă de , constrângerea corespunzătoare este adesea omisă, în timp ce pentru valorile negative ale parametrului, în loc să maximizeze entropia, minimizarea acestuia. este folosit. $\alfa$ $\alfa$ $\alpha \geq 0$ $X$

Entropia Rényi joacă un rol important în ecologie și statistică, definind așa-numiții indici de diversitate . Entropia Rényi este, de asemenea, importantă în informațiile cuantice și poate fi folosită ca măsură a complexității . În lanțul Heisenberg, entropia Rényi a fost calculată în termeni de funcții modulare în funcție de . Ele conduc, de asemenea, la un spectru de exponenți de dimensiune fractală . $XY$ $\alfa$

H α pentru unele valori specifice ale α

Unele cazuri speciale

Pentru , entropia Rényi nu depinde de probabilitățile de stare (cazul degenerat) și este egală cu logaritmul numărului de stări (logaritmul puterii mulțimii ): $\alpha=0$ $X$

H_{0}(X)=\log n=\log |X|

Această entropie este uneori numită entropia Hartley . Este folosit, de exemplu, în formularea principiului Boltzmann .

În limita de la , se poate arăta, folosind regula lui L'Hopital , că converge către entropia Shannon . Astfel, familia de entropie Rényi poate fi extinsă prin funcțional $\alpha \to 1$ $H_{\alpha )$

H_{1}(X){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to 1}H_{\alpha }(X)=H(X )=-\sum _{i=1}^{n}p_{i}\log p_{i}

Entropia pătratică, uneori numită entropia de coliziune, este entropia Rényi cu parametrul : $\alpha =2$

H_{2}(X)=-\log \sum _{i=1}^{n}p_{i}^{2}=-\log \operatorname {Prob} \{x=y\}

unde și sunt variabile aleatoare independente distribuite egal pe mulțimea cu probabilități ( ). Entropia patratică este folosită în fizică , procesarea semnalului , economie . $X$ $y$ $X$ $p_{i}$ $i=1,...,n$

Există o limită

H_{\infty}(X){\stackrel {\mathrm {df} {\;=\;}}\lim _{\alpha \to \infty}H_{\alpha }(X)=- \log \sup _{i}p_{i}

care se numește min-entropie deoarece este cea mai mică valoare a . Această entropie este, de asemenea, un caz degenerat, deoarece valoarea sa este determinată doar de starea cea mai probabilă. $H_{\alpha )$

Inegalități pentru diferite valori ale lui α

Ultimele două cazuri sunt legate de . Pe de altă parte, entropia Shannon poate fi arbitrar mare pentru o distribuție X cu o min-entropie fixă. $H_{\infty }<H_{2}<2H_{\infty )$ $H_{1}(X)$

H_{2}<2H_{\infty )

deoarece .

\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\geq \log \sup _{i}p_{i}^{2}=2\ log \sup _{i}p_{i}

H_{\infty <H_{2)

, pentru că .

\log \sum \limits _{i=1}^{n}{p_{i}^{2}}<\log \sup _{i}p_{i}\left({\sum \limits _{i=1}^{n}{p_{i}}}\right)=\log \sup _{i}p_{i}

H_{1}\geq H_{2}

conform inegalității lui Jensen .

\sum \limits _{i=1}^{n}{p_{i}\log p_{i}}\leq \log \sum \limits _{i=1}^{n}{p_{ i}^{2}}

Divergențele (divergențele) lui Renyi

Pe lângă familia de entropie, Rényi a definit și o serie de măsuri de divergență (divergențe) care generalizează divergența Kullback-Leibler . Formulele acestei secțiuni sunt scrise într-o formă generală - printr-un logaritm într-o bază arbitrară. Prin urmare, trebuie să înțelegeți că fiecare formulă dată este o familie de funcționale echivalente definite până la un factor constant (pozitiv).

Divergența Rényi cu parametrul , unde și , distribuția relativă la distribuție (sau „distanța de la la ”) este definită ca $\alfa$ $\alpha >0$ $\alpha \neq 1$ $Q$ $P$ $P$ $Q$

D_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log \sum _{i=1}^{n}p_{i}^{\alpha }q_{i}^{1-\alpha }={\frac {1}{\alpha -1}}\log {\Big \langle }(p/q)^{\alpha -1}::P{ \big\rangle}

sau (formal, fără a lua în considerare normalizarea probabilităților)

D_{\alpha }(P\|Q)=-H_{\alpha }{\Bigg (}{\frac {p}{q^{1-1/\alpha }}}{\Bigg )}

H_{\alpha }(P)=-\left.D_{\alpha }(P\|Q)\right|_{q=1)

Ca și divergența Kullback–Leibler a lui , divergența Rényi este nenegativă pentru . $\alpha >0$

Unele cazuri speciale

Pentru , divergenta Renyi nu este definita, dar familia divergentelor poate fi extinsa prin elementul $\alpha=0$

D_{0}(P\|Q){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to 0}D_{\alpha }(P\| Q)=-\log \sum _{i=1}^{n}q_{i}\operatorname {sgn} p_{i}

: minus logaritmul sumei probabilităților astfel încât corespunzătoare .

q

p>0

$D_{1/2}(P\|Q)=-2\log \sum _{i=1}^{n}{\sqrt {p_{i}q_{i)))$ : distanța Bhattacharya (minus logaritmul coeficientului Bhattacharya , ignorând un factor nesemnificativ ). Această discrepanță, până la o transformare monotonă , este echivalentă cu distanța Hellinger și cu distanța sferică Bhattacharya–Rao , dar spre deosebire de acestea, nu satisface inegalitatea triunghiului și, prin urmare, nu este o metrică în spațiul distribuțiilor. $2$

$D_{1}(P\|Q){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to 1}D_{\alpha }(P\| Q)=D_{KL}(P\|Q)=\sum _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}={ \Big \langle }\log {\frac {p}{q}}::P{\Big \rangle }$ : Divergența Kullback-Leibler (egală cu media distribuției logaritmului raportului de probabilitate ). $P$ $p/q$

$D_{2}(P\|Q)=\log \sum _{i=1}^{n}{\frac {p_{i}^{2}}{q_{i}}}=\ log {\Big \langle }{\frac {p}{q}}::P{\Big \rangle }$ : logaritmul valorii aşteptate asupra distribuţiei raportului de probabilitate . Această discrepanță, până la o transformare monotonă , este echivalentă cu distanța chi-pătrat . $P$ $p/q$ $D_{\chi ^{2}}(Q\|P)=\sum _{i=1}^{n}{\frac {(p_{i}-q_{i})^{2} }{q_{i}}}$

$D_{\infty}(P\|Q){\stackrel {\mathrm {df} }{\;=\;))\lim _{\alpha \to \infty}D_{\alpha}(P \|Q)=\log \sup _{i}{\frac {p_{i}}{q_{i}}}$ : logaritmul raportului maxim de probabilităţi . $p/q$

Interpretare financiară (de joc)

Luați în considerare un joc (loterie) ghicind o variabilă aleatorie. Ratele oficiale de câștig sunt cunoscute și publicate ca o distribuție de probabilitate . Între timp, distribuția de probabilitate reală poate să nu coincidă cu . Cunoașterea adevăratei distribuții permite jucătorului să câștige. Creșterea capitalului așteptată este exponențială. Considerând că distribuția este corectă , jucătorul poate calcula așteptarea (sa) matematică a ratei de creștere exponențială a capitalului (pe rundă de joc) [Soklakov2020 ]: $m$ $m$ $b$

Creștere așteptată

={\frac {1}{R}}\,D_{1}(b\|m)+{\frac {R-1}{R}}\,D_{1/R}(b\ |m)\,,

unde denotă măsura relativă a aversiunii la risc Arrow-Pratt. $R$

Indicând distribuția adevărată (nu coincide neapărat cu opinia jucătorului ), creșterea reală obținută poate fi calculată în limita unui joc multiplu [Soklakov2020 ]: $p$ $b$

ActualHeight

={\frac {1}{R}}\,{\Big (}D_{1}(p\|m)-D_{1}(p\|b){\Big )}+{\ frac {R-1}{R}}\,D_{1/R}(b\|m)\,.

De ce este cazul α = 1 special

Valoarea lui , care corespunde entropiei Shannon și divergenței Kullback-Leibler , este specială deoarece numai în acest caz se pot extrage variabilele A și X din distribuția probabilă comună astfel încât $\alpha=1$

H(A,X)=H(A)+\mathbb {E} _{p(a)}\{H(X|a)\)

pentru entropie și

D_{\mathrm {KL} }(p(x|a)p(a)||m(x,a))=\mathbb {E} _{p(a)}\{D_{\mathrm {KL} }(p(x|a)||m(x|a))\}+D_{\mathrm {KL} }(p(a)||m(a))

—

pentru divergenta.

Aceasta din urmă înseamnă că dacă căutăm o distribuție care să minimizeze discrepanțele unor măsuri de bază și obținem informații noi care afectează doar distribuția , atunci distribuția nu va fi afectată de modificările la . $p(x,a)$ $m(x,a)$ $A$ $p(x|a)$ $m(x|a)$

În cazul general, divergențele Rényi cu valori arbitrare satisfac condițiile de non-negativitate, continuitate și invarianță sub transformarea coordonatelor variabilelor aleatoare. O proprietate importantă a oricărei entropie și divergență Rényi este aditivitatea: atunci când și sunt independente, rezultă că $\alfa$ $A$ $X$ $p(A,X)=p(A)p(X)$

H_{\alpha }(A,X)=H_{\alpha }(A)+H_{\alpha }(X)

și

D_{\alpha }(P(A)P(X)\|Q(A)Q(X))=D_{\alpha }(P(A)\|Q(A))+D_{\ alfa }(P(X)\|Q(X))

Cele mai puternice proprietăți ale cazului , care implică definirea informațiilor condiționate și a informațiilor reciproce din teoria comunicării, pot fi foarte importante în alte aplicații, sau deloc importante, în funcție de cerințele acelor aplicații. $\alpha=1$

Renyi cross entropy

Entropia încrucișată a două distribuții cu probabilități și ( ) în cazul general poate fi definită în moduri diferite (în funcție de aplicație), dar trebuie să satisfacă condiția . Una dintre definiții ( entropia Shannon are o proprietate similară ): $H_{\alpha}(P,Q)$ $p_{i}$ $q_{i}$ $i=1,...,n$ $H_{\alpha }(P,P)=H_{\alpha }(P)$

H_{\alpha }(P,Q)=H_{\alpha }(P)+D_{\alpha }(P,Q)

O altă definiţie propusă de A. Renyi poate fi obţinută din următoarele consideraţii. Definim numărul efectiv de stări ale sistemului ca media ponderată geometrică a valorilor cu ponderi : $1/q_{i)$ $p_{i}$

{\overline {n}}=\prod _{i=1}^{n}(1/q_{i})^{p_{i}}

Aceasta implică expresia pentru entropia încrucișată a lui Shannon

H(P,Q)=\log {\overline {n}}=-\sum _{i=1}^{n}p_{i}\log q_{i}

Argumentând într-un mod similar, definim numărul efectiv de stări ale sistemului ca o medie ponderată a puterii - lege a valorilor cu ponderi și parametru : $1/q_{i)$ $p_{i}$ $1-\alfa$

{\overline {n}}=\left(\sum _{i=1}^{n}p_{i}(1/q_{i})^{1-\alpha }\right)^{ \frac {1}{1-\alpha }}=\left(\sum _{i=1}^{n}p_{i}q_{i}^{\alpha -1}\right)^{\frac {1}{1-\alpha}}

Astfel, entropia încrucișată Renyi are forma

H_{\alpha }(P,Q)=\log {\overline {n}}={\frac {1}{1-\alpha }}\log \sum _{i=1}^{n }p_{i}q_{i}^{\alpha -1}={\frac {1}{1-\alpha }}\log {\Big \langle }q^{\alpha -1}::P{ \big\rangle}

Este ușor de observat că, dacă distribuțiile de probabilitate și coincid, entropia Rényi încrucișată coincide cu entropia Rényi. $p$ $q$
De asemenea, la , entropia încrucișată Renyi converge către entropia încrucișată Shannon . $\alpha \to 1$
Proprietatea , care este valabilă pentru entropia încrucișată Shannon, nu este valabilă în cazul general. Entropia Renyi încrucișată poate fi fie mai mare, fie mai mică decât entropia Renyi. $H(P,Q)=H(P)+D_{KL}(P\|Q)\geq H(P)$

Caz continuu

Pentru o generalizare formală a entropiei Shannon în cazul unei distribuții continue, se utilizează conceptul de entropie diferențială . Entropia diferențială Rényi este definită exact în același mod:

H_{\alpha }(f)={\frac {1}{1-\alpha }}\log \int \limits _{X}^{}{f^{\alpha }(x)}dx

Divergența Rényi în cazul continuu este, de asemenea, o generalizare a divergenței Kullback-Leibler și are forma

D_{\alpha }(g,f)={\frac {1}{\alpha -1}}\log \int \limits _{X}^{}{g^{\alpha }(x) f^{1-\alpha }(x)}dx

Definiția entropiei încrucișate, propusă de A. Renyi, în cazul continuu are forma

H_{\alpha }(g,f)={\frac {1}{1-\alpha }}\log \int \limits _{X}^{}{g(x)f^{\alpha -1}(x)}dx

În formulele de mai sus , și sunt câteva funcții de densitate de probabilitate , definite pe interval , și se presupune că , . $f(x)$ $g(x)$ $X\subseteq R$ $\alpha >0$ $\alpha \neq 1$

Literatură

A. Renyi (1961). „Despre măsurile de informație și entropie” (PDF) . Proceedings of the 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960 . pp. 547-561.
A. O. Hero, O. Michael și J. Gorman. Alpha-divergences for Classification, Indexing and Retrieval (engleză) : jurnal. — 2002.
F. Nielsen şi S. Boltz. Centroizii Burbea-Rao și Bhattacharyya (neopr.) . — 2010.
Analiza EEG OA Rosso folosind instrumente de informare bazate pe wavelet. Journal of Neuroscience Methods 153 (2006) 163–182
Entropia Rényi ca măsură a întanglementării în lanțul de spin cuantic: F. Franchini, AR Its, VE Korepin, Journal of Physics A: Math. Theor. 41 (2008) 025302 [1]

Soklakov, A.N. (2020). „Economia dezacordului – Intuiția financiară pentru divergența Rényi” . Entropie . 22 (8) : 860. arXiv : 1811.08308 . DOI : 10.3390/e22080860 .