Entropia informațională

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 17 ianuarie 2020; verificările necesită 35 de modificări .

Entropia informației  este o măsură a incertitudinii unui anumit sistem (în fizica statistică sau teoria informației ), în special, impredictibilitatea apariției oricărui caracter al alfabetului primar . În acest din urmă caz, în absența pierderii de informații, entropia este numeric egală cu cantitatea de informații pe simbol al mesajului transmis.

De exemplu, într-o succesiune de litere care alcătuiesc o propoziție în limba rusă, apar litere diferite cu frecvențe diferite , astfel încât incertitudinea apariției pentru unele litere este mai mică decât pentru altele. Dacă luăm în considerare că unele combinații de litere (în acest caz vorbesc despre entropia ordinului --lea, vezi mai jos ) sunt foarte rare, atunci incertitudinea scade și mai mult.

Definiții formale

Entropia binară a informațiilor , în absența pierderii de informații, este calculată folosind formula Hartley :

,

unde  este puterea alfabetului,  este cantitatea de informații din fiecare simbol al mesajului. Pentru o variabilă aleatoare care ia valori aleatoare independente cu probabilități ( ), formula lui Hartley se transformă în formula lui Shannon:

Această cantitate este numită și entropia medie a mesajului . Mărimea se numește entropie parțială , care caracterizează doar starea -e.

Astfel, entropia sistemului este suma cu semnul opus a tuturor frecvențelor relative de apariție a stării (evenimentului) cu numărul , înmulțită cu logaritmii lor binari [1] . Această definiție pentru evenimentele aleatoare discrete poate fi extinsă formal la distribuții continue date de distribuția densității de probabilitate , cu toate acestea, funcționarea rezultată va avea proprietăți ușor diferite (vezi entropia diferențială ).

În general, baza logaritmului în definiția entropiei poate fi orice mai mare decât 1 (deoarece un alfabet format dintr-un singur caracter nu poate transmite informații); alegerea bazei logaritmului determină unitatea de entropie. Pentru sistemele informaționale bazate pe sistemul de numere binar, unitatea de măsură a entropiei informației (de fapt, informația) este un bit . În problemele de statistică matematică, poate fi mai convenabil să se folosească logaritmul natural , caz în care unitatea de entropie a informațiilor este nat .

Definiția lui Shannon

Claude Shannon a sugerat că câștigul de informații este egal cu incertitudinea pierdută și a stabilit cerințele pentru măsurarea acesteia:

  1. măsura trebuie să fie continuă; adică o modificare a valorii probabilității cu o sumă mică ar trebui să provoace o mică modificare netă a funcției;
  2. în cazul în care toate opțiunile (literele din exemplul de mai sus) sunt la fel de probabile, creșterea numărului de opțiuni (litere) ar trebui să crească întotdeauna valoarea funcției;
  3. ar trebui să se poată face o alegere (litere în exemplul nostru) în doi pași, în care valoarea funcției rezultatului final să fie suma funcțiilor rezultatelor intermediare.[ clarifica ]

Prin urmare, funcția de entropie trebuie să îndeplinească condițiile

  1. este definită şi continuă pentru toţi , unde pentru toţi şi . (Această funcție depinde doar de distribuția probabilității, nu de alfabet.)
  2. Pentru numere întregi pozitive , trebuie să fie valabilă următoarea inegalitate:
  3. Pentru numere întregi pozitive , unde , egalitatea trebuie să fie valabilă

Shannon a arătat [2] că singura funcție care satisface aceste cerințe este

unde  este o constantă pozitivă (și este într-adevăr necesară doar pentru a alege unitatea de entropie; modificarea acestei constante este echivalentă cu schimbarea bazei logaritmului).

Shannon a stabilit că măsurarea entropiei ( ) aplicată unei surse de informații poate determina cerințele minime de lățime de bandă necesare pentru transmiterea fiabilă a informațiilor sub formă de numere binare codificate. Pentru a deriva formula Shannon, este necesar să se calculeze așteptarea matematică a „cantității de informații” conținută în figură din sursa de informații. Măsura entropiei Shannon exprimă incertitudinea realizării unei variabile aleatorii. Astfel, entropia este diferența dintre informațiile conținute într-un mesaj și acea parte a informației care este exact cunoscută (sau foarte previzibilă) în mesaj. Un exemplu în acest sens este redundanța limbii  - există modele statistice clare în aspectul literelor, perechi de litere consecutive, triple etc. (vezi lanțuri Markov ).

Definiția entropiei lui Shannon este legată de conceptul de entropie termodinamică . Boltzmann și Gibbs au lucrat mult la termodinamica statistică, ceea ce a contribuit la acceptarea cuvântului „entropie” în teoria informației. Există o legătură între termodinamică și entropia informațională. De exemplu, demonul lui Maxwell contrastează, de asemenea, entropia termodinamică a informației, iar obținerea oricărei cantități de informații este egală cu entropia pierdută.

Definiție folosind informații proprii

De asemenea, este posibil să se determine entropia unei variabile aleatoare introducând mai întâi conceptul de distribuție a unei variabile aleatoare având un număr finit de valori: [3]

si informatii proprii :

Atunci entropia este definită astfel:

Unități de entropie a informațiilor

Unitatea de măsură a cantității de informații și a entropiei depinde de baza logaritmului: bit , nat , trit sau hartley .

Proprietăți

Entropia este o cantitate definită în contextul unui model probabilistic pentru o sursă de date . De exemplu, aruncarea unei monede are entropie:

biți pe aruncare (presupunând că este independent), iar numărul de stări posibile este egal cu: stări posibile (valori) („capete” și „ cozi ”).

Pentru o sursă care generează un șir format doar din literele „A”, entropia este zero: , iar numărul de stări posibile este: starea posibilă (valoarea) („A”) și nu depinde de baza logaritm. Acestea sunt, de asemenea, informații care trebuie luate în considerare. Un exemplu de dispozitive de memorie care utilizează biți cu o entropie egală cu zero, dar cu o cantitate de informații egală cu o stare posibilă , adică nu egală cu zero, sunt biții de date înregistrați în ROM , în care fiecare bit are un singur bit posibil . stare .

Deci, de exemplu, se poate stabili empiric că entropia unui text englezesc este de 1,5 biți pe caracter, care va varia pentru diferite texte. Gradul de entropie al sursei de date înseamnă numărul mediu de biți pe element de date necesar pentru criptarea lor (date) fără pierderi de informații, cu codificare optimă.

  1. Este posibil ca unii biți de date să nu transporte informații. De exemplu, structurile de date stochează adesea informații redundante sau au secțiuni identice, indiferent de informațiile din structura de date.
  2. Cantitatea de entropie nu este întotdeauna exprimată ca un număr întreg de biți.

Proprietăți matematice

  1. Non-negativitate : .
  2. Marginire : , care rezultă din inegalitatea lui Jensen pentru funcția concavă și . Dacă toate elementele din sunt la fel de probabile, .
  3. Dacă este independent, atunci .
  4. Entropia este o funcție convexă în sus a distribuției de probabilitate a elementelor.
  5. Dacă au aceeași distribuție de probabilitate a elementelor, atunci .

Eficiență

Alfabetul poate avea o distribuție de probabilitate care este departe de a fi uniformă . Dacă alfabetul original conține caractere, atunci poate fi comparat cu un „alfabet optimizat” a cărui distribuție de probabilitate este uniformă. Raportul dintre entropia alfabetului original și optimizat este eficiența alfabetului original, care poate fi exprimat ca procent. Eficiența alfabetului simbolic original poate fi definită și ca entropia sa -ariană.

Entropia limitează compresia maximă posibilă fără pierderi (sau aproape fără pierderi) care poate fi realizată folosind un set teoretic tipic sau, în practică, codarea Huffman , codarea Lempel-Ziv-Welch sau codarea aritmetică .

Variații și generalizări

b -ar entropie

În general, entropia b - ară (unde b este 2, 3, …) a unei surse cu un alfabet inițial și o distribuție de probabilitate discretă unde este o probabilitate ( ) este dată de:

În special, când , obținem entropia binară obișnuită, măsurată în biți . Cu , obținem o entropie trinară măsurată în trits (un trit are o sursă de informații cu trei stări equiprobabile). Când obținem informații măsurate în nat .

Entropia condiționată

Dacă ordinea caracterelor alfabetului nu este independentă (de exemplu, în franceză, litera „q” este aproape întotdeauna urmată de „u”, iar după cuvântul „peredovik” din ziarele sovietice, cuvântul „producție” sau „munca” era de obicei urmată), cantitatea de informații transportată de secvența unor astfel de simboluri (și, prin urmare, entropia) este mai mică. Entropia condiționată este folosită pentru a explica astfel de fapte.

Entropia condiționată de ordinul întâi (similar cu modelul Markov de ordinul întâi) este entropia pentru alfabet, unde sunt cunoscute probabilitățile de apariție a unei litere după alta (adică probabilitățile de combinații de două litere) :

unde  este starea dependentă de caracterul anterior și  este probabilitatea dată că a fost caracterul anterior.

De exemplu, pentru limba rusă fără litera „e” [4] .

În ceea ce privește entropiile condiționate private și generale, pierderile de informații sunt complet descrise în timpul transmisiei de date pe un canal zgomotos. Pentru aceasta, sunt folosite așa-numitele matrici de canale . Pentru a descrie pierderea pe partea sursă (adică semnalul trimis este cunoscut), luați în considerare probabilitatea condiționată de a primi un simbol de către receptor , cu condiția ca simbolul să fi fost trimis . În acest caz, matricea canalului are următoarea formă:

Probabilitățile situate de-a lungul diagonalei descriu probabilitatea recepției corecte, iar suma tuturor elementelor oricărui rând dă 1. Pierderile pe semnal transmis sunt descrise în termeni de entropie condiționată parțială:

Pentru a calcula pierderea de transmisie a tuturor semnalelor, se folosește entropia condiționată totală:

înseamnă entropia din partea sursă,  entropia din partea receptorului este considerată similar: în schimb , este indicată peste tot (însumând elementele șirului, puteți obține , iar elementele diagonalei înseamnă probabilitatea ca exact caracterul care a fost primit a fost trimis, adică probabilitatea transmiterii corecte).

Entropia reciprocă

Entropia reciprocă sau entropia uniune este concepută pentru a calcula entropia sistemelor interconectate (entropia apariției comune a mesajelor dependente statistic) și este notă cu , unde caracterizează emițătorul și  - receptorul.

Relația dintre semnalele transmise și recepționate este descrisă de probabilitățile comune ale evenimentelor și este necesară o singură matrice pentru a descrie pe deplin caracteristicile canalului:

Pentru un caz mai general, când nu este descris un canal, ci sisteme care interacționează în ansamblu, matricea nu trebuie să fie pătrată. Suma tuturor elementelor coloanei cu numărul dă , suma rândului cu numărul este , iar suma tuturor elementelor matricei este ​​​1. Probabilitatea comună a evenimentelor și se calculează ca produs a probabilității inițiale și condiționate:

Probabilitățile condiționate sunt produse de formula lui Bayes . Astfel, există toate datele pentru calcularea entropiilor sursă și receptor:

Entropia reciprocă este calculată prin însumarea succesivă în rânduri (sau coloane) a tuturor probabilităților matricei înmulțite cu logaritmul lor:

Unitatea de măsură este biți / două caractere, asta pentru că entropia reciprocă descrie incertitudinea pentru o pereche de caractere: trimis și primit. Prin simple transformări, obținem și

Entropia reciprocă are proprietatea completității informației  - toate cantitățile considerate pot fi obținute din ea.

Istorie

În 1948, în timp ce investiga problema transmiterii raționale a informațiilor printr-un canal de comunicare zgomotos, Claude Shannon a propus o abordare probabilistică revoluționară pentru înțelegerea comunicațiilor și a creat prima teorie cu adevărat matematică a entropiei . Ideile sale senzaționale au servit rapid drept bază pentru dezvoltarea a două domenii principale: teoria informației , care folosește conceptul de probabilitate și teoria ergodică pentru a studia caracteristicile statistice ale sistemelor de date și comunicații, și teoria codificării , care utilizează în principal instrumente algebrice și geometrice. pentru a dezvolta coduri eficiente.

Conceptul de entropie ca măsură a aleatoriei a fost introdus de Shannon în lucrarea sa „ A Mathematical Theory of Communication ” , publicată în două părți în Bell System Technical Journal în 1948.  

Note

  1. Această reprezentare este convenabilă pentru a lucra cu informații prezentate în formă binară; în general, baza logaritmului poate fi diferită.
  2. Shannon, Claude E. A Mathematical Theory of Communication  (nespecificata)  // Bell System Technical Journal. - 1948. - iulie ( vol. 27 , nr. 3 ). - S. 419 . - doi : 10.1002/j.1538-7305.1948.tb01338.x .
  3. Gabidulin E. M. , Pilipchuk N. I. Prelegeri de teoria informației - MIPT , 2007. - P. 16. - 214 p. — ISBN 978-5-7417-0197-3
  4. Lebedev D.S., Garmash V.A. Despre posibilitatea creșterii vitezei de transmitere a mesajelor telegrafice. - M .: Electrosvyaz, 1958. - Nr. 1. - S. 68-69.

Vezi și

Link -uri

Literatură