În teoria informației, teorema sursei de criptare a lui Shannon (sau teorema de criptare silențioasă) stabilește o limită pentru compresia maximă a datelor și o valoare numerică pentru entropia lui Shannon .
Teorema arată că (atunci când cantitatea de date tinde spre infinit într-un flux de variabile aleatoare distribuite independent și egal (IED)) este imposibil să se comprima datele astfel încât estimarea codului (numărul mediu de biți pe simbol) să fie mai mică decât entropia Shannon a datelor originale, fără pierderea acurateței informațiilor. Cu toate acestea, este posibil să se obțină un cod apropiat de entropia Shannon fără pierderi semnificative.
Teorema sursei de criptare pentru codurile de caractere aduce limite superioare și inferioare la lungimea minimă posibilă a cuvintelor criptate în funcție de entropia cuvântului de intrare (care este reprezentat ca o variabilă aleatorie) și de dimensiunea alfabetului necesar.
Codul sursă este o mapare (secvență) din depozitul de informații într-o secvență de caractere alfabetice (de obicei biți), astfel încât caracterul sursă poate fi obținut în mod unic din cifre binare (sursă de codificare fără pierderi) sau obținut cu o oarecare diferență (sursă de codare cu pierderi) . Aceasta este ideea din spatele compresiei datelor.
În informatică, teorema sursei de criptare (Shannon 1948) afirmă că:
O variabilă aleatorie N cu entropie H ( X ) poate fi comprimată în mai mult de N H ( X ) biți cu risc neglijabil de pierdere a datelor dacă N merge la infinit, dar dacă compresia este mai mică de N H ( X ) biți, atunci datele cel mai probabil să se piardă. (MacKay 2003).”Fie , să desemnăm două alfabete finite și să fie și să notăm mulțimea tuturor cuvintelor finite din aceste alfabete (ordonate).
Să presupunem că X este o variabilă aleatoare care ia o valoare de la , iar f este un cod descifrabil de la , unde . Fie S o variabilă aleatoare dată de lungimea cuvântului f ( X ).
Dacă f este optim în sensul că are lungimea minimă a cuvântului pentru X , atunci
(Shannon 1948).
Dat fiind că este un NOR, seria sa temporală X 1 , …, X n este de asemenea un NOR cu entropie H ( X ) în cazul valorilor discrete și cu entropie diferențială în cazul valorilor continue. Teorema sursei de criptare afirmă că pentru fiecare, pentru fiecare estimare mai mare decât entropia resursei, există un n suficient de mare și un criptator care preia n copii NOP ale resursei , , , și o mapează la biți binari într-un asemenea mod că caracterul original poate fi recuperat din biți binari, X cu o probabilitate de cel puțin .
Dovada
Hai să luăm câteva . formula pentru, , arată astfel:
AEP arată că pentru n suficient de mare , secvența generată de la sursă este nesigură în cazul tipic - , convergent. În cazul suficient de mare: n , (vezi AEP)
Definiția mulțimilor tipice implică faptul că acele secvențe care se află într-o mulțime tipică satisfac:
Rețineți că:
mai mult decât
Începând cu biți este suficient pentru a distinge orice șir
Algoritm de criptare: codificatorul verifică dacă secvența de intrare este falsă, dacă da, apoi returnează indexul frecvenței de intrare în secvență, dacă nu, atunci returnează un număr de cifre aleatoare. valoare numerică. Dacă probabilitatea de intrare este incorectă în secvență (cu o frecvență de aproximativ ), atunci codificatorul nu generează o eroare. Adică, probabilitatea de eroare este mai mare decât
Dovada reversibilității Dovada reversibilității se bazează pe faptul că se cere să se arate că pentru orice secvență de dimensiune mai mică decât (în sensul exponentului) va acoperi frecvența șirului mărginit de 1.
Fie lungimea cuvântului pentru fiecare posibil ( ). Să definim , unde C este ales în așa fel încât: .
Apoi
unde a doua linie este inegalitatea Gibbs și a cincea linie este inegalitatea Kraft , .
pentru a doua inegalitate o putem stabili
asa de
și apoi
și
Astfel, minimul S satisface