Comprimarea datelor audio

Comprimarea (compresia) datelor audio este procesul de reducere a vitezei unui flux digital prin reducerea redundanței statistice și psihoacustice a unui semnal audio digital .

Metodele de reducere a redundanței statistice a datelor audio sunt numite și compresie fără pierderi și, în consecință, metodele de reducere a redundanței psihoacustice sunt numite compresie cu pierderi.

Istorie

În înregistrare

Problema creșterii densității înregistrării audio a apărut aproape imediat după apariția înregistrării sunetului ca atare. În epoca înregistrărilor mecanice, în acest scop, au încercat să așeze coloana sonoră cât mai strâns pe suprafața discului. În aceste scopuri, a fost necesară fie reducerea calității înregistrării, reducerea intervalului dinamic și de frecvență, ceea ce se practica, de exemplu, la înregistrarea vorbirii (performanțe audio, prelegeri, înregistrări pentru dublarea benzilor de film ). Cu toate acestea, în anii 1930, la trecerea la discuri de vinil, a fost propusă o metodă diferită, bazată pe limitarea independentă a celor trei componente ale legii mișcării tăietorului în timpul înregistrării și a acului în timpul redării: deplasarea oscilativă, viteza oscilativă și oscilație. accelerare. La frecvențe joase, vitezele și accelerațiile vibraționale sunt mici, iar deplasarea vibrațională joacă cel mai mare rol în transmiterea semnalului. La frecvențe medii, deplasarea nu mai poate atinge valori mari, iar viteza începe să joace cel mai mare rol în transmiterea semnalului. La frecvențe mai mari, acest rol trece la accelerație. Această caracteristică a înregistrării mecanice a sunetului a fost folosită pentru a comprima eficient informațiile audio. La înregistrare, semnalul audio este pre-distorsionat astfel încât să profite la maximum de lățimea alocată pistei sonore (care limitează deplasarea), razele sale de curbură (care limitează viteza) și rezistența materialului de înregistrare. (care limitează accelerația). Cea mai populară și mai târziu standardizată a fost curba de pre-accentuare RIAA. Compresia audio pe înregistrările fonografice este, în esență, o optimizare a funcției de densitate spectrală.

În înregistrarea magnetică

Ca și în cazul înregistrării cu gramofon, creșterea densității înregistrării magnetice a fost asociată cu optimizarea funcției de densitate spectrală a semnalului, în conformitate cu limitările fizice create de sistemul cap magnetic  - bandă magnetică . O caracteristică importantă care afectează calitatea înregistrării magnetice este lățimea spațiului nemagnetic al capului. Cu cât este mai mic, cu atât gama de frecvență poate fi înregistrată mai largă, dar nivelul semnalului, în special în regiunea de frecvență joasă, este redus, iar distorsiunile neliniare cresc. Dimpotrivă, cu cât decalajul este mai mare, cu atât intervalul de frecvență va fi limitat de sus, dar nivelul semnalului va fi mai mare, iar distorsiunile neliniare vor fi mai mici. Pentru a depăși această contradicție, canalul de înregistrare al magnetofonului conține filtre de pre-distorsiune. Cert este că la frecvențe joase semnalul este limitat de saturația magnetică, la frecvențe medii - de forța coercitivă, iar la frecvențe înalte - de câmpul parazit al capului. Prin urmare, filtrul de pre-distorsiune de joasă frecvență forțează amplificatorul de înregistrare să funcționeze în modul sursă curentă, limitând astfel cantitatea de magnetizare. La frecvențe medii, are loc o tranziție de la modul sursă de curent la modul sursă de tensiune, iar în final, la frecvențe mai mari, amplificatorul de înregistrare funcționează în modul sursă de tensiune. Răspunsul în frecvență al filtrului de pre-distorsiune al amplificatorului de magnetofon seamănă cu curba RIAA, dar are frecvențe de poli diferite, care depind de viteza benzii și de tipul acesteia. Casetofonele de înaltă viteză aveau bănci de filtre comutabile.

În emisiunile radio

Dorința de a reduce banda de frecvență ocupată de un post de radio de difuzare în emisie, fără a degrada calitatea sunetului, a condus la utilizarea compresiei semnalului audio în radiodifuziunea. Cu toate acestea, deoarece sistemele de difuzare cu modulație de amplitudine în benzile de unde lungi, medii și scurte au fost dezvoltate în anii 1920 și 1930, ele nu au fost acoperite de compresia semnalului audio și lățimea de bandă ocupată în emisie a fost limitată pur și simplu prin reducerea calității difuzării. . Dar în domeniul undelor ultrascurte la transmiterea unui semnal cu modulație de frecvență, în care lățimea de bandă este determinată nu de lățimea spectrului semnalului audio original, ci de domeniul său dinamic, a fost utilizat sistemul „compresor-expansor”, care a făcut posibilă limitarea abaterii de frecvență la o valoare de 75 kHz, oferind un interval dinamic de 96 dB

În sistemele stereo

În sistemele stereo, compresia semnalului audio se bazează pe principiul sumei diferenței și pe caracteristicile auzului uman. Faptul este că în condiții naturale nu există surse de sunet complet separate pentru urechea stângă și cea dreaptă. Prin urmare, nu este necesar ca o înregistrare stereofonică a sunetului să creeze o diferență între valoarea instantanee a presiunii sonore în urechea stângă și dreaptă de mai mult de 40 dB. Prin urmare, în sistemele audio analogice, metoda „joint stereo” a fost utilizată pe scară largă, atunci când semnalul sumei canalelor a fost înregistrat cu o calitate înaltă, iar semnalul diferenței de canal a fost înregistrat cu o diferență de canal comprimată în amplitudine și cu frecvență limitată. semnal. În dispozitivul de reproducere, semnalul canalului stâng a fost obținut ca sumă a semnalelor de sumă și diferență, iar canalul din dreapta a fost obținut ca diferență a semnalelor de sumă și diferență. Sistemul stereo combinat a fost utilizat în înregistrare și difuzare stereo.

Compresie fără pierderi

Reducerea redundanței statistice se bazează pe luarea în considerare a proprietăților semnalelor audio în sine. Este determinată de prezența unei corelații între mostrele adiacente ale unui semnal audio digital, a cărui eliminare face posibilă reducerea cantității de date transmise cu 15 ... 25% față de valoarea lor inițială. Pentru a transmite un semnal, este necesar să se obțină o reprezentare mai compactă a acestuia, care poate fi realizată folosind o transformare ortogonală . Condițiile importante pentru aplicarea unei astfel de metode de conversie sunt:

Aceste cerințe sunt îndeplinite de transformarea cosinus discretă modificată (MDCT).

Rata de biți poate fi redusă prin metode de codare care iau în considerare statisticile semnalelor audio, de exemplu, probabilitățile de apariție a nivelurilor de diferite dimensiuni. O astfel de metodă este codul Huffman , în care cuvintele de cod mai scurte sunt atribuite celor mai probabile valori ale semnalului, iar valorile eșantionului cu o probabilitate scăzută de apariție sunt codificate cu cuvinte de cod mai lungi. Din aceste două motive, în cei mai eficienți algoritmi de compresie a datelor audio digitale , nu eșantioanele de semnal audio în sine sunt codificate, ci coeficienții MDCT.

Metode similare sunt folosite la arhivarea fișierelor.

Compresie cu pierderi

Compresia datelor audio cu pierderi se bazează pe imperfecțiunea auzului uman atunci când percepe informațiile sonore. Incapacitatea unei persoane, în anumite cazuri, de a distinge între sunete mai silențioase în prezența celor mai puternice, numit efect de mascare , a fost exploatată în algoritmii de reducere a redundanței psihoacustice. Efectele mascării auditive depind de caracteristicile spectrale și temporale ale semnalelor mascate și de mascare și pot fi împărțite în două grupe principale:

Efectul de mascare în domeniul frecvenței se datorează faptului că, în prezența unor amplitudini mari de sunet, urechea umană este insensibilă la amplitudini mici ale frecvențelor apropiate. Adică, atunci când două semnale sunt simultan într-un domeniu de frecvență limitat, semnalul mai slab devine inaudibil pe fundalul celui mai puternic.

Mascarea în domeniul timpului caracterizează proprietățile dinamice ale auzului arătând modificarea pragului de auz relativ (pragul de auz al unui semnal în prezența altuia) în timp, când semnalele mascate și mascate nu sună simultan. În acest caz, ar trebui să se facă distincția între fenomenele de post-mascare (modificarea pragului de auz după un semnal de nivel înalt) și pre-mascare (modificarea pragului de auz înainte de sosirea unui semnal de nivel maxim) . Un semnal mai slab devine inaudibil cu 5-20 ms înainte ca semnalul de mascare să fie pornit și devine audibil la 50-200 ms după ce este pornit.

Cea mai bună metodă de codificare a sunetului care ține cont de efectul de mascare este codarea benzii. Esența sa este următoarea. Un grup de mostre ale semnalului audio de intrare, numit cadru, intră în blocul de filtru, care împarte semnalul în sub-benzi de frecvență. La ieșirea fiecărui filtru se află acea parte a semnalului de intrare care se încadrează în banda de trecere a acestui filtru. În plus, în fiecare bandă, folosind un model psihoacustic, se analizează compoziția spectrală a semnalului și se estimează ce parte a semnalului trebuie transmisă fără reducere și care parte se află sub pragul de mascare și poate fi recuantizată la un număr mai mic. de biți. Pentru a reduce intervalul dinamic maxim, se determină eșantionul maxim din cadru și se calculează un factor de scalare care aduce această probă la nivelul de cuantizare superior. Această operație este similară cu comandarea în difuzarea analogică. Toate celelalte citiri sunt înmulțite cu același factor. Factorul de scalare este transmis către decodor împreună cu datele codificate pentru a corecta câștigul acestuia din urmă. După scalare, pragul de mascare este estimat și numărul total de biți este redistribuit între toate benzile.

Evident, după eliminarea redundantei psihoacustice a semnalelor sonore, reconstrucția exactă a acestora în timpul decodării nu mai este posibilă. Metodele pentru eliminarea redundanței psihofizice pot asigura compresia datelor audio digitale de 10-12 ori fără pierderi semnificative de calitate.

Structura unui codificator de compresie audio cu pierderi

Multe alte trucuri pot servi ca o modalitate de a reduce cantitatea de date de informații audio. Chiar și o simplă îngustare a lățimii de bandă a semnalului, împreună cu o reducere a intervalului dinamic, poate fi deja numită compresie de date audio. De exemplu, standardul de compresie audio celulară le folosește pe ambele. În efortul de a elimina redundanța sunetului, codecul, cu o calitate slabă a semnalului, devine selectiv față de anumite cuvinte, înghițindu-le cu încăpățânare.

Evaluarea subiectivă a calității

Pentru datele audio comprimate, există o evaluare subiectivă a calității, măsurată ca procent de persoane care au simțit diferența față de original.

Corespondența ratei de biți a codecului MP3 în modul stereo și procentul de persoane care au observat diferența față de originalul
Numărul aproximativ de persoane care au auzit diferența dintre înregistrările originale și cele comprimate, % Rata de biți a înregistrării comprimate, kbps
0…1 320
5…30 256
30…40 192
40…70 128

Trebuie luat în considerare faptul că calitatea materialului rezultat depinde de natura datelor comprimate, de gen, de prezența fundalului și de zgomot. După comprimare, de exemplu MP3, la rate medii, ascultătorii notează minuscul percuției. Și compresia (chiar și puternică) are puțin efect asupra vocii.

Vezi și

Link -uri