Recunoaștere optică a caracterelor

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 22 aprilie 2021; verificările necesită 3 modificări .

Recunoașterea optică a caracterelor ( de exemplu, recunoașterea optică  a caracterelor, OCR ) - traducerea mecanică sau electronică a imaginilor de text scris de mână , dactilografiat sau tipărit în date text utilizate pentru a reprezenta caractere într-un computer (de exemplu, într-un editor de text ). OCR este utilizat pe scară largă pentru a converti cărți și documente în formă electronică , pentru a automatiza sistemele de contabilitate de afaceri sau pentru a publica text pe o pagină web . Recunoașterea optică a caracterelor vă permite să editați text, să căutați cuvinte sau expresii, să îl stocați într-o formă mai compactă, să afișați sau să imprimați material fără a pierde calitatea, să analizați informațiile și să aplicați traducerea electronică , formatarea sau vorbirea textului . Recunoașterea optică a textului este o problemă cercetată în domeniile recunoașterii modelelor , inteligenței artificiale și vederii computerizate .

Sistemele OCR necesită calibrare pentru a funcționa cu un anumit font ; în versiunile timpurii, programarea necesita o imagine a fiecărui caracter, programul putea funcționa doar cu un font la un moment dat. În prezent, cele mai comune sunt așa-numitele sisteme „inteligente”, care recunosc majoritatea fonturilor cu un grad ridicat de acuratețe. Unele sisteme OCR sunt capabile să restabilească formatarea originală a textului, inclusiv imagini, coloane și alte componente non-text.

Istorie

În 1929, Gustav Tauschek a primit un brevet  pentru OCR în Germania , urmat de Handel ( ing. Paul W. Handel ), obținând un brevet pentru metoda sa în Statele Unite în 1933. În 1935, Tauschek a primit și un brevet american pentru metoda sa. . Mașina lui Taushek era un dispozitiv mecanic care folosea șabloane și un fotodetector.  

În 1950, David H. Shepard , un criptoanalist  la Agenția de Securitate a Forțelor Armate ale Statelor Unite , după ce a analizat problema conversiei mesajelor tipărite în limbaj mașină pentru procesarea computerizată, a construit o mașină care a rezolvat această problemă. După ce a primit brevetul american, l-a raportat la Washington Daily News (27 aprilie 1951) și la The New York Times (26 decembrie 1953). Shepard a fondat apoi o companie care dezvolta mașini inteligente, care a lansat în curând primele sisteme comerciale de recunoaștere optică a caracterelor din lume.

Primul sistem comercial a fost instalat la Reader's Digest în 1955. Al doilea sistem a fost vândut către Standard Oil pentru a citi cardurile de credit pentru cecuri. Alte sisteme furnizate de compania lui Shepard au fost vândute la sfârșitul anilor 1950, inclusiv un scanner de pagini pentru Forțele Aeriene Naționale din SUA , conceput pentru a citi și teletascrie mesaje dactilografiate. IBM a primit ulterior licența pentru a utiliza brevetele lui Shepard.

În jurul anului 1965, Reader's Digest și RCA s-au asociat pentru a crea un cititor de documente OCR conceput pentru a digitiza numerele de serie ale cupoanelor Reader's Digest returnate din reclame. Pentru imprimarea pe documente, imprimanta cu tambur RCA a folosit un font special OCR-A . Cititorul de documente a lucrat direct cu computerul RCA 301 (unul dintre primele calculatoare cu semiconductor). Viteza mașinii era de 1500 de documente pe minut: a verificat fiecare document, cu excepția celor pe care nu le-a putut procesa corect.

Din 1965, Serviciul Poștal al Statelor Unite folosește aparate OCR pentru sortarea corespondenței, pe baza tehnologiilor dezvoltate de cercetătorul Yakov Rabinov. În Europa, prima organizație care a folosit aparate OCR a fost oficiul poștal britanic. Canada Post folosește sisteme optice de recunoaștere a caracterelor din 1971. În prima etapă, în centrul de sortare al sistemului de recunoaștere optică a caracterelor, se citesc numele și adresa destinatarului și se tipărește un cod de bare pe plic. Se aplica cu o cerneala speciala care este clar vizibila la lumina ultravioleta . Acest lucru se face pentru a evita confuzia cu câmpul de adresă completat de persoană, care poate fi oriunde pe plic.

În 1974, Ray Kurzweil a fondat Kurzweil Computer Products și a început să lucreze la dezvoltarea primului sistem de recunoaștere optică a caracterelor capabil să recunoască textul imprimat în orice font. Kurzweil credea că cea mai bună aplicare a acestei tehnologii ar fi crearea unei mașini de citit pentru nevăzători, care să le permită orbilor să aibă un computer care să poată citi textul cu voce tare. Acest dispozitiv a necesitat inventarea a două tehnologii simultan - un scaner plat CCD și un sintetizator care convertește textul în vorbire. Produsul final a fost prezentat la 13 ianuarie 1976 în cadrul unei conferințe de presă prezidată de Kurzweil și liderii Federației Naționale a Nevăzătorilor.

În 1978, Kurzweil Computer Products a lansat primul program de calculator OCR de succes comercial. Doi ani mai târziu, Kurzweil și-a vândut compania către Xerox Corporation, care era interesată să comercializeze în continuare sistemele OCR. Kurzweil Computer Products a devenit o filială a Xerox, cunoscută sub numele de Scansoft.

Primul program care a recunoscut alfabetul chirilic a fost programul AutoR al companiei ruse OKRUS. Programul a început să fie distribuit în 1992, a funcționat sub sistemul de operare DOS și a oferit o recunoaștere acceptabilă din punct de vedere al vitezei și calității chiar și pe computerele personale IBM PC/XT cu procesor Intel 8088 la o frecvență de ceas de 4,77 MHz. La începutul anilor 90, Hewlett-Packard și- a furnizat scanerele pieței ruse complet cu programul AutoR. Algoritmul „AutoR” a fost compact, rapid și complet „inteligent”, adică cu adevărat independent de font. Acest algoritm a fost dezvoltat și testat la sfârșitul anilor 60 de doi tineri biofizicieni, absolvenți ai Institutului de Fizică și Tehnologie din Moscova  - G. M. Zenkin și A. P. Petrov. Ei și-au publicat metoda de recunoaștere în revista Biophysics în numărul 12, nr. 3 pentru 1967. În prezent, algoritmul Zenkin-Petrov este utilizat în mai multe sisteme de aplicații care rezolvă problema recunoașterii simbolurilor grafice. Pe baza algoritmului , tehnologia PenReader a fost creată de Paragon Software Group în 1996 . G. M. Zenkin a continuat munca la tehnologia PenReader la Paragon Software Group [1] . Tehnologia este utilizată în produsul companiei cu același nume [2] .

În 1993, a fost lansată tehnologia de recunoaștere a textului companiei ruse ABBYY . Pe baza acestuia, au fost create o serie de soluții și programe corporative pentru utilizatorii de masă. În special, programul de recunoaștere a textului ABBYY FineReader , aplicațiile pentru recunoașterea informațiilor text de pe dispozitive mobile și sistemul ABBYY FlexiCapture pentru transmiterea în flux a documentelor și a introducerii datelor. Licențiatorii tehnologiilor de recunoaștere a textului ABBYY OCR sunt companii IT internaționale precum Fujitsu , Panasonic , Xerox , Samsung [3] , EMC și altele.

Starea actuală a tehnologiei OCR

Recunoașterea exactă a caracterelor latine în textul tipărit este în prezent posibilă numai dacă sunt disponibile imagini clare, cum ar fi documentele tipărite scanate. Precizia cu această formulare a problemei depășește 99%, acuratețea absolută poate fi obținută numai prin editarea umană ulterioară. Problemele de recunoaștere a textului scris de mână „tipărit” și standard, precum și a textelor tipărite de alte formate (în special cu un număr foarte mare de caractere) fac în prezent obiectul unei cercetări active.

Precizia metodelor poate fi măsurată în mai multe moduri și, prin urmare, poate varia foarte mult. De exemplu, dacă un cuvânt specializat neutilizat pentru software-ul corespunzător este întâlnit la căutarea unor cuvinte inexistente, eroarea poate crește.

Recunoașterea online a caracterelor este uneori confundată cu recunoașterea optică a caracterelor. Aceasta din urmă este o metodă offline care funcționează cu o formă statică de reprezentare a textului, în timp ce recunoașterea online a caracterelor ține cont de mișcările din timpul scrierii. De exemplu, în recunoașterea online folosind PenPoint OS sau o tabletă, puteți determina dacă o linie este scrisă de la dreapta la stânga sau de la stânga la dreapta.

Sistemele online pentru recunoașterea din mers a scrisului de mână au devenit recent cunoscute ca produse comerciale. Algoritmii unor astfel de dispozitive folosesc faptul că ordinea, viteza și direcția secțiunilor individuale ale liniilor de intrare sunt cunoscute. În plus, utilizatorul va învăța să folosească doar forme specifice de scriere. Aceste metode nu pot fi utilizate în software-ul care utilizează documente de hârtie scanate, astfel încât problema recunoașterii textului „tipărit” scris de mână este încă deschisă. Pe imaginile cu text „tipărit” scris de mână fără artefacte, se poate obține o precizie de 80% - 90%, dar cu o asemenea acuratețe, imaginea va fi convertită cu zeci de erori pe pagină. O astfel de tehnologie poate fi utilă doar într-un număr foarte limitat de aplicații.

O altă problemă cercetată pe scară largă este recunoașterea scrisului de mână . În prezent, precizia obținută este chiar mai mică decât pentru textul „tipărit” scris de mână. Scoruri mai mari pot fi obținute numai folosind informații contextuale și gramaticale. De exemplu, în timpul recunoașterii, căutarea cuvintelor întregi într-un dicționar este mai ușor decât încercarea de a identifica caractere individuale dintr-un text. Cunoașterea gramaticii unei limbi poate ajuta, de asemenea, să determinați dacă un cuvânt este un verb sau un substantiv. Formele caracterelor individuale scrise de mână pot să nu conțină uneori suficiente informații pentru a recunoaște cu acuratețe (mai mult de 98%) întregul scris de mână.

Pentru a rezolva sarcini mai complexe în domeniul recunoașterii, de regulă, se folosesc sisteme inteligente de recunoaștere, cum ar fi rețelele neuronale artificiale .

Pentru a calibra sistemele de recunoaștere a textului, a fost creată o bază de date standard MNIST , constând din imagini cu cifre scrise de mână.

Note

  1. Noul PenReader acum disponibil pentru iPhone, iPod touch și iPad . apps4all.ru. Preluat la 1 februarie 2016. Arhivat din original la 13 august 2016.
  2. Rușii au lansat o aplicație pentru scris de mână pe iPhone și iPad - CNews . Cnews.ru. Data accesului: 1 februarie 2016. Arhivat din original la 17 ianuarie 2016.
  3. ABBYY îl învață pe Samsung Galaxy S4 să recunoască textul de pe imagini . Preluat la 3 iunie 2015. Arhivat din original la 27 ianuarie 2016.

Vezi și

Link -uri