Teseract

Teseract
Tip de recunoaștere optică a caracterelor
Dezvoltatori Hewlett-Packard , Google
Scris in C++
Interfață Linie de comanda
Sistem de operare Linux , Mac OS X și alte Windows asemănătoare UNIX
Prima editie mijlocul anilor 1980
ultima versiune
Formate de fișiere care pot fi citite TIFF , PNG , JPEG [d] , JP2 [d] și formatul de schimb de fișiere WebP
Formate de fișiere generate HOCR , text simplu , PDF , ALTO [d] și TSV
Licență Apache 2.0
Site-ul web github.com/tesseract-ocr…
 Fișiere media la Wikimedia Commons

Tesseract  (din  engleză  -  " tesseract ", din altă greacă. τέσσαρες ἀκτῖνες - "patru raze") este un program de calculator gratuit pentru recunoașterea textului , dezvoltat de Hewlett-Packard de la mijlocul anilor 1980 până la mijlocul anilor 1990 și apoi 10 ani „întins pe raft”. În august 2006, Google l-a cumpărat și a deschis codul sursă sub licența Apache 2.0 [2] pentru dezvoltare ulterioară. În momentul de față programul funcționează deja cu UTF-8, suportul lingvistic (inclusiv rusă din versiunea 3.0 [3] [4] ) se realizează cu ajutorul modulelor suplimentare.

Istorie

Nucleul programului Tesseract a fost dezvoltat la Hewlett Packard's Bristol Laboratory și la Hewlett Packard Co, Greeley , Colorado în 1985-1994. În 1996, au fost făcute modificări semnificative și a fost pregătit un port pentru Windows. Apoi, din 1998, o migrare parțială de la C la C++. O parte semnificativă a codului a fost scrisă inițial în C, dar au fost aduse îmbunătățiri pentru compatibilitatea cu compilatoarele C++. [2]

Tesseract 3.0 este în prezent construit pe Linux cu GCC 2.95 și mai târziu și pe Windows cu Visual C++ 2008 Express și mai târziu (suportul pentru Visual C++ 6 a fost eliminat în versiunea 3.0 [3] ).

Momentan cea mai recentă versiune este Tesseract 5.0 bazată pe LSTM [5] .

Interfețe grafice pentru Tesseract

Pentru Linux Pentru Windows

Site-uri bazate pe motorul Tesseract

Dependențe

Fapte interesante

Tesseract este utilizat de managerul de descărcare Tucan Manager pentru recunoașterea textului în testele CAPTCHA .

Note

  1. https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
  2. 1 2 Vincent, Luc Anunțând Tesseract OCR (august 2006). Consultat la 26 iunie 2008. Arhivat din original pe 18 martie 2012.
  3. 12 Tesseract 3.00 Lansat . Consultat la 5 octombrie 2010. Arhivat din original pe 9 octombrie 2010.
  4. Pagina de descărcare Tesseract . Arhivat din original pe 18 martie 2012.
  5. TESSERACT(1)  Pagina de manual . Preluat la 12 ianuarie 2019. Arhivat din original la 5 mai 2020.

Link -uri