Recuperarea imaginilor bazate pe conținut (CBIR) este o secțiune de viziune computerizată care rezolvă problema găsirii imaginilor care au conținutul necesar într-un set mare de imagini digitale.
Algoritmul de căutare trebuie să analizeze conținutul imaginii, de exemplu, culoarea obiectelor prezentate pe aceasta, forma lor, textura, compoziția scenei. Dacă nu este posibilă analizarea scenei, căutarea are în vedere metadate : cuvinte cheie, etichete.
Termenul „Recuperare imagine bazată pe conținut” a fost introdus pentru prima dată în 1992 de T. Kato când descrie experimente cu regăsirea automată a imaginilor bazate pe criteriile culorilor și formelor geometrice prezente. De atunci, a fost folosit ca o generalizare a procesului de selectare a imaginilor din baza de date in functie de orice caracteristici sintactice ale obiectelor. Algoritmii, metodele și instrumentele software utilizate își au originea în domenii legate de procesarea semnalului , viziunea computerizată și statistica .
În prezent există un interes din ce în ce mai mare în domeniul căutării imaginilor pe criterii de conținut, din cauza limitărilor metodelor bazate exclusiv pe categorizarea metadatelor, precum și a potențialului în creștere al aplicabilității acestora. În prezent, algoritmii de clasificare și căutare în datele text fac posibilă tratarea imaginilor descrise folosind metadate destul de eficient, dar această abordare necesită o descriere manuală a fiecărei imagini din baza de date de către o persoană. Acest lucru este complet nepractic, mai ales atunci când este aplicat bazelor de date mari sau imaginilor generate automat (cum ar fi camerele CCTV ). În plus, există o șansă departe de zero de a rata una dintre imaginile țintă de căutare din cauza ambiguității sau sinonimiei.
Aplicații potențiale pentru algoritmii de căutare de conținut:
În ciuda faptului că există multe pachete software pentru căutarea imaginilor în baze de date, problema căutării pe baza conținutului de pixeli în majoritatea situațiilor nu a fost încă implementată. Consultați lista motoarelor de căutare de imagini.
Diverse implementări ale sistemelor de căutare a conținutului imaginilor funcționează cu următoarele tipuri de interogări ale utilizatorilor :
Exemplu de rezultatSe presupune că sistemul efectuează o căutare bazată pe imaginea de intrare specificată de utilizator. Algoritmii care alcătuiesc sistemul pot avea diferite moduri de a descrie și de a lucra cu imaginea de intrare, dar toate instanțele de imagine rezultate trebuie să aibă elemente comune cu intrarea specificată de utilizator.
Utilizatorul poate introduce atât o imagine existentă, cât și o schiță brută a rezultatului dorit (marcarea în zone colorate sau forme geometrice simple). [unu]
Cu această metodă de construire a interogărilor, nu există dificultăți asociate cu reprezentarea unei imagini printr-un set de cuvinte.
Rezolvarea semanticii interogărilorÎn mod ideal, sistemul de căutare ar trebui să poată procesa cererile utilizatorilor formulate în formă gratuită, de exemplu, „găsiți fotografii cu câini” sau chiar „găsiți portrete ale lui Leonid Ilyich Brejnev”. Solicitările de acest tip sunt foarte greu de procesat de un computer, deoarece fotografiile unui Labrador și ale unui pudel miniatural sunt foarte diferite, iar Leonid Ilici nu privește întotdeauna camera în aceeași ipostază. În prezent, multe sisteme utilizează caracteristici de nivel scăzut, cum ar fi culoarea, textura și forma unui obiect pentru clasificare, deși există și sisteme bazate în principal pe diferențierea criteriilor de nivel înalt (vezi teoria recunoașterii modelelor ). Majoritatea sistemelor nu sunt orientate larg. De exemplu, sistemele de recuperare a imaginilor generate de computer gestionează cu succes caracteristicile bazate pe forme și gradienți care se potrivesc.
Alte moduriAceastă categorie include forme de interogare, cum ar fi definirea unei categorii într-o ierarhie propusă, interogare ca parte a unei imagini așteptate ca rezultat, extinderea unei interogări cu imagini suplimentare, schiță grafică cu forme complexe și o combinație de metode.
De asemenea, este posibilă rafinarea treptată a interogării, atunci când utilizatorul marchează rezultatele intermediare ca „potrivite” sau „nesatisfăcătoare” în timpul sistemului de căutare, iar sistemul continuă să lucreze cu interogarea rafinată.
Iată cele mai comune metode de descriere a conținutului imaginilor, care sunt utilizate pentru compararea ulterioară a acestora între ele. Toate acestea sunt potențial aplicabile pe scară largă, adică nu sunt specifice unei anumite subclase de sisteme.
CuloareCăutarea imaginilor prin compararea componentelor de culoare se realizează prin construirea unei histograme a distribuției acestora. În acest moment, se fac cercetări pentru a construi o descriere în care imaginea să fie împărțită în regiuni în funcție de caracteristici asemănătoare de culoare, iar apoi se ia în considerare poziția relativă a acestora. Descrierea imaginilor prin culorile pe care le conțin este cea mai comună, deoarece nu depinde de dimensiunea sau orientarea imaginii. Construcția histogramelor cu compararea lor ulterioară este folosită cel mai des, dar nu este singura modalitate de a descrie caracteristicile culorii.
TexturaMetodele unei astfel de descrieri funcționează cu compararea probelor de textură prezente în imagine și poziția relativă a acestora. Pentru a determina textura, se folosesc texeli , care sunt combinați în seturi. Acestea conțin nu numai informații care descriu textura, ci și locația acesteia în imaginea descrisă. Textura ca entitate este dificil de descris într-un mod formal și este de obicei reprezentată ca o matrice bidimensională de modificări de luminozitate . De asemenea, descrierea include uneori o măsură de contrast , direcționalitate gradient , regularitate. Există o problemă de a compara covarianța pixelilor pentru a atribui clase texturilor precum „netedă” sau „aspră”.
FormularDescrierea formei implică descrierea formei geometrice a regiunilor individuale ale imaginii. Pentru a-l determina, segmentarea sau selectarea limitelor se aplică mai întâi regiunii . Există și alte metode, cum ar fi filtrarea formularelor (Tushabe și Wilkinson, 2008). Adesea, definirea formei necesită intervenția umană, deoarece metode precum segmentarea sunt dificil de automatizat complet pentru o clasă largă de sarcini.
Există companii de software care utilizează algoritmi de căutare a imaginilor bazați pe conținut pentru a filtra conținutul web și pentru a monitoriza traficul rețelei guvernamentale pentru a urmări imaginile de conținut pornografic.
Exemple: