Caltech 101
Baza de date Caltech 101 este o bază de date mare de imagini concepută pentru dezvoltarea și testarea metodelor pentru recunoașterea modelelor și viziunea artificială . Acest set de date a fost creat în septembrie 2003 la Caltech de Fei-fei Li, Marc Aurelio Ranzato și Petro Perona. Baza de date include 9146 de imagini distribuite în 101 categorii - chipuri, ceasuri, furnici, piane și altele. Fiecare imagine este însoțită de o adnotare, precum și de un script de bibliotecă MATLAB pentru vizualizare.
Numire
Baza de date conține modele standardizate de învățare automată pentru dezvoltarea și depanarea modulelor de viziune computerizată . Pentru a îmbunătăți eficiența, este necesară o cantitate mare de date. De exemplu, metoda de recunoaștere a obiectelor în timp real propusă de Paul Viola și Michael J. Jones a fost instruită pe 4916 mostre de fețe umane cu etichete adăugate. [unu]
Pregătirea imaginii – tăierea, dimensionarea, etichetarea – necesită multă muncă manuală. În plus, fiecare dezvoltator se concentrează pe propriile sarcini și operează pe propriile date, ceea ce face necesară compararea diferitelor metode și abordări ale învățării automate. [2]
Kitul Caltech 101 este util ca alternativă pentru testarea metodelor de recunoaștere a modelelor și are următoarele avantaje:
- Imaginile au fost deja decupate și aduse la dimensiunea standard.
- Sunt prezentate multe categorii, ceea ce vă permite să testați algoritmii de recunoaștere atât a claselor individuale, cât și a clasificării.
- Descrierile obiectelor sunt deja gata.
- Disponibil pentru uz general. Caltech 101 este conceput ca un standard pentru potrivirea algoritmului.
Cu toate acestea, studii recente [3] arată că testele bazate pe mostre naturale necontrolate (cum ar fi Caltech 101) pot fi, de asemenea, serios înșelătoare, conducând dezvoltarea în direcția greșită.
Set de mostre
Imagini
Cele 9146 de imagini din baza de date sunt împărțite în 101 categorii.
Fiecare categorie are între 40 și 800 de imagini. Imaginile comune (cum ar fi fețele) au mai multe imagini decât altele.
Dimensiunea imaginii este de aproximativ 300x200 pixeli. Obiectele orientate (de ex. motociclete, avioane) sunt întotdeauna privite de la stânga la dreapta, în timp ce structurile verticale (de exemplu, case) sunt rotite pentru a fi în afara axei.
Adnotări
Fiecare imagine este însoțită de mai multe adnotări - coordonatele cadrului în care se află obiectul și o descriere detaliată.
Scriptul de bibliotecă MATLAB vă permite să încărcați o imagine și adnotarea corespunzătoare.
Aplicații
Analiză și comparație
Beneficii
Caltech 101 are următoarele beneficii:
- Dimensiuni standard și prezentare imagini:
- Aproape toate obiectele au aceeași dimensiune și aceeași poziție în imagine. Caltech 101 nu necesită tăierea sau scalarea părților imaginii.
- Interferență și interferență scăzute:
- Algoritmii sunt concentrați pe recunoașterea caracteristicilor unice ale unui obiect. Cu toate acestea, majoritatea imaginilor au niveluri diferite de zgomot în fundal, ceea ce poate introduce zgomot în algoritm.
- Adnotări detaliate
Dezavantaje
Neajunsurile bazei de date Caltech 101 [3] [4] sunt uneori atribuite distorsiunilor introduse în mod deliberat, iar uneori unui set limitat.
Următoarele sunt notate ca dezavantaje:
- Datele sunt prea curate:
- Deoarece imaginile sunt uniforme ca dimensiune, orientare și zgomot redus, setul nu este întotdeauna suficient de reprezentativ pentru scopuri practice. În realitate, imaginile tind să fie mai neclare, suprapuse și variază în dimensiune, poziție și orientare. Uniformitatea facilităților în mediile între categorii este, de asemenea, nerealistă.
- Numar limitat de categorii:
- Caltech 101 reprezintă un subset foarte mic al categoriilor posibile și practice de obiecte.
- Există prea puține mostre în unele categorii:
- Unele categorii sunt reprezentate de doar 31 de imagini, ceea ce nu este suficient de reprezentativ.
- Adică . Mai puțin de 30 de imagini nu sunt în mod clar suficiente în unele aplicații.

- Alias și diverse artefacte în procesul de manipulare a imaginilor:
- Unele imagini sunt rotite și scalate din poziția lor inițială, artefactele și aliasarea pot avea un efect negativ .
Dezvoltare
- Caltech 256 este un set de date creat în 2007. Creatorii au încercat să îmbunătățească reprezentativitatea Caltech 101. Deși acest set este mai complex, problemele sale sunt comparabile [3]
- 30.607 imagini cu mai multe categorii
- Există cel puțin 80 de imagini într-o categorie
- Imaginile nu sunt orientate de la stânga la dreapta
- Mai multe variații în prezentarea imaginii
- LabelMe este un set de date dinamic deschis creat la Massachusetts Institute of Technology Artificial Intelligence Laboratory (CSAIL). LabelMe adoptă abordări diferite și include, de asemenea, imagini cu diferite zgomote.
- 106.739 de imagini, 41.724 de imagini adnotate, 203.363 de obiecte etichetate.
- Utilizatorii pot adăuga și încărca imagini, precum și pot adăuga etichete și adnotări la mostrele existente.
- LabelMe, datorită deschiderii sale, acoperă mai multe imagini într-o gamă mai largă decât Caltech 101. Cu toate acestea, setul nu este la fel de consistent, deoarece deciziile privind adăugarea și etichetarea imaginilor sunt luate de diverși oameni, adesea aleatoriu.
- VOC 2008 este un proiect european de asamblare a imaginilor pentru evaluarea metodelor de categorizare. În comparație cu Caltech 101/256, există un număr mic de categorii (aproximativ 20). Cu toate acestea, există mai multe imagini în fiecare categorie.
- OIRDS ( Overhead Imagery Research Data Set ) este o bibliotecă de imagini și adnotări [5] . OIRDS v1.0 constă din imagini ale vehiculelor cu o adnotare plasată într-o parte suplimentară a imaginii. Sunt utilizate categorii precum mașini, camioane, camionete etc.. În plus față de descrierile tipice, OIRDS include statistici obiective și subiective, ora din zi, lumina zilei și fotografii aeriene ale locației imaginii, precum și evaluare subiectivă a interferențelor, zgomotului, claritate etc.
- ~900 de imagini, ~1800 de imagini adnotate
- ~30 de adnotări pentru fiecare obiect
- ~60 de statistici pentru fiecare obiect
- Variație largă de context
- Acoperă exclusiv vehiculele de pasageri
- MICC-Flickr 101 este un set de imagini colectate la Centrul de Integrare Media (MICC), Universitatea din Florența în 2012. Bazat pe Caltech 101 și adăugat prin Flickr . MICC-Flickr 101 [6] remediază principalele puncte slabe ale Caltech 101, în special variația de clasă, și adaugă adnotări sociale prin atribute personalizate. Conține aceleași 101 categorii și poate fi folosit pentru a compara rezultatele sarcinilor de categorizare atât pentru scenarii restricționate (Caltech 101) cât și pentru condiții realiste (MICC-Flickr 101) pe aceleași categorii.
- ImageNet este un proiect de bază de date cu multe milioane de imagini adnotate sortate în mii de categorii.
Vezi și
Note
- ↑ P. Viola și MJ Jones, Robust Real-Time Object Detection, IJCV 2004
- ↑ Oertel, C., Colder, B., Colombe, J., High, J., Ingram, M., Sallee, P., Current Challenges in Automating Visual Perception. Proceedings of IEEE Advanced Imagery Pattern Recognition Workshop 2008
- ↑ 1 2 3 De ce este dificilă recunoașterea obiectelor vizuale din lumea reală? Pinto N, Cox DD, DiCarlo JJ PLoS Computational Biology Vol. 4, nr. 1, e27 Arhivat din original pe 15 aprilie 2013. doi : 10.1371/journal.pcbi.0040027
- ↑ Probleme cu setul de date în recunoașterea obiectelor. J. Ponce, TL Berg, M. Everingham, DA Forsyth, M. Hebert, S. Lazebnik, M. Marszalek, C. Schmid, BC Russell, A. Torralba, CKI Williams, J. Zhang și A. Zisserman. Către recunoașterea obiectelor la nivel de categorie, note de curs Springer-Verlag în informatică. J. Ponce, M. Hebert, C. Schmid și A. Zisserman (eds.), 2006 (link nu este disponibil) . Data accesului: 23 decembrie 2016. Arhivat din original pe 24 decembrie 2016. (nedefinit)
- ↑ F. Tanner, B. Colder, C. Pullen, D. Heagy, C. Oertel și P. Sallee, Overhead Imagery Research Data Set (OIRDS) - o bibliotecă de date adnotate și instrumente pentru a ajuta la dezvoltarea computerului vision algorithms , iunie 2009, < http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation Arhivat 9 noiembrie 2012 la Wayback Machine > (28 decembrie 2009)
- ↑ L. Ballan, M. Bertini, A. Del Bimbo, A. M. Serain, G. Serra, B. F. Zaccone. Combinarea modelelor generative și discriminative pentru clasificarea imaginilor sociale din 101 de categorii de obiecte. Int. Conferință privind recunoașterea modelelor (ICPR), 2012. Arhivat din original pe 26 august 2014.
Surse