Baza de date ImageNet este un proiect de creare și întreținere a unei baze de date masive de imagini adnotate, concepută pentru a dezvolta și testa metode de recunoaștere a imaginilor și viziune automată . Începând cu 2016, în baza de date au fost înregistrate aproximativ zece milioane de URL-uri cu imagini, care au fost adnotate manual pentru ImageNet, adnotările enumerau obiectele care au căzut pe imagine și dreptunghiurile cu coordonatele lor. [1] O bază de date cu imagini adnotate și URL de la terți este disponibilă direct prin ImageNet, dar imaginile în sine nu sunt deținute de proiect [2] . Din 2010, este în derulare proiectul ILSVRC ( ImageNet Large Scale Visual Recognition Challenge ) , în care diverse produse software concurează anual în clasificarea și recunoașterea obiectelor și scenelor din baza de date ImageNet.
ImageNet folosește crowdsourcing pentru adnotarea imaginilor.
Adnotările la nivelul imaginilor în sine arată prezența sau absența unui obiect din această clasă (de exemplu, „există un tigru în imagine” sau „nu există tigri în imagine”). La nivel de obiect, adnotarea include un dreptunghi cu coordonatele părții vizibile a obiectului. ImageNet folosește o variantă a rețelei semantice WordNet pentru a clasifica obiectele, care este destul de detaliată, de exemplu, rasele de câini sunt reprezentate de 120 de clase. Fiecare nod WordNet are asociate sute sau mii de imagini, dar media pentru 2016 este de aproximativ 500 de imagini [3] .
În august 2017, ImageNet are 14.197.122 de imagini împărțite în 21.841 de categorii.
Din 2010, în cadrul proiectului ILSVRC, au fost organizate concursuri între grupuri de cercetare în clasificarea obiectelor. ILSVCR a fost inspirat de mica campanie PASCAL VOC din 2005, care a avut un set de 20.000 de imagini și 20 de clase de caracteristici [3] . Progrese semnificative în recunoașterea modelelor au fost înregistrate în 2010. În 2011, o eroare de clasificare de 25% a fost considerată un rezultat bun. În 2012, un sistem de învățare profundă bazat pe o rețea neuronală convoluțională a reușit să obțină o eroare de 16%; iar în anii următori eroarea a scăzut la câteva procente [4] . În 2015, cercetătorii au afirmat că programele din anumite sarcini ale proiectului ILSVRC au depășit abilitățile umane [5] . Totuși, după cum a subliniat Olga Russakovskaya, unul dintre organizatorii campaniei, programele încă mai trebuie să determine obiecte pentru una dintre cele o mie de categorii, iar oamenii pot recunoaște mai multe categorii și (spre deosebire de programe) pot indica și contextul imaginilor [6]. ] .
În 2014, peste 50 de organizații s-au alăturat campaniei [3] . În 2015, cercetătorii din proiectul Baidu au fost suspendați timp de un an pentru că au intrat în proiect sub mai multe denumiri diferite pentru a ocoli limita de două săptămâni [7] [8] . Mai târziu, Baidu a declarat că liderul echipei a fost concediat și că va fi adunat un grup special de consiliere științifică [9] .