MNIST (bază de date)

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 14 ianuarie 2019; verificările necesită 9 modificări .

Baza de date MNIST (prescurtare pentru Institutul Național de Standarde și Tehnologie Modificat ) este o bază de date mare de mostre numerice scrise de mână. Baza de date este un standard propus de Institutul Național de Standarde și Tehnologie din SUA cu scopul de a calibra și compara metodele de recunoaștere a imaginilor folosind învățarea automată bazată în principal pe rețele neuronale [1] [2] . Datele constau în imagini de exemplu pregătite în prealabil, pe baza cărora se realizează instruirea și testarea sistemelor [3] [4] . Baza de date a fost creată după reluarea setului de mostre alb-negru NIST original de 20x20 pixeli . Creatorii bazei de date NIST au folosit, la rândul lor, un set de mostre de la US Census Bureau , la care s-au adăugat mai multe mostre de test scrise de studenții universităților americane [5] . Eșantioanele din setul NIST au fost normalizate, anti- alias și reduse la o imagine în tonuri de gri de 28x28 pixeli [5] .

Baza de date MNIST conține 60.000 de imagini pentru antrenament și 10.000 de imagini pentru testare [6] . Jumătate dintre eșantioanele de instruire și testare au fost din trusa de antrenament NIST, iar cealaltă jumătate au fost din trusa de testare NIST [7] .

Au existat numeroase încercări de a obține o eroare minimă după antrenament pe baza de date MNIST și au fost discutate în literatura științifică. Rezultate record au fost indicate în publicațiile despre utilizarea rețelelor neuronale convoluționale , rata de eroare a fost adusă la 0,23% [8] . Creatorii bazei de date înșiși au furnizat mai multe metode de testare [5] . Lucrarea originală indică faptul că utilizarea mașinii vector de suport poate atinge un nivel de eroare de 0,8% [9] .

Calitatea rezultatului și dezvoltarea abordărilor

În unele lucrări, se notează rezultate ridicate pentru sistemele construite pe ansambluri de mai multe rețele neuronale; în același timp, calitatea recunoașterii cifrelor pentru baza MNIST se dovedește a fi comparabilă cu nivelul unei persoane, iar pentru alte sarcini de recunoaștere, în special, pentru semnele rutiere, este chiar de două ori mai bună [8] .

Pe paginile originale ale creatorilor [5] , se notează erori de 12% atunci când se folosesc clasificatoare liniare simple fără preprocesare [9] .

În 2004, sistemul LIRA folosind perceptronul cu trei straturi Rosenblatt a atins o rată de eroare de 0,42% [10] .

A fost realizat un studiu privind învățarea conform sistemului MNIST folosind distorsiuni aleatorii. Transformările afine sau elastice au fost introduse ca distorsiuni [5] . Uneori, astfel de sisteme au obținut performanțe bune, în special, există publicații despre rata de eroare de 0,39% [11] .

În 2011, s-a atins o rată de eroare de 0,27% folosind rețelele neuronale [12] . În 2013, au apărut publicații despre realizarea unei erori de 0,21% folosind regularizarea rețelei neuronale (prin întreruperi de conexiune DropConnect ) [13] .

Mai târziu, utilizarea unei singure rețele neuronale convoluționale a făcut posibilă îmbunătățirea calității la un nivel de eroare de 0,31% [14] . Cel mai bun rezultat pe o singură rețea neuronală convoluțională a fost arătat de sistemul obținut după 74 de epoci de antrenament - 0,27% [15] . Cu toate acestea, un ansamblu de cinci rețele neuronale convoluționale a făcut posibilă atingerea unei rate de eroare de 0,21% [16] [17] . În 2018, cercetătorii care utilizează Random Multimodel Deep Learning (RMDL) au raportat o eroare de 0,18 la sută, îmbunătățind cel mai bun rezultat anterior: un nou ansamblu, metodă de învățare profundă pentru clasificare [18] .

Comparația sistemelor

Tabelul conține exemple de rezultate ale învățării automate în diferite sisteme de clasificare a imaginilor: [19]

Tip de Structura deformare Prelucrare preliminară Eroare (%)
Clasificator liniar Perceptron de un singur nivel Nu Nu 12 [8]
Clasificator liniar Clasificator liniar pe perechi Nu aliniere 7,6 [9]
k metoda vecinului apropiat K-NN cu deformare neliniară (P2DHMDM) Nu margini deplasabile 0,52 [20]
creșterea gradientului Procesarea reziduurilor bazată pe caracteristicile Haar Nu Semne de Haar 0,87 [21]
Clasificator neliniar 40 PCA + clasificator patratic Nu Nu 3.3 [9]
Suport mașină vectorială Virtual Support Vector System , poli deg-9, tremură de 2 pixeli Nu aliniere 0,56 [22]
Retea neurala Rețea pe 2 niveluri 784-800-10 Nu Nu 1.6 [23]
Retea neurala Rețea pe 2 niveluri 784-800-10 Deformatii elastice Nu 0,7 [23]
Rețeaua neuronală profundă Rețea cu 6 straturi 784-2500-2000-1500-1000-500-10 Deformatii elastice Nu 0,35 [24]
Rețeaua neuronală convoluțională Rețea cu 6 straturi 784-40-80-500-1000-2000-10 Nu Extensie de date pentru instruire 0,31 [14]
Rețeaua neuronală convoluțională Rețea cu 6 straturi 784-50-100-500-1000-10-10 Nu Extensie de date pentru instruire 0,27 [15]
Rețeaua neuronală convoluțională Ansamblu de 35 de rețele CNN, 1-20-P-40-P-150-10 Deformatii elastice Cu normalizarea 0,23 [8]
Rețeaua neuronală convoluțională Ansamblu de 5 rețele CNN, 6 nivele 784-50-100-500-1000-10-10 Nu Extensie de date pentru instruire 0,21 [16]
Învățare profundă aleatorie cu mai multe modele (RMDL) 30 de modele aleatoare de învățare profundă (RDL) (10 CNN, 10 RNN și 10 DNN) Nu Nu 0,18 [18]

Vezi și

Note

  1. Sprijină mașinile vectoriale viteza de recunoaștere a modelelor - Vision Systems Design . Proiectare sisteme de vedere . Preluat: 17 august 2013.
  2. Gangaputra, Sachin Baza de date cu cifre scrise de mână . Preluat: 17 august 2013.
  3. ^ Qiao, Yu THE MNIST DATABASE of handwritten digits (2007). Preluat: 18 august 2013.
  4. Platt, John C. Folosirea QP analitic și rară raritate pentru a accelera antrenamentul mașinilor vector suport  //  Advances in Neural Information Processing Systems : journal. - 1999. - P. 557-563 . Arhivat din original pe 4 martie 2016.
  5. 1 2 3 4 5 LeCun, Yann MNIST baza de date cu cifre scrise de mână, Yann LeCun, Corinna Cortes și Chris Burges . Preluat: 17 august 2013.
  6. Kussul, Ernst; Tatiana Baidyk. Metodă îmbunătățită de recunoaștere a cifrelor scrise de mână testată pe baza de date MNIST  //  Image and Vision Computing: journal. - 2004. - Vol. 22 , nr. 12 . - P. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 .
  7. Zhang, Bin; Sargur N. Srihari. Rapid k -Clasificarea celui mai apropiat vecin folosind arbori bazați pe cluster  //  Tranzacții IEEE privind analiza modelelor și inteligența mașinii : jurnal. - 2004. - Vol. 26 , nr. 4 . - P. 525-528 . - doi : 10.1109/TPAMI.2004.1265868 . — PMID 15382657 .
  8. 1 2 3 4 Cires¸an, Dan; Ueli Meier; Jurgen Schmidhuber. Rețele neuronale profunde cu mai multe coloane pentru clasificarea imaginilor  //  2012 IEEE Conference on Computer Vision and Pattern Recognition : jurnal. - 2012. - P. 3642-3649 . — ISBN 978-1-4673-1228-8 . - doi : 10.1109/CVPR.2012.6248110 . - arXiv : 1202.2745 .
  9. 1 2 3 4 LeCun, Yann; Leon Bottou; Yoshua Bengio; Patrick Haffner. Învățare bazată pe gradient aplicată recunoașterii documentelor  //  Proceedings of the IEEE 86 : journal. - 1998. - Vol. 86 , nr. 11 . - P. 2278-2324 . - doi : 10.1109/5.726791 .
  10. Kussul, Ernst; Tatiana Baidyk. Metodă îmbunătățită de recunoaștere a cifrelor scrise de mână testată pe baza de date MNIST  //  Image and Vision Computing: journal. - 2004. - Vol. 22 . - P. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 . Arhivat din original pe 21 septembrie 2013.
  11. Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun. Învățare eficientă a reprezentărilor rare cu un model bazat pe energie  //  Progrese în sistemele de procesare a informațiilor neuronale : jurnal. - 2006. - Vol. 19 . - P. 1137-1144 .
  12. Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jurgen Schmidhuber. Comitete de rețele neuronale convoluționale pentru clasificarea caracterelor scrise de mână  (engleză)  // 2011 International Conference on Document Analysis and Recognition (ICDAR) : jurnal. - 2011. - P. 1135-1139 . - doi : 10.1109/ICDAR.2011.229 . Arhivat din original pe 22 februarie 2016.
  13. Wang, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularizarea rețelei neuronale folosind DropConnect . Conferința internațională privind învățarea automată (ICML).
  14. 1 2 Romanuke, Vadim Cea mai bună performanță a rețelei neuronale convoluționale unice din 18 epoci pe baza datelor de antrenament extinse la Parallel Computing Center, Khmelnitskiy, Ucraina . Data accesului: 16 noiembrie 2016.
  15. 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ucraina) oferă o singură rețea neuronală convoluțională care funcționează pe MNIST la o rată de eroare de 0,27%. . Data accesului: 24 noiembrie 2016.
  16. 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ucraina) reprezintă un ansamblu de 5 rețele neuronale convoluționale care funcționează pe MNIST cu o rată de eroare de 0,21%. . Data accesului: 24 noiembrie 2016.
  17. Romanuke, Vadim. Extinderea datelor de instruire și creșterea rețelelor neuronale convoluționale pentru reducerea ratei de eroare a setului de date MNIST  //  Buletinul de cercetare al NTUU „Institutul Politehnic Kyiv” : jurnal. - 2016. - Vol. 6 . - P. 29-34 . - doi : 10.20535/1810-0546.2016.6.84115 .
  18. 1 2 Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. RMDL: Random Multimodel Deep Learning for Classification (3 mai 2018). Preluat: 10 mai 2018.
  19. Le Cunn, BAZA DE DATE MNIST a cifrelor scrise de mână
  20. Keysers, Daniel; Thomas Deselaers; Christian Golan; Hermann Ney. Modele de deformare pentru recunoașterea imaginii  (nedefinită)  // EEE Transactions on Pattern Analysis and Machine Intelligence. - 2007. - august ( vol. 29 , nr. 8 ). - S. 1422-1435 .
  21. Kégl, Balázs; Robert Busa-Fekete. Îmbunătățirea produselor clasificatoarelor de bază  (nedefinită)  // Proceedings of the 26th Annual International Conference on Machine Learning. - 2009. - S. 497-504 .
  22. DeCoste și Scholkopf, MLJ 2002
  23. 1 2 Patrice Y. Simard; Dave Steinkraus; John C. Platt. Cele mai bune practici pentru rețelele neuronale convoluționale aplicate analizei vizuale a documentelor  //  Document Analysis and Recognition, 2003. Proceedings. A șaptea Conferință Internațională pe : jurnal. - IEEE, 2003. - doi : 10.1109/ICDAR.2003.1227801 .
  24. Ciresan, Claudiu Dan; Dan, Ueli Meier, Luca Maria Gambardella și Juergen Schmidhuber. Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition  //  Neural Computation : journal. - 2010. - Decembrie ( vol. 22 , nr. 12 ). - doi : 10.1162/NECO_a_00052 . - arXiv : 1003.0358 .

Literatură

Link -uri