Reducerea dimensionalității

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 30 noiembrie 2021; verificările necesită 2 modificări .

În statistică , învățare automată și teoria informațiilor, reducerea dimensionalității  este o transformare a datelor care constă în reducerea numărului de variabile prin obținerea variabilelor principale [1] . Transformarea poate fi împărțită în selecția caracteristicilor și extragerea caracteristicilor [2] .

Selectarea caracteristicilor

Metoda de selecție a caracteristicilor încearcă să găsească un subset al variabilelor originale (numite caracteristici sau atribute). Există trei strategii - strategia de filtrare (de exemplu, acumularea de caracteristici ), strategia de împachetare (de exemplu, căutarea în funcție de acuratețe) și strategia de imbricare (funcțiile sunt selectate pentru a fi adăugate sau eliminate pe măsură ce modelul este construit bazate pe erori de predicție). Vezi și probleme de optimizare combinatorie .

În unele cazuri , analiza datelor , cum ar fi regresia sau clasificarea , poate fi efectuată în spațiul redus cu mai multă acuratețe decât în ​​spațiul original [3] .

Proiecția semnelor

Proiecția caracteristicilor transformă datele din spațiu cu dimensiuni mari în spațiu cu dimensiuni reduse. Transformarea datelor poate fi liniară, ca în PCA , dar există un număr mare de tehnici de reducere a dimensionalității neliniare [4] [5] . Pentru datele multidimensionale, o reprezentare tensorală poate fi utilizată pentru a reduce dimensionalitatea prin învățarea subspațială multiliniară [6] .

Metoda componentelor principale (PCA)

Tehnica liniară principală pentru reducerea dimensionalității, analiza componentelor principale, realizează o mapare liniară a datelor într-un spațiu de dimensionalitate inferioară, astfel încât varianța datelor în reprezentarea de dimensiuni joase este maximizată. În practică, se construiește o matrice de covarianță (și uneori corelație ) a datelor și se calculează vectorii proprii ai acestei matrice . Vectorii proprii corespunzători celor mai mari valori proprii (componentele principale) pot fi acum utilizați pentru a recupera cea mai mare parte a variației datelor originale. Mai mult decât atât, primii câțiva vectori proprii pot fi adesea interpretați în termeni de comportament fizic la scară largă al sistemului. Spațiul original (cu o dimensiune egală cu numărul de puncte) este redus (cu pierdere de date, dar cu speranța că variația cea mai importantă rămâne) la un spațiu acoperit de mai mulți vectori proprii.

Expansiunea matricei non-negative (NMP)

Descompunerea matricei nenegative descompune o matrice nenegativă în produsul a două matrici nenegative, care au mijloace promițătoare în domenii în care există doar semnale nenegative [7] [8] , cum ar fi astronomia [9] [10 ] ] . Descompunerea matricei nenegative este bine cunoscută datorită regulii de actualizare multiplicativă a lui  Lee și Seung [7] , care a  fost dezvoltată continuu: includerea incertitudinilor [9] , luarea în considerare a  ) și calculul paralel [11] , secvenţial construcție [11] , ceea ce duce la stabilitatea și liniaritatea HMP [10] , precum și la alte ajustări . 

Cu o bază de componente stabilă în timpul construcției și un proces de modelare liniară, o descompunere secvenţială a matricei nenegative ( de exemplu NMF  secvenţial ) [11] este capabilă să păstreze fluxul structurilor circumstelare de observare directă (adică observate direct, și nu prin dovezi indirecte) în astronomie [10] , ca una dintre metodele de detectare a exoplanetelor , în special pentru observarea directă a discurilor circumstelare . Comparativ cu PCA, descompunerea matricei nenegative nu înlătură media matricelor, a căror eliminare duce la fluxuri non-fizice nenegative, deoarece RMN este capabilă să salveze mai multe informații decât analiza componentelor principale, ceea ce a fost demonstrat de Ren et. al . [10] .

Metoda componentei principale nucleare (NPC)

Analiza componentelor principale poate fi aplicată într-un alt mod folosind trucul nucleului . Tehnica rezultată este capabilă să construiască mapări neliniare care maximizează varianța datelor. Această tehnică este numită metoda componentei principale a nucleului .

MGK nuclear bazat pe grafic

Alte tehnici neliniare promițătoare sunt tehnici multiple de învățare , cum ar fi Isomap , încorporarea local liniară (LLE), încorporarea local liniară folosind Hessian ( eng.  Hessian LLE ), metoda eigenmap valorile laplaciane ( Laplacian Eigenmaps )  și metoda de aliniere locală a spațiului tangent ( local tangent space alignment , LTSA) . Aceste tehnici construiesc o reprezentare cu dimensiuni reduse a datelor folosind o funcție de cost care păstrează proprietățile locale ale datelor și care poate fi considerată ca definind un nucleu bazat pe grafice pentru nucleul PCA.  

Recent, au fost propuse tehnici care, în loc să definească un nucleu fix, încearcă să învețe nucleul folosind programarea semidefinită . Cel mai semnificativ exemplu al unei astfel de tehnici este Maximum Residual Sweep (RMS). Ideea centrală a RMN este tocmai aceea de a păstra toate distanțele perechi dintre cei mai apropiați vecini (în spațiu de produs punctual) în timp ce maximizează distanțele dintre punctele care nu sunt cele mai apropiate vecine.

O abordare alternativă pentru conservarea vecinătății este de a minimiza funcția de cost, care măsoară distanțele în spațiile de intrare și de ieșire. Exemple importante de astfel de tehnici sunt: ​​scalarea multidimensională clasică , care este identică cu PCA; Isomap , care utilizează distanțe geodezice în spațiul de date; metoda hărții de difuzie , care utilizează distanțe de difuzie în spațiul de date; încorporarea vecinului stocastic t -distribuit , t-SNE, care minimizează diferența dintre perechile de puncte, UMAP (Uniform Approximation and Projection), care minimizează divergența Kullback-Leibler între mulțimi în spații de dimensiuni înalte și joase [12] și analiza componentelor neliniare ( Curvilinear Component Analysis , CCA ) .  

O altă abordare a reducerii dimensionalității neliniare este prin utilizarea autoencoderilor , un tip special de rețele feed-forward cu un strat ascuns în formă de sticlă ( gât de sticlă) [13] . Antrenarea codificatoarelor profunde se face de obicei folosind o pregătire preliminară stratificată lacomă (de exemplu, folosind o cascadă de mașini Boltzmann constrânse ), urmată de un pas de reglare fină bazată pe propagarea inversă .  

Analiza discriminantă liniară (LDA)

Analiza discriminantă liniară (LDA) este o generalizare a discriminantului liniar al lui Fisher, o tehnică utilizată în statistică, recunoaștere a modelelor și învățarea automată pentru a găsi o combinație liniară de caracteristici care descriu sau separă două sau mai multe clase de obiecte sau evenimente.

Analiza discriminantă generalizată (GDA)

Analiza discriminantă generalizată se ocupă de analiza discriminantă neliniară folosind operatorul funcției nucleu .  Teoria de bază este apropiată de mașina vectorului suport (SVM), deoarece metoda SVM oferă o mapare a vectorilor de intrare într-un spațiu caracteristic de înaltă dimensiune [14] [15] . Similar cu LDA, scopul ODA este de a căuta proiecția caracteristicilor într-un spațiu de dimensiune inferioară cu maximizarea raportului dintre invarianța interclasă ( ing. împrăștiere între clase ) și invarianța intraclasă ( ing. împrăștiere în cadrul clasei ) .   

Autoencoder

Autoencoderul poate fi folosit pentru a învăța funcțiile de codare și reducere a dimensionalității neliniare împreună cu funcția inversă de la reprezentarea codificată la reprezentarea originală.

Reducerea dimensiunii

Pentru seturile de date cu dimensiuni mari (adică cu mai mult de 10 dimensiuni), reducerea dimensionalității este de obicei efectuată înainte de aplicarea algoritmului k - nearest neighbors ( k-NN) pentru a evita blestemul dimensionalității [16] .  

Extragerea caracteristicilor și reducerea dimensionalității pot fi combinate într-un singur pas utilizând analiza componentelor principale (PCA) , analiza discriminantă liniară (LDA), analiza corelației canonice (CCA) sau descompunerea matricei nenegative (RMN) ca pas preliminar, urmată de gruparea cu K-NN pe vectorul caracteristic în spațiul de dimensiuni reduse. În învățarea automată , acest proces este numit și imbricare de dimensiuni reduse [17] .

Pentru orice seturi de date cu dimensiuni mari (de exemplu, când se caută similitudini într-un flux video, date ADN sau o serie temporală cu dimensiuni mari), folosind căutarea K-NN aproximativă rapidă folosind hashing sensibil la localitate , proiecție aleatorie [18] , „schițe” [19] (de exemplu, schiță tensorală ) sau alte tehnici de căutare a similitudinii de dimensiuni mari din arsenalul bazelor de date foarte mari[ clarifica ] poate fi singura opțiune posibilă.

Beneficiile reducerii dimensionalității

  1. Reduce timpul necesar și memoria.
  2. Eliminarea multicolinearității îmbunătățește viteza unui model de învățare automată.
  3. Este mai ușor să reprezentați vizual datele atunci când sunt reduse la dimensiuni foarte mici, cum ar fi 2D sau 3D.

Aplicații

O tehnică de reducere a dimensionalității folosită uneori în neuroștiințe este dimensiunile informative maxime . Tehnica găsește reprezentări cu dimensiuni reduse ale unui set de date care rețin cât mai multe informații despre datele originale.

Vezi și

Note

  1. Roweis, Saul, 2000 .
  2. Pudil, Novovičová, 1998 , p. 101.
  3. Rico-Sulayes, 2017 , p. 26-35.
  4. Samet, 2006 .
  5. Ding, He, Zha, Simon, 2002 .
  6. Lu, Plataniotis, Venetsanopoulos, 2011 , p. 1540–1551
  7. 1 2 Lee, Seung, 1999 , p. 788-791.
  8. Lee, Seung, 2001 , p. 556-562.
  9. 1 2 Blanton, Roweis, 2007 , p. 134.
  10. 1 2 3 4 Ren, Pueyo, Zhu, Duchêne, 2018 , p. 104.
  11. 1 2 3 Zhu, Guangtun B. (2016-12-19), Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data, arΧiv : 1612.06037 [astro-ph.IM]. 
  12. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction  ( 7 decembrie 2018). Preluat la 26 august 2019. Arhivat din original la 3 noiembrie 2019.
  13. Hu, Zahorian, 2010 .
  14. Baudat, Anouar, 2000 , p. 2385–2404.
  15. Haghighat, Zonouz, Abdel-Mottaleb, 2015 , p. 7905–7916.
  16. Beyer, Goldstein, Ramakrishnan, Shaft, 1999 , p. 217–235.
  17. Shaw, Jebara, 2009 , p. unu.
  18. Bingham, Mannila, 2001 , p. 245.
  19. Shasha, 2004 .

Literatură

Link -uri