Stochastic Neighbor Embedding cu t-Distribution

T -distributed Stochastic Neighbor Embedding ( t-SNE) este un algoritm de învățare automată pentru  vizualizare dezvoltat de Laurens van der Maaten și Geoffrey Hinton [1] . Este o tehnică de reducere a dimensionalității neliniare , potrivită pentru încorporarea datelor cu dimensiuni mari pentru vizualizare în spațiu cu dimensiuni reduse (2D sau 3D) În special, metoda modelează fiecare obiect de dimensiuni înalte cu un punct bidimensional sau tridimensional astfel încât obiectele similare să fie modelate prin puncte strâns distanțate, iar punctele diferite sunt modelate cu o mare probabilitate prin puncte aflate la distanță unul de celălalt.

Descriere

Algoritmul t-SNE constă din doi pași principali. În primul rând, t-SNE creează o distribuție de probabilitate pe perechi de caracteristici cu dimensiuni mari, astfel încât caracteristicile similare sunt foarte probabil să fie selectate, în timp ce punctele diferite este puțin probabil să fie selectate. Apoi t-SNE determină o distribuție de probabilitate similară peste puncte dintr-un spațiu de dimensiuni reduse și minimizează distanța Kullback-Leibler dintre cele două distribuții, ținând cont de poziția punctelor. Rețineți că algoritmul original folosește distanța euclidiană dintre obiecte ca bază pentru măsurarea similarității, aceasta putând fi modificată după caz.

Algoritmul t-SNE a fost folosit pentru a vizualiza o gamă largă de aplicații, inclusiv cercetarea securității computerelor [2] , analiza muzicii [3] , cercetarea cancerului [4] , bioinformatica [5] și procesarea semnalelor biomedicale [6] . Algoritmul este adesea folosit pentru a vizualiza reprezentări de nivel înalt obținute dintr- o rețea neuronală artificială [7] .

Deoarece afișajele t-SNE sunt adesea folosite pentru a afișa clustere , iar alegerea parametrizării poate afecta în mod semnificativ vizualizarea clusterelor, este necesară capacitatea de a lucra cu parametrii algoritmului t-SNE. Studiile interactive [ termen necunoscut ] [8] [9] pot fi necesare pentru a selecta parametrii și a valida rezultatele . S-a demonstrat că algoritmul t-SNE este adesea capabil să detecteze clustere care sunt bine separate unul de celălalt și, cu o alegere specială de parametri, aproximează o formă simplă de clustering spectral [10] .

Detalii

Având în vedere un set de caracteristici dimensionale înalte, t-SNE calculează mai întâi probabilitățile , care sunt proporționale cu similaritatea caracteristicilor și după cum urmează:

Van der Maaten și Hinton au explicat: „Asemănarea unui punct de date cu un punct este probabilitatea condiționată ca for să fie aleasă ca punct vecin, dacă vecinii sunt aleși proporțional cu densitatea lor de probabilitate Gauss centrată pe ” [1] .

Mai mult, probabilitățile c sunt luate egale cu zero:

Lățimea de bandă a nucleelor ​​gaussiene este setată folosind metoda bisecției astfel încât perplexitatea a distribuției condiționate să fie egală cu perplexitatea predefinită. Ca urmare, lățimea de bandă este adaptată la densitatea datelor - valori mai mici sunt utilizate în părțile mai dense ale spațiului de date.

Deoarece nucleul gaussian folosește distanța euclidiană , este supus blestemului dimensionalității și în datele de dimensiuni mari, atunci când distanțele devin indistincte, ele devin prea asemănătoare (asimptotic, converg către o constantă). Se propune ajustarea distanței folosind o transformare exponențială bazată pe dimensiunea internă fiecărui punct pentru a atenua problema [11] .

Algoritmul t-SNE caută să obțină o mapare în spațiu (s ) dimensional care reflectă pe cât posibil asemănări. Pentru a face acest lucru, algoritmul măsoară similitudinea dintre două puncte și utilizând o abordare foarte similară. Mai exact, este definit ca

Aici, o distribuție t a lui Student cu coadă ponderată (cu un grad de libertate, care este același cu distribuția Cauchy ) este utilizată pentru a măsura asemănarea dintre punctele din spațiul de dimensiuni reduse pentru a putea plasa obiecte diferite la distanță. pe hartă. Rețineți că și în acest caz am setat

Locația punctelor în spațiul de dimensiuni reduse este determinată prin minimizarea distanței Kullback-Leibler (asimetrice) a distribuției față de distribuție , i.e.

Minimizarea distanței Kullback-Leibler în raport cu punctele se face utilizând coborârea în gradient . Rezultatul optimizării este o mapare care reflectă asemănarea dintre obiecte dintr-un spațiu cu dimensiuni mari.

Software

Note

  1. 12 van der Maaten , Hinton, 2008 , p. 2579–2605.
  2. Gashi, Stankovic, Leita, Thonnard, 2009 , p. 4–11.
  3. Hamel, Eck, 2010 , p. 339–344.
  4. Jamieson, Giger, Drukker, Lui, Yuan, Bhooshan, 2010 , p. 339–35.
  5. Wallach, Liliian, 2009 , p. 615–620.
  6. Birjandtalab, Pouyan și Nourani, 2016 , p. 595–598.
  7. Blogul lui Olah, 2015 .
  8. Pezzotti, Lelieveldt, van der Maaten et al., 2017 , p. 1739–1752
  9. ^ Wattenberg , Viégas, Johnson, 2016 .
  10. Linderman, Steinerberger, 2017 .
  11. Schubert, Gertz, 2017 , p. 188–203.

Literatură

Link -uri