Găsirea celei mai bune proiecții

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 26 februarie 2017; verificările necesită 12 modificări .

Căutarea celei mai bune proiecţii ( ing. Projection Pursuit ) este o metodă statistică care constă în găsirea unei astfel de proiecţii de date multidimensionale pentru care o funcţie de calitate a proiecţiei atinge maximul .

Domeniul de aplicare

Deși oamenii sunt buni la perceperea vizuală a informațiilor, ei sunt capabili să analizeze doar imagini de dimensiuni mici . Când se analizează date multidimensionale, percepția imaginii nu funcționează atât de bine. Această problemă este rezolvată prin luarea în considerare a proiecțiilor de date de dimensiunea doi sau trei. Pentru a vizualiza proiecțiile datelor, sunt utilizate tehnicile obișnuite: diagrame de dispersie , histograme , diagrame cu case și așa mai departe.

Ideea metodei

Este necesar să decideți care proiecție va fi cea mai „interesantă”. Una dintre abordările de automatizare a selecției celei mai „interesante” proiecție se bazează pe următoarele considerații (pentru claritate, vom lua în considerare proiecția pe o linie dreaptă). Vom considera proiecția datelor „neinteresantă” dacă histograma are o densitate de distribuție normală , ca în Figura 1.

Proiecțiile cu o distribuție cu două vârfuri, ca în Figura 2, vor fi considerate „interesante”.

Considerăm că distribuția bimodală (bimodală) este mai interesantă, deoarece indică posibila prezență a două clustere în date.

Indicele de proiecție

Pentru a automatiza căutarea celei mai „interesante” proiecție, se folosește o funcție de calitate special selectată, care este adesea numită index. Cea mai bună proiecție este cea pentru care funcția de calitate este maximă. Căutarea unei proiecții de date multidimensionale bazată pe maximizarea unei anumite funcții a calității proiecției se numește căutarea celei mai bune proiecții (Projection Pursuit). Alegerea indexului determină cât de util va fi rezultatul. Să descriem câteva variante ale funcției de calitate a proiecției.

Căutați o proiecție unidimensională

Să introducem notația. Fie vector aleator -dimensional , atunci vom presupune că vectorul este centrat, adică . $X$ $p$ $E(X)=0$

Notă vector numeric - -dimensional, găsirea acestui vector este problema găsirii celei mai bune proiecții, care va arăta ca . $A$ $p$ $a^{T}X$

În acest caz, matricea de date are dimensiunea , vectorul este matricea de date. $p\times 1$ $X$

Apoi indicele este definit ca varianța combinației liniare , cu o condiție suplimentară de normalizare . $I(a)$ $a^{T}X$ $a^{T}a=1$

Indici comuni de proiecție

Abordarea lui Friedman și Tukey

Jerome Friedman și John Tukey (1974) au măsurat cât de „interesantă” este o distribuție multivariată analizând indicele $X$

$I_{FT,\;h}(a)=n^{-1}\sum _{j=1}^{n}{\hat {f))_{h,\;a}^{ 2}(a^{T}X_{i})$ ,

unde denotă estimarea densității nucleului obținută din datele proiectate, ${\hat {f}}_{h,\;a}$

${\hat {f}}_{h,\;a}(z)=n^{-1}\sum _{j=1}^{n}K_{h}(za^{T} X_{j})$ .

Dacă o variabilă aleatoare multivariată are o distribuție normală, atunci fiecare proiecție are o distribuție normală standard, atâta timp cât și centrată. Modificările relative indică abateri de la normalitate. $X$ $z=a^{T}X$ $\|a\|=1$ $X$ $I_{FT,\;h}(a)$ $A$

Abordarea lui Hodges și Lehman

Indicele de proiecție este definit ca , unde este densitatea de distribuție a unei variabile aleatoare multivariate , care este o matrice de date. Foarte des, densitatea nu poate fi calculată în mod explicit sau este mult mai convenabil să folosiți estimarea acesteia în locul densității. $\int (f')^{2}$ $f$ $X$

Hodges și Lehman (1956) au arătat că dacăși, atunci minimul esteatins la densitatea Epanechnikov, care are forma, undeși. Aceasta este o funcție de densitate parabolică care este zero în afara intervalului. Astfel, atunci când se folosește un astfel de indice, densitatea Epanechnikov va fi cea mai puțin interesantă. O valoare mare a indicelui indică o abatere mare de la forma parabolică. $E(X)=0$ $D(X)=1$ $\int (f')^{2}$ $f(z)=\max {\{0,\;c(b^{2}-z^{2})\))$ $c={\frac {3}{20{\sqrt {5}}}}$ $b={\sqrt {5}}$ $(-{\sqrt {5)),\;{\sqrt {5)})$

Indicele alternativ Hodges-Lehman se bazează pe maximizarea entropiei , adică . $\int (-f\log f)$

Dacă și , atunci minimul indicelui este atins la densitatea normală standard. Această proprietate este avantajul indexului, comparativ cu versiunea anterioară. $E(X)=0$ $D(X)=1$ $\int (f\log f)$

Într-adevăr, pare intuitiv că distribuția normală este „mai puțin interesantă” decât distribuția Epanechnikov. Astfel, folosind indicele , măsurăm abaterea distribuției de la normal. $\int (f\log f)$

Abordarea lui Fisher

Ca un alt indice, putem considera informațiile Fisher , . $\int (f')^{2}/f$

La calcularea indicelui de entropie, întâmpinăm dificultăți de calcul mari, care necesită mult timp pentru finalizare, ceea ce, desigur, nu este foarte convenabil.

Abordarea lui Jones și Sibson

Jones și Sibson (1987) au propus să considere abaterile de la densitatea normală ca , unde funcția îndeplinește condițiile $f(x)=\varphi (x)\{1+\varepsilon (x)\)$ $\varepsilon$

$\int \varphi (u)\varepsilon (u)u^{-r}du=0$ , la $r=0,\;1,\;2.$

Pentru a simplifica calculul indicelui Jones-Sibson, este convenabil să se treacă la cumulanți , . $\kappa _{3}=\mu _{3}=E(X^{3})$ $\kappa _{4}=\mu _{4}=E(X^{4})-3$

Deoarece densitatea normală standard satisface condiția , indicele trebuie să includă cel puțin informații până la nivelul abaterilor simetrice ( sau non-zero) de la normalitate. Cel mai simplu dintre acești indici este forma pătratică definită pozitivă a și . În acest caz, ar trebui să existe invarianță la schimbarea semnului datelor, începând cu și , ar trebui să obținem același tip de abatere de la normalitate. Rețineți că este ciudat, adică . Și - în mod egal, adică . Forma pătratică a lui și , care măsoară abaterea de la normalitate, nu include un coeficient mixt . $\kappa _{3}=\kappa _{4}=0$ $\kappa_{3}$ $\kappa _{4)$ $\kappa_{3}$ $\kappa _{4)$ $a^{T}X$ $-a^{T}X$ $\kappa_{3}$ $\kappa _{3}(a^{T}X)=-\kappa _{3}(-a^{T}X)$ $\kappa _{4)$ $\kappa _{4}(a^{T}X)=\kappa _{4}(-a^{T}X)$ $\kappa_{3}$ $\kappa _{4)$ $\kappa _{3}\kappa _{4)$

Prin urmare, indicele propus de Jones și Sibson este

$I_{JS}(a)=\{\kappa _{3}^{2}(a^{T}X)+\kappa _{4}^{2}(a^{T}X) /4\}/12$ .

Acest indice măsoară de fapt diferența . $\int f\log f-\int \varphi \log \varphi$

Probleme de implementare

Metoda de a găsi cea mai bună proiecție poate da rezultate interesante, dar există multe deficiențe în implementarea acesteia. În primul rând, este dificil să se vină cu o interpretare corectă a rezultatelor obținute. În al doilea rând, implementarea metodei poate dura mult timp și necesită o cantitate destul de mare de memorie RAM a computerului. În plus, există încă diferențe între reprezentarea vizuală umană a celei mai bune proiecții și soluția obținută la căutarea celei mai bune proiecții. Aceste probleme nu au fost încă rezolvate, nu există o versiune „canonică” a metodei, iar cercetările active sunt în desfășurare.

Literatură

Peter J. Huber , Projection Pursuit (lucrare invitată), Universitatea Harvard, The Annalas of Statistics, 13, nr. 2 (1985), 435-475.
Jerome H. Friedman , Exploratory projection pursuit. J.Amer. etatistul. Assoc. 82 (1987) 249-266. Software online .