Distanța Mahalanobis

Distanța Mahalanobis este o măsură a distanței dintre vectorii variabilelor aleatoare, generalizând conceptul de distanță euclidiană.

Propus de statisticianul indian Mahalanobis în 1936 [1] . Folosind distanța Mahalanobis, se poate determina similitudinea dintre un eșantion necunoscut și unul cunoscut . Diferă de distanța euclidiană prin faptul că ia în considerare corelațiile dintre variabile și este invariantă la scară.

Definiție

În mod formal, distanța Mahalanobis de la un vector multidimensional la o mulțime cu o valoare medie și o matrice de covarianță este definită după cum urmează [2] :

Distanța Mahalanobis poate fi, de asemenea, definită ca o măsură a disimilarității între doi vectori aleatori și dintr-o singură distribuție de probabilitate cu o matrice de covarianță  :

Dacă matricea de covarianță este matricea de identitate, atunci distanța Mahalanobis devine egală cu distanța euclidiană. Dacă matricea de covarianță este diagonală (dar nu neapărat unitate), atunci măsura distanței rezultată se numește distanța euclidiană normalizată :

Aici , este abaterea standard de la eșantion.

Explicație intuitivă

Luați în considerare problema determinării probabilității ca un punct dintr-un spațiu euclidian N-dimensional să aparțină unei mulțimi care este dată de o mulțime de puncte care aparțin cu siguranță acestei mulțimi. Aflați centrul de masă al mulțimii. Intuitiv, cu cât un punct dat este mai aproape de centrul de masă, cu atât este mai probabil să aparțină mulțimii.

Cu toate acestea, merită să luați în considerare și dimensiunea zonei pe care sunt împrăștiate punctele mulțimii pentru a înțelege cât de semnificativă este distanța dintre un punct dat și centrul de masă. Cea mai simplă abordare este de a calcula abaterea standard a punctelor de referință de la centrul de masă. Dacă distanța dintre punctul dat și centrul de masă este mai mică decât abaterea standard, atunci putem concluziona că probabilitatea ca punctul aparținând mulțimii este mare. Cu cât punctul este mai departe, cu atât este mai probabil să nu fie în set.

Această abordare intuitivă poate fi definită matematic în termeni de distanță dintre un punct dat și o mulțime folosind formula . Prin înlocuirea acestei valori în distribuția normală , puteți găsi probabilitatea ca un punct să aparțină unei mulțimi.

Dezavantajul acestei abordări este utilizarea ipotezei că punctele mulțimii sunt distribuite sferic în jurul centrului de masă (adică uniform în toate dimensiunile). Dacă distribuția nu este în mod clar sferică (de exemplu, elipsoidală), atunci ar fi firesc să se ia în considerare în probabilitatea de membru nu numai distanța până la centrul de masă, ci și direcția către acesta. În direcția axei scurte a elipsoidului, punctul dat trebuie să fie mai aproape de centrul de masă pentru a aparține mulțimii, în timp ce în direcția axei lungi, poate fi mai departe.

Pentru a scrie asta matematic, elipsoidul care reprezintă cel mai bine distribuția de probabilitate a mulțimii poate fi dat de matricea de covarianță a mulțimii. Distanța Mahalanobis este pur și simplu distanța dintre punctul dat și centrul de masă împărțit la lățimea elipsoidului în direcția punctului dat.

Aplicații

Distanța Mahalanobis a fost formulată în timpul lucrărilor de identificare a asemănării craniilor pe baza măsurătorilor din 1927 [3] .

Distanța Mahalanobis este utilizată pe scară largă în analiza clusterelor și metodele de clasificare . Este strâns legată de distribuția T-pătrat a lui Hotelling utilizată în testele statistice multivariate și de analiza discriminantă liniară a lui Fisher utilizată în învățarea automată supravegheată [4] .  

Pentru a utiliza distanța Mahalanobis în problema de a determina dacă un punct dat aparține uneia dintre N clase, trebuie să găsiți matricele de covarianță ale tuturor claselor. De obicei, acest lucru se face pe baza mostrelor cunoscute din fiecare clasă. Apoi este necesar să se calculeze distanța Mahalanobis de la punctul dat la fiecare clasă și să se aleagă clasa pentru care această distanță este minimă. Folosind o interpretare probabilistică, aceasta poate fi demonstrată a fi echivalentă cu selecția clasei prin metoda probabilității maxime .

De asemenea, distanța Mahalanobis este folosită pentru a găsi valori aberante, de exemplu, în problema construirii unei regresii liniare. Punctul care are cea mai mare distanță Mahalanobis față de restul mulțimii de puncte date este considerat a avea cea mai mare semnificație, deoarece are cea mai mare influență asupra curburii și asupra coeficienților ecuației de regresie. În plus, distanța Mahalanobis este utilizată în problema determinării valorii aberante multivariate și atunci când se lucrează cu modele de formă activă .

Note

  1. Mahalanobis, Prasanta Chandra. Despre distanța generalizată în statistică  (neopr.)  // Proceedings of the National Institute of Sciences of India. - 1936. - V. 2 , Nr. 1 . - S. 49-55 . Arhivat din original pe 29 mai 2013.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D. L. Massart (2000) The Mahalanobis distance. Chimiometrie și sisteme inteligente de laborator 50:1–18
  3. Mahalanobis, PC (1927). Analiza amestecului de rase în Bengal. J. Proc. Asiatic Soc. din Bengal. 23:301-333.
  4. ^ McLachlan, Geoffry J (1992) Discriminant Analysis and Statistical Pattern Recognition. Wiley Interstience. ISBN 0471691151 p. 12