Funcția de estimare Theil–Sen

În statistica neparametrică , există o metodă de netezire liniară robustă a unui set de puncte ( regresie liniară simplă ) în care este aleasă mediana pantelor tuturor dreptelor care trec prin perechi de puncte eșantion în plan. Metoda se numește estimator Theil-Sen , Estimator Slope Sen [1] [2] , Selectarea pantei [3] [4] , Metoda cu o medie [5] , Metoda de aproximare a liniilor robuste a lui Kendall [6] [7] și linie robustă Kendall-Theil [8] . Metoda este numită după Henri Theil și Pranab K. Sen, care au publicat lucrări despre metodă în 1950 și, respectiv, 1968, și, de asemenea, după Maurice Kendall .

Acest estimator poate fi calculat eficient și este insensibil la valori aberante . Poate fi semnificativ mai precis decât cele mai mici pătrate non-robuste pentru datele nesimetrice și heteroscedastice și concurează bine cu cele mai mici pătrate non-robuste chiar și pentru date normal distribuite în ceea ce privește puterea statistică [9] . Metoda este recunoscută drept „cea mai populară tehnică neparametrică pentru estimarea unei tendințe liniare” [2] .

Definiție

După cum a definit Theil [10] , estimatorul Theil -Sen al unei mulțimi de puncte din plan ( x i , y i )  este mediana coeficienților m de pantă ( y jy i )/( x jx i ) peste toate perechile de puncte de eșantion. Sen [11] a extins această definiție pentru a trata cazul în care două puncte au aceleași coordonate x . După definiția lui Sen, mediana coeficienților de pantă este luată numai peste perechi de puncte care au coordonate x diferite .

Odată calculată panta m , se poate determina linia din punctele eșantionului alegând punctul b al intersecției axei y egal cu mediana valorilor y imx i [12] . După cum a notat Sen, acesta este un estimator care face ca coeficientul de corelație τ-rank al lui Kendall de comparare x i cu restul observației i -a aproximativ egal cu zero [13] .

Intervalul de încredere pentru estimarea unghiului de pantă poate fi definit ca intervalul care conține media a 95% din coeficienții de pantă ai dreptelor care trec prin perechile de puncte [14] , și poate fi estimat rapid prin eșantionarea perechilor și determinarea 95 intervalul % din coeficienții de pantă eșantionați. Conform simulărilor numerice, un eșantion de aproximativ 600 de perechi de puncte este suficient pentru a determina un interval de încredere precis [9] .

Variante

Pentru fiecare punct de probă ( x i , y i ) mediana m i a coeficienților de pantă ( y jy i ) /( x j x i ) ai dreptelor care trec prin acest punct, iar apoi funcția de cost global este calculată ca mediană a acestor mediane.

O altă opțiune selectează perechi de puncte eșantion după rangul coordonatelor lor x (în pereche este selectat punctul cu cea mai mică coordonată, primul punct deasupra coordonatei mediane etc.), apoi coeficienții de pantă ai liniilor definite de acestea se calculează perechi de puncte [16] .

Sunt studiate și variante ale estimatorului Theil-Sen bazate pe mediane ponderate , pe baza principiului că perechile de eșantioane ale căror coordonate x diferă mai mult au mai multe șanse să aibă o pantă mai precisă și, prin urmare, ar trebui să aibă o pondere mai mare. [17]

Pentru datele sezoniere, poate fi adecvat să netezi variabilele sezoniere din date selectând perechi de puncte de eșantion care aparțin aceleiași luni sau aceluiași sezon al anului și apoi să se calculeze mediana coeficienților de pantă ai liniilor definite. prin aceste perechi limitate [18] .

Proprietăți statistice

Estimatorul Theil-Sen este o estimare imparțială a pantei adevărate în regresie liniară simplă [19] [20] . Pentru multe distribuții de eroare non-aleatorie, acest estimator are o eficiență asimptotică ridicată în raport cu metoda celor mai mici pătrate [21] [22] . Estimatorii cu performanțe slabe necesită mai multe observații independente pentru a obține aceeași varianță ca estimatorii eficienți imparțiali.

Estimatorul Theil-Sen este mai robust decât estimatorul celor mai mici pătrate, deoarece este semnificativ mai robust la valori aberante . Are un prag , ceea ce înseamnă că poate tolera până la 29,3% din datele de intrare fără a reduce acuratețea [12] . Cu toate acestea, pragul scade pentru generalizările multidimensionale ale metodei [23] . Un prag mai mare, 50%, este disponibil pentru un alt estimator liniar robust, estimatorul median repetat al lui Siegel [12] .

Funcția de scoring Theil-Sen este echivariantă pentru orice transformare liniară a variabilelor sale de răspuns, ceea ce înseamnă că transformarea datelor urmată de o linie de scor și o linie dreaptă urmată de transformarea datelor conduc la aceleași rezultate [24] . Totuși, estimatorul nu este echivariant sub transformarea afină simultană a variabilelor predictor și răspuns [23] .

Algoritmi

Mediana pantei unui set de n puncte eșantion poate fi calculată exact calculând toate O ( n 2 ) linii prin perechile de puncte și aplicând un algoritm de timp liniar pentru a selecta mediana . Alternativ, valoarea poate fi estimată prin eșantionarea perechilor de puncte. Problema este echivalentă, conform dualității proiective , cu problema găsirii punctului de intersecție al unei configurații de drepte care conține mediana x de coordonate între toate aceste puncte de intersecție. [25]

Problema selectării factorului de pantă cu acuratețe, dar mai eficient decât enumerarea pătratică brută a fost studiată pe larg în geometria computațională . Alte metode sunt cunoscute pentru calcularea exactă a estimatorului Theil-Sen în timp O ( n log n ) , fie determinist [3] , fie folosind algoritmi probabilistici [4] . Estimarea Siegel mediană repetată poate fi de asemenea construită eficient în același timp [26] . În modelele de calcul în care coordonatele de intrare sunt numere întregi, iar operațiile pe biți pe numere întregi durează timp constant, problema poate fi rezolvată și mai rapid, cu așteptarea timpului de calcul [27] .

Un estimator de coeficient de pantă cu un rang mediu aproximativ care are același prag ca și estimatorul Theil-Sen poate fi obținut într-un model de date în flux (în care punctele eșantionului sunt procesate de algoritm unul câte unul, iar algoritmul nu are suficient memorie pentru a stoca permanent toate seturile de date) folosind un algoritm bazat pe ε-rețele [28] .

Aplicații

Estimatorul Theil-Sen a fost folosit în astronomie datorită capacității de a lucra cu modele de regresie cenzurată [29] . Fernandez și Leblanc au propus utilizarea acesteia în biofizica [30] a teledetecției, cum ar fi estimarea suprafeței frunzelor prin măsurarea reflectanței, datorită „simplificității calculului, estimării intervalului de încredere analitică, robusteței cu privire la valori aberante, ipotezelor verificabile cu privire la eroare și... informații a priori limitate privind măsurarea erorilor”. Pentru măsurarea datelor de mediu sezoniere, cum ar fi calitatea apei , estimatorul sezonier Theil-Sen a fost propus a fi superior metodei celor mai mici pătrate, deoarece oferă o mai bună acuratețe în cazul datelor distorsionate [18] . În informatică , metoda Theil-Sen a fost folosită pentru a estima tendința de învechire a software-ului [31] . O altă aplicație a testului Theil-Sen este în meteorologie și climatologie [32] , unde este folosit pentru a estima tendințe stabile în direcția și viteza vântului.

Vezi și

Note

  1. Gilbert, 1987 .
  2. 1 2 El-Shaarawi, Piegorsch, 2001 .
  3. 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
  4. 1 2 Dillencourt, Mount, Netanyahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
  5. Massart, Vandeginste, et al., 1997 .
  6. Sokal, Rohlf, 1995 .
  7. Dytham, 2011 .
  8. Granato, 2006 .
  9. 12 Wilcox , 2001 .
  10. Theil, 1950 .
  11. Sen, 1968 .
  12. 1 2 3 Rousseeuw, Leroy, 2003 , p. 67, 164.
  13. Osborne, 2008 .
  14. Pentru a determina intervalele de încredere, perechile de puncte trebuie să fie eșantionate înapoi . Aceasta înseamnă că setul de perechi folosit în acest calcul include perechi care se potrivesc exact. Aceste perechi sunt întotdeauna lăsate în afara intervalului de încredere deoarece nu definesc niciun factor specific de pantă, dar luarea în considerare a acestora în calcul face intervalul de încredere mai larg.
  15. Siegel, 1982 .
  16. De Muth, 2006 .
  17. Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
  18. 1 2 Hirsch, Slack, Smith, 1982 .
  19. Sen, 1968 , p. 1384 Teorema 5.1.
  20. ^ Wang, Yu, 2005 .
  21. Sen, 1968 , p. Secțiunea 6.
  22. Wilcox, 1998 .
  23. 12 Wilcox , 2005 .
  24. Sen, 1968 , p. 1383.
  25. Cole, Salowe, Steiger, Szemerédi, 1989 .
  26. Matoušek, Muntele, Netanyahu, 1998 .
  27. Chan, Pătraşcu, 2010 .
  28. ^ Bagchi , Chaudhary, Eppstein, Goodrich, 2007 .
  29. Akritas, Murphy, LaValley, 1995 .
  30. Fernandes, Leblanc, 2005 .
  31. Vaidyanathan, Trivedi, 2005 .
  32. Romanić, Ćurić, Jovičić, Lompar, 2015 , p. 288-302.

Literatură

Link -uri