Funcția de estimare Theil–Sen

În statistica neparametrică , există o metodă de netezire liniară robustă a unui set de puncte ( regresie liniară simplă ) în care este aleasă mediana pantelor tuturor dreptelor care trec prin perechi de puncte eșantion în plan. Metoda se numește estimator Theil-Sen , Estimator Slope Sen [1] [2] , Selectarea pantei [3] [4] , Metoda cu o medie [5] , Metoda de aproximare a liniilor robuste a lui Kendall [6] [7] și linie robustă Kendall-Theil [8] . Metoda este numită după Henri Theil și Pranab K. Sen, care au publicat lucrări despre metodă în 1950 și, respectiv, 1968, și, de asemenea, după Maurice Kendall .

Acest estimator poate fi calculat eficient și este insensibil la valori aberante . Poate fi semnificativ mai precis decât cele mai mici pătrate non-robuste pentru datele nesimetrice și heteroscedastice și concurează bine cu cele mai mici pătrate non-robuste chiar și pentru date normal distribuite în ceea ce privește puterea statistică [9] . Metoda este recunoscută drept „cea mai populară tehnică neparametrică pentru estimarea unei tendințe liniare” [2] .

Definiție

După cum a definit Theil [10] , estimatorul Theil -Sen al unei mulțimi de puncte din plan ( x i , y i ) este mediana coeficienților m de pantă ( y j − y i )/( x j − x i ) peste toate perechile de puncte de eșantion. Sen [11] a extins această definiție pentru a trata cazul în care două puncte au aceleași coordonate x . După definiția lui Sen, mediana coeficienților de pantă este luată numai peste perechi de puncte care au coordonate x diferite .

Odată calculată panta m , se poate determina linia din punctele eșantionului alegând punctul b al intersecției axei y egal cu mediana valorilor y i − mx i [12] . După cum a notat Sen, acesta este un estimator care face ca coeficientul de corelație τ-rank al lui Kendall de comparare x i cu restul observației i -a aproximativ egal cu zero [13] .

Intervalul de încredere pentru estimarea unghiului de pantă poate fi definit ca intervalul care conține media a 95% din coeficienții de pantă ai dreptelor care trec prin perechile de puncte [14] , și poate fi estimat rapid prin eșantionarea perechilor și determinarea 95 intervalul % din coeficienții de pantă eșantionați. Conform simulărilor numerice, un eșantion de aproximativ 600 de perechi de puncte este suficient pentru a determina un interval de încredere precis [9] .

Variante

Pentru fiecare punct de probă ( x i , y i ) mediana m i a coeficienților de pantă ( y j − y i ) /( x j − x i ) ai dreptelor care trec prin acest punct, iar apoi funcția de cost global este calculată ca mediană a acestor mediane.

O altă opțiune selectează perechi de puncte eșantion după rangul coordonatelor lor x (în pereche este selectat punctul cu cea mai mică coordonată, primul punct deasupra coordonatei mediane etc.), apoi coeficienții de pantă ai liniilor definite de acestea se calculează perechi de puncte [16] .

Sunt studiate și variante ale estimatorului Theil-Sen bazate pe mediane ponderate , pe baza principiului că perechile de eșantioane ale căror coordonate x diferă mai mult au mai multe șanse să aibă o pantă mai precisă și, prin urmare, ar trebui să aibă o pondere mai mare. [17]

Pentru datele sezoniere, poate fi adecvat să netezi variabilele sezoniere din date selectând perechi de puncte de eșantion care aparțin aceleiași luni sau aceluiași sezon al anului și apoi să se calculeze mediana coeficienților de pantă ai liniilor definite. prin aceste perechi limitate [18] .

Proprietăți statistice

Estimatorul Theil-Sen este o estimare imparțială a pantei adevărate în regresie liniară simplă [19] [20] . Pentru multe distribuții de eroare non-aleatorie, acest estimator are o eficiență asimptotică ridicată în raport cu metoda celor mai mici pătrate [21] [22] . Estimatorii cu performanțe slabe necesită mai multe observații independente pentru a obține aceeași varianță ca estimatorii eficienți imparțiali.

Estimatorul Theil-Sen este mai robust decât estimatorul celor mai mici pătrate, deoarece este semnificativ mai robust la valori aberante . Are un prag , ceea ce înseamnă că poate tolera până la 29,3% din datele de intrare fără a reduce acuratețea [12] . Cu toate acestea, pragul scade pentru generalizările multidimensionale ale metodei [23] . Un prag mai mare, 50%, este disponibil pentru un alt estimator liniar robust, estimatorul median repetat al lui Siegel [12] . $1-{\frac {1}{\sqrt {2)}}\aproximativ 29,3\%$

Funcția de scoring Theil-Sen este echivariantă pentru orice transformare liniară a variabilelor sale de răspuns, ceea ce înseamnă că transformarea datelor urmată de o linie de scor și o linie dreaptă urmată de transformarea datelor conduc la aceleași rezultate [24] . Totuși, estimatorul nu este echivariant sub transformarea afină simultană a variabilelor predictor și răspuns [23] .

Algoritmi

Mediana pantei unui set de n puncte eșantion poate fi calculată exact calculând toate O ( n 2 ) linii prin perechile de puncte și aplicând un algoritm de timp liniar pentru a selecta mediana . Alternativ, valoarea poate fi estimată prin eșantionarea perechilor de puncte. Problema este echivalentă, conform dualității proiective , cu problema găsirii punctului de intersecție al unei configurații de drepte care conține mediana x de coordonate între toate aceste puncte de intersecție. [25]

Problema selectării factorului de pantă cu acuratețe, dar mai eficient decât enumerarea pătratică brută a fost studiată pe larg în geometria computațională . Alte metode sunt cunoscute pentru calcularea exactă a estimatorului Theil-Sen în timp O ( n log n ) , fie determinist [3] , fie folosind algoritmi probabilistici [4] . Estimarea Siegel mediană repetată poate fi de asemenea construită eficient în același timp [26] . În modelele de calcul în care coordonatele de intrare sunt numere întregi, iar operațiile pe biți pe numere întregi durează timp constant, problema poate fi rezolvată și mai rapid, cu așteptarea timpului de calcul [27] . $O (n{\sqrt {\log n))}$

Un estimator de coeficient de pantă cu un rang mediu aproximativ care are același prag ca și estimatorul Theil-Sen poate fi obținut într-un model de date în flux (în care punctele eșantionului sunt procesate de algoritm unul câte unul, iar algoritmul nu are suficient memorie pentru a stoca permanent toate seturile de date) folosind un algoritm bazat pe ε-rețele [28] .

Aplicații

Estimatorul Theil-Sen a fost folosit în astronomie datorită capacității de a lucra cu modele de regresie cenzurată [29] . Fernandez și Leblanc au propus utilizarea acesteia în biofizica [30] a teledetecției, cum ar fi estimarea suprafeței frunzelor prin măsurarea reflectanței, datorită „simplificității calculului, estimării intervalului de încredere analitică, robusteței cu privire la valori aberante, ipotezelor verificabile cu privire la eroare și... informații a priori limitate privind măsurarea erorilor”. Pentru măsurarea datelor de mediu sezoniere, cum ar fi calitatea apei , estimatorul sezonier Theil-Sen a fost propus a fi superior metodei celor mai mici pătrate, deoarece oferă o mai bună acuratețe în cazul datelor distorsionate [18] . În informatică , metoda Theil-Sen a fost folosită pentru a estima tendința de învechire a software-ului [31] . O altă aplicație a testului Theil-Sen este în meteorologie și climatologie [32] , unde este folosit pentru a estima tendințe stabile în direcția și viteza vântului.

Vezi și

Diluția regresiei , o altă problemă folosind estimarea tendinței pantei

Note

↑ Gilbert, 1987 .
↑ 1 2 El-Shaarawi, Piegorsch, 2001 .
↑ 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
↑ 1 2 Dillencourt, Mount, Netanyahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
↑ Massart, Vandeginste, et al., 1997 .
↑ Sokal, Rohlf, 1995 .
↑ Dytham, 2011 .
↑ Granato, 2006 .
↑ 12 Wilcox , 2001 .
↑ Theil, 1950 .
↑ Sen, 1968 .
↑ 1 2 3 Rousseeuw, Leroy, 2003 , p. 67, 164.
↑ Osborne, 2008 .
↑ Pentru a determina intervalele de încredere, perechile de puncte trebuie să fie eșantionate înapoi . Aceasta înseamnă că setul de perechi folosit în acest calcul include perechi care se potrivesc exact. Aceste perechi sunt întotdeauna lăsate în afara intervalului de încredere deoarece nu definesc niciun factor specific de pantă, dar luarea în considerare a acestora în calcul face intervalul de încredere mai larg.
↑ Siegel, 1982 .
↑ De Muth, 2006 .
↑ Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
↑ 1 2 Hirsch, Slack, Smith, 1982 .
↑ Sen, 1968 , p. 1384 Teorema 5.1.
^ Wang, Yu, 2005 .
↑ Sen, 1968 , p. Secțiunea 6.
↑ Wilcox, 1998 .
↑ 12 Wilcox , 2005 .
↑ Sen, 1968 , p. 1383.
↑ Cole, Salowe, Steiger, Szemerédi, 1989 .
↑ Matoušek, Muntele, Netanyahu, 1998 .
↑ Chan, Pătraşcu, 2010 .
^ Bagchi , Chaudhary, Eppstein, Goodrich, 2007 .
↑ Akritas, Murphy, LaValley, 1995 .
↑ Fernandes, Leblanc, 2005 .
↑ Vaidyanathan, Trivedi, 2005 .
↑ Romanić, Ćurić, Jovičić, Lompar, 2015 , p. 288-302.

Literatură

D. Romanić, M. Ćurić, I. Jovičić, M. Lompar. Tendințele pe termen lung ale vântului „Koshava” în perioada 1949–2010. // Jurnalul Internațional de Climatologie. - 2015. - T. 35 , nr. 2 . - S. 288-302 . - doi : 10.1002/joc.3981 .
Michael G. Akritas, Susan A. Murphy, Michael P. LaValley. Estimatorul Theil-Sen cu date și aplicații în astronomie dublu cenzurate // Journal of the American Statistical Association. - 1995. - T. 90 , nr. 429 . — S. 170–177 . - doi : 10.1080/01621459.1995.10476499 . — .
Amitabha Bagchi, Amitabh Chaudhary, David Eppstein, Michael T. Goodrich. Eșantionarea deterministă și numărarea intervalului în fluxuri de date geometrice // ACM Transactions on Algorithms. - 2007. - Vol. 3 , numărul. 2 . - C. Art. Nu. 16 . - doi : 10.1145/1240233.1240239 . - arXiv : cs/0307027 .
David Birkes, Yadolah Dodge. Metode alternative de regresie. - Wiley-Interscience, 1993. - T. 282. - S. 113-118. - (Seria Wiley în Probabilitate și Statistică). — ISBN 978-0-471-56881-0 .
Henrik Blunck, Jan Vahrenhold. Simpozion internațional despre algoritmi și complexitate. - Berlin: Springer-Verlag, 2006. - T. 3998. - S. 30-41. — (Note de curs în Informatică). — ISBN 978-3-540-34375-2 . - doi : 10.1007/11758471_6 .
Hervé Brönnimann, Bernard Chazelle. Selectarea optimă a pantei prin tăieturi // Teoria și aplicațiile geometriei computaționale . - 1998. - T. 10 , nr. 1 . — S. 23–29 . - doi : 10.1016/S0925-7721(97)00025-4 .
Timothy M. Chan, Mihai Pătraşcu. Proceedings of the Twenty-First Annual ACM-SIAM Symposium on Discrete Algorithms (SODA '10). - 2010. - S. 161-173.
Richard Cole, Jeffrey S. Salowe, WL Steiger, Endre Szemerédi . Un algoritm de timp optim pentru selectarea pantei // SIAM Journal on Computing . - 1989. - T. 18 , nr. 4 . — S. 792–810 . - doi : 10.1137/0218055 .
E. James De Muth. Statistici de bază și aplicații statistice farmaceutice. — al 2-lea. - CRC Press, 2006. - Vol. 16. - (Biostatistică). — ISBN 978-0-8493-3799-4 .
Michael B. Dillencourt, David Mount, Nathan Netanyahu. Un algoritm randomizat pentru selecția pantei // International Journal of Computational Geometry & Applications. - 1992. - Vol. 2 , numărul. 1 . — S. 1–27 . - doi : 10.1142/S0218195992000020 .
Calvin Dytham. Alegerea și utilizarea statisticilor: Ghidul unui biolog. — al 3-lea. - John Wiley and Sons, 2011. - ISBN 978-1-4051-9839-4 .
Abdel H. El-Shaarawi, Walter W. Piegorsch. Encyclopedia of Environmetrics, Volumul 1. - John Wiley and Sons, 2001. - ISBN 978-0-471-89997-6 .
Richard Fernandes, Sylvain G. Leblanc. Regresii liniare parametrice (cel mai mici pătrate modificate) și neparametrice (Theil–Sen) pentru prezicerea parametrilor biofizici în prezența erorilor de măsurare // Teledetecția mediului. - 2005. - T. 95 , nr. 3 . — S. 303–316 . - doi : 10.1016/j.rse.2005.01.005 .
Richard O. Gilbert. Metode statistice pentru monitorizarea poluării mediului. - John Wiley and Sons, 1987. - S. 217-219. — ISBN 978-0-471-28878-7 .
Grigore E. Granato. Kendall-Theil Robust Line (KTRLine--versiunea 1.0)-Un program vizual de bază pentru calcularea și reprezentarea grafică a estimărilor neparametrice robuste ale coeficienților de regresie liniară între două variabile continue. - US Geological Survey, 2006. - P. 31 cu CD-ROM. — (Tehnici și metode ale US Geological Survey, cartea 4, cap. A7).
Robert M. Hirsch, James R. Slack, Richard A. Smith. Tehnici de analiză a tendințelor pentru datele lunare privind calitatea apei // Cercetarea resurselor de apă. - 1982. - T. 18 , nr. 1 . — S. 107–121 . - doi : 10.1029/WR018i001p00107 . - Cod biblic .
Louis A. Jaeckel. Estimarea coeficienților de regresie prin minimizarea dispersiei reziduurilor // Annals of Mathematical Statistics. - 1972. - T. 43 , nr. 5 . - S. 1449-1458 . - doi : 10.1214/aoms/1177692377 .
Matthew J. Katz, Micha Sharir. Selectarea optimă a pantei prin expandoare // Litere de procesare a informațiilor . - 1993. - T. 47 , nr. 3 . — S. 115–122 . - doi : 10.1016/0020-0190(93)90234-Z .
DL Massart, BGM Vandeginste, LMC Buydens, S. De Jong, PJ Lewi, J. Smeyers-Verbeke. Handbook of Chemometrics and Qualimetrics: Part A. - Elsevier, 1997. - Vol. 20A. — S. 355–356. — (Manipularea datelor în știință și tehnologie). - ISBN 978-0-444-89724-4 .
Jiri Matousek. Algoritm optim randomizat pentru selectarea pantei // Litere de procesare a informațiilor . - 1991. - T. 39 , nr. 4 . — S. 183–187 . - doi : 10.1016/0020-0190(91)90177-J .
Jiří Matoušek, David M. Mount, Nathan S. Netanyahu. Algoritmi randomizați eficienți pentru estimatorul de linie mediană repetată // Algorithmica . - 1998. - T. 20 , nr. 2 . — S. 136–150 . - doi : 10.1007/PL00009190 .
Jason W. Osborne. Cele mai bune practici în metode cantitative. - Sage Publications, Inc., 2008. - ISBN 9781412940658 .
Peter Rousseeuw, Annick M. Leroy. Regresia robustă și detectarea valorii aberante. - Wiley, 2003. - V. 516. - (Seria Wiley în Probabilitate și Statistică Matematică). — ISBN 978-0-471-48855-2 .
Friedrich-Wilhelm Scholz. Estimări de regresie mediană ponderată // The Annals of Statistics. - 1978. - T. 6 , nr. 3 . — S. 603–609 . - doi : 10.1214/aos/1176344204 . — .
Pranab Kumar Sen. Estimări ale coeficientului de regresie bazate pe tau lui Kendall. — Jurnalul Asociației Americane de Statistică . - 1968. - T. 63. - S. 1379-1389. - doi : 10.2307/2285891 .
Andrew F. Siegel Regresie robustă folosind mediane repetate // Biometrika. - 1982. - T. 69 , nr. 1 . — S. 242–244 . - doi : 10.1093/biomet/69.1.242 .
Gerald L. Sievers. Statistici de rang ponderat pentru regresia liniară simplă // Jurnalul Asociației Americane de Statistică. - 1978. - T. 73 , nr. 363 . — S. 628–631 . - doi : 10.1080/01621459.1978.10480067 . — .
Robert R. Sokal, F. James Rohlf. Biometrie: principiile și practica statisticii în cercetarea biologică. - Macmillan, 1995. - ISBN 978-0-7167-2411-7 .
H. Theil. O metodă invariantă de rang de analiză de regresie liniară și polinomială. I, II, III // Nederl. Akad. Wetensch., Proc.. - 1950. - T. 53 . — S. 386–392, 521–525, 1397–1412 . .
Kalyanaraman Vaidyanathan, Kishor S. Trivedi. Un model cuprinzător pentru reîntinerirea software-ului // Tranzacții IEEE pe calcul fiabil și sigur. - 2005. - Vol. 2 , numărul. 2 . — S. 124–137 . - doi : 10.1109/TDSC.2005.15 .
Xueqin Wang, Qiqing Yu. Nepărtinirea estimatorului Theil–Sen // Journal of Nonparametric Statistics. - 2005. - T. 17 , nr. 6 . — S. 685–695 . - doi : 10.1080/10485250500039452 .
Rand R. Wilcox. O notă despre estimatorul de regresie Theil–Sen când regresorul este aleatoriu și termenul de eroare este heteroscedastic // Biometrical Journal. - 1998. - T. 40 , nr. 3 . — S. 261–268 . - doi : 10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V .
Rand R. Wilcox. Fundamentele metodelor statistice moderne: îmbunătățirea substanțială a puterii și a preciziei. - Springer-Verlag, 2001. - S. 207-210. — ISBN 978-0-387-95157-7 .
Rand R. Wilcox. Introducere în estimarea robustă și testarea ipotezelor . - Presa Academică, 2005. - P. 423-427 . — ISBN 978-0-12-751542-7 .

Link -uri

Kendall-Theil Robust Line (KTRLine — versiunea 1.0) Arhivat la 21 decembrie 2016 la Wayback Machine , un program gratuit Visual Basic pentru evaluarea Theil-Sen lansat de USGS