Statistici neparametrice
Statistica neparametrică este o ramură a statisticii care nu se bazează exclusiv pe familii parametrizate de distribuții de probabilitate (exemplele larg cunoscute de parametri sunt media și varianța). Statisticile neparametrice includ statisticile descriptive și inferența statistică .
Definiții
Statisticianul Larry Wasserman a spus: „Este dificil să dai o definiție clară a statisticilor neparametrice”. [1] Termenul „statistică neparametrică” poate fi definit în mod vag, printre altele, în următoarele două moduri.
- Prima semnificație a non- parametrică acoperă metode care nu se bazează pe date legate de o anumită distribuție. Printre altele, acestea includ:
Următorul raționament este preluat din Teoria Avansată a Statisticii a lui Kendall . [2]
Ipotezele statistice acordă atenție comportamentului variabilelor aleatoare observate... De exemplu, ipoteza (a) că distribuția normală are o anumită așteptare matematică și varianța sa este statistică; ipoteza (b) - că așteptarea matematică este dată, varianța nu este dată; ipoteza (c) - că distribuția are o formă normală, așteptarea și varianța matematică nu sunt specificate; în sfârșit, ipoteza (d), cele două distribuții continue necunoscute coincid.
Rețineți că în exemplele (a) și (b), distribuția care stă la baza observațiilor a fost definită ca fiind distribuția normală, iar ipoteza a fost pe deplin asociată cu valoarea unuia sau a ambilor săi parametri. O astfel de ipoteză, din motive evidente, se numește parametrică.
Ipoteza (c) are un caracter diferit, deoarece valorile parametrilor nu sunt indicate în formularea ipotezei; o astfel de ipoteză poate fi numită în mod rezonabil neparametrică. Ipoteza (d) este, de asemenea, neparametrică, dar, în plus, nici măcar nu determină tipul de distribuție și poate fi numită fără distribuție. În ciuda acestor diferențe, literatura statistică etichetează în mod obișnuit „neparametrice” metodele pe care tocmai le-am numit „fără distribuție”, defalcând astfel o clasificare utilă.
- A doua semnificație a non- parametricității acoperă metode care nu presupun că structura modelului este fixă. De obicei, dimensiunea modelului crește odată cu complexitatea datelor. Aceste metode presupun că variabilele individuale aparțin distribuțiilor parametrice și fac ipoteze despre tipurile de relații dintre variabile. Aceste metode includ, printre altele:
- regresie neparametrică - modelare, prin care structura relației variabilelor este considerată neparametric. Cu toate acestea, pot exista ipoteze parametrice cu privire la distribuția reziduurilor modelului.
- Modele bayesiene ierarhice non-parametrice , cum ar fi cele bazate pe procesul Dirichlet , care permit creșterea numărului de variabile latente după cum este necesar pentru a se potrivi cu datele. Totuși, variabilele individuale pot fi supuse unor distribuții parametrice și chiar și procesul care controlează rata de creștere a variabilelor latente este supus unei distribuții parametrice.
Scopuri și aplicații
Metodele neparametrice sunt utilizate pe scară largă pentru a studia populațiile care acceptă ordinea clasată (de exemplu, recenziile de filme, care pot obține între una și patru stele). Utilizarea metodelor neparametrice poate fi necesară atunci când datele au o clasare, dar nu au o interpretare numerică clară, cum ar fi estimarea preferințelor . În termeni de scale , rezultatele metodelor neparametrice sunt date ordinale .
Deoarece metodele neparametrice fac mai puține ipoteze, domeniul lor de aplicare este mult mai larg decât cel al metodelor parametrice. În special, ele pot fi aplicate în situațiile în care există mai puține informații despre aplicația în sine. De asemenea, deoarece depind de mai puține ipoteze, metodele neparametrice sunt mai fiabile .
Un alt motiv pentru utilizarea metodelor neparametrice este simplitatea lor. În unele cazuri, chiar și în cazul în care utilizarea metodelor parametrice este justificată, poate fi mai ușor să se utilizeze metode neparametrice. Din cauza motivelor enumerate mai sus, metodele neparametrice sunt considerate de unii statisticieni ca fiind mai puțin susceptibile de a fi înțelese și utilizate greșit.
Aplicabilitatea mai largă și robustețea (fiabilitatea) crescută a metodelor neparametrice au un cost: în cazurile în care o metodă parametrică este potrivită, cele neparametrice au o putere statistică mai mică . Cu alte cuvinte, poate fi necesară o dimensiune mai mare a eșantionului pentru a trage concluzii cu aceeași încredere .
Modele neparametrice
Modelele neparametrice diferă de modelele parametrice prin faptul că structura modelului nu este dată a priori , ci determinată de date. Termenul neparametric nu înseamnă absența completă a parametrilor. Doar că numărul și natura lor sunt flexibile și nu sunt fixate în prealabil.
Metode
Metodele de inferență statistică neparametrică (sau fără distribuție ) sunt proceduri matematice pentru testarea ipotezelor statistice care, spre deosebire de statistica parametrică , nu fac ipoteze cu privire la distribuțiile de probabilitate ale variabilelor estimate. Astfel de metode sunt numite teste statistice neparametrice . Cele mai frecvent utilizate criterii includ:
- Analiza similarității : testează semnificația statistică a diferenței dintre grupurile de eșantioane
- Testul Anderson-Darling : verifică dacă eșantionul analizat aparține unei anumite legi de distribuție
- Bootstrap : vă permite să evaluați ușor și rapid diferite statistici pentru modele complexe
- Criteriul Friedman : folosit pentru a studia influența diferitelor valori ale factorilor (grade factorilor) asupra aceluiași eșantion
- Estimatorul Kaplan-Meier : estimează funcția de supraviețuire din datele de viață
- Tau lui Kendall : măsoară relația statistică dintre două variabile
- W Kendall : O statistică neparametrică care măsoară gradul de similitudine dintre două clasamente și poate fi utilizată pentru a evalua semnificația unei relații dintre ele
- Testul Kolmogorov-Smirnov cu două eșantioane: utilizat pentru a testa ipoteza că două eșantioane independente aparțin aceleiași legi de distribuție
- Analiza Kruskal-Wallis a varianței : testează ipoteza dacă eșantioanele comparate au aceeași distribuție sau distribuții cu aceeași mediană
- Testul de bunătate Kuiper : utilizat pentru a testa dacă o anumită distribuție sau o familie de distribuții este inconsecventă cu caracteristicile eșantionului de date
- Testul log-rank (log-rank) : compararea distribuțiilor de supraviețuire a două eșantioane
- Testul U Mann-Whitney : utilizat pentru a evalua diferența dintre două eșantioane independente în ceea ce privește nivelul unei trăsături, măsurat cantitativ
- Testul chi-pătrat al lui McNemar : testează dacă mai multe variabile comparate diferă semnificativ sau nu, luând valori de 0 / 1
- Testul median : testează ipoteza că distribuțiile a două eșantioane au aceeași formă și diferă doar printr-o deplasare cu o constantă
- Testul de permutare Pitman (reeșantionare) : un test de semnificație statistică care dă valori P exacte prin examinarea tuturor permutărilor posibile ale etichetei
- Testul Siegel-Tookey : test pentru diferențele de scară între două grupuri
- Testul semnelor : utilizat în situațiile în care două măsurători (de exemplu, în condiții diferite) ale acelorași subiecți trebuie testate pentru prezența sau absența unei diferențe de rezultate
- Coeficientul de corelație a rangului lui Spearman : utilizat pentru a măsura o relație monotonă neliniară între variabile
- Test de rang pătrat : teste pentru egalitatea varianțelor în două sau mai multe eșantioane
- Testul Tukey-Duckworth : testează dacă una dintre cele două probe a fost semnificativ mai mare decât cealaltă
- Testul seriei Wald-Wolfowitz : testează dacă elementele unei secvențe sunt reciproc independente/aleatorie
- Testul Wilcoxon : utilizat pentru a testa diferențele dintre două eșantioane de măsurători pereche
Istorie
Printre primele statistici neparametrice se numără mediana (secolul al XIII-lea sau mai devreme, folosită în estimarea lui Edward Wright , 1599) și testul semnelor lui John Arbuthnot (1710) în analiza raportului de sex al unei persoane la naștere. [3]
Note
- ↑ Wasserman (2007), p.1
- ↑ Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , ediția a șasea, §20.2–20.3 ( Arnold ).
- ↑ Conover, WJ (1999), Capitolul 3.4: Testul semnelor, Statistici practice neparametrice (ed. a treia), Wiley, p. 157–176, ISBN 0-471-16068-7
Literatură
- Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). „Teste non-parametrice pentru date complete”, ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
- Corder, GW; Foreman, DI Statistici neparametrice: O abordare pas cu pas . - Wiley, 2014. - ISBN 978-1118840313 .
- Jean Gibbons; Chakraborti, Subhabrata (2003). Inferență statistică neparametrică , Ed. a 4-a. Presa C.R.C. ISBN 0-8247-4052-1 .
- Hettmansperger, T. P.; McKean, J. W. Metode statistice neparametrice robuste (nedefinite) . — În primul rând. — Londra: Edward Arnold, 1998. - V. 5. - (Biblioteca de Statistică a lui Kendall). — ISBN 0-340-54937-8 . de asemenea ISBN 0-471-19479-4 .
- Hollander M., Wolfe D. A., Chicken E. (2014). Metode statistice neparametrice , John Wiley & Sons.
- Sheskin, David J. (2003) Manual de proceduri statistice parametrice și neparametrice . Presa C.R.C. ISBN 1-58488-440-1
- Wasserman, Larry (2007). Toate statisticile neparametrice , Springer. ISBN 0-387-25145-6 .
- Analiza statistică aplicată Orlov AI : manual. - M .: AI Pi Ar Media, 2022. - 812 p. — ISBN 978-5-4497-1480-0 [1]
Dicționare și enciclopedii |
|
---|
În cataloagele bibliografice |
|
---|