Statistici neparametrice

Statistica neparametrică  este o ramură a statisticii care nu se bazează exclusiv pe familii parametrizate de distribuții de probabilitate (exemplele larg cunoscute de parametri sunt media și varianța). Statisticile neparametrice includ statisticile descriptive și inferența statistică .

Definiții

Statisticianul Larry Wasserman a spus: „Este dificil să dai o definiție clară a statisticilor neparametrice”. [1] Termenul „statistică neparametrică” poate fi definit în mod vag, printre altele, în următoarele două moduri.

  1. Prima semnificație a non- parametrică acoperă metode care nu se bazează pe date legate de o anumită distribuție. Printre altele, acestea includ:

    Următorul raționament este preluat din Teoria Avansată a Statisticii a lui Kendall . [2]

    Ipotezele statistice acordă atenție comportamentului variabilelor aleatoare observate... De exemplu, ipoteza (a) că distribuția normală are o anumită așteptare matematică și varianța sa este statistică; ipoteza (b) - că așteptarea matematică este dată, varianța nu este dată; ipoteza (c) - că distribuția are o formă normală, așteptarea și varianța matematică nu sunt specificate; în sfârșit, ipoteza (d), cele două distribuții continue necunoscute coincid.

    Rețineți că în exemplele (a) și (b), distribuția care stă la baza observațiilor a fost definită ca fiind distribuția normală, iar ipoteza a fost pe deplin asociată cu valoarea unuia sau a ambilor săi parametri. O astfel de ipoteză, din motive evidente, se numește parametrică.

    Ipoteza (c) are un caracter diferit, deoarece valorile parametrilor nu sunt indicate în formularea ipotezei; o astfel de ipoteză poate fi numită în mod rezonabil neparametrică. Ipoteza (d) este, de asemenea, neparametrică, dar, în plus, nici măcar nu determină tipul de distribuție și poate fi numită fără distribuție. În ciuda acestor diferențe, literatura statistică etichetează în mod obișnuit „neparametrice” metodele pe care tocmai le-am numit „fără distribuție”, defalcând astfel o clasificare utilă.

  2. A doua semnificație a non- parametricității acoperă metode care nu presupun că structura modelului este fixă. De obicei, dimensiunea modelului crește odată cu complexitatea datelor. Aceste metode presupun că variabilele individuale aparțin distribuțiilor parametrice și fac ipoteze despre tipurile de relații dintre variabile. Aceste metode includ, printre altele:
    • regresie neparametrică - modelare, prin care structura relației variabilelor este considerată neparametric. Cu toate acestea, pot exista ipoteze parametrice cu privire la distribuția reziduurilor modelului.
    • Modele bayesiene ierarhice non-parametrice , cum ar fi cele bazate pe procesul Dirichlet , care permit creșterea numărului de variabile latente după cum este necesar pentru a se potrivi cu datele. Totuși, variabilele individuale pot fi supuse unor distribuții parametrice și chiar și procesul care controlează rata de creștere a variabilelor latente este supus unei distribuții parametrice.

Scopuri și aplicații

Metodele neparametrice sunt utilizate pe scară largă pentru a studia populațiile care acceptă ordinea clasată (de exemplu, recenziile de filme, care pot obține între una și patru stele). Utilizarea metodelor neparametrice poate fi necesară atunci când datele au o clasare, dar nu au o interpretare numerică clară, cum ar fi estimarea preferințelor . În termeni de scale , rezultatele metodelor neparametrice sunt date ordinale .

Deoarece metodele neparametrice fac mai puține ipoteze, domeniul lor de aplicare este mult mai larg decât cel al metodelor parametrice. În special, ele pot fi aplicate în situațiile în care există mai puține informații despre aplicația în sine. De asemenea, deoarece depind de mai puține ipoteze, metodele neparametrice sunt mai fiabile .

Un alt motiv pentru utilizarea metodelor neparametrice este simplitatea lor. În unele cazuri, chiar și în cazul în care utilizarea metodelor parametrice este justificată, poate fi mai ușor să se utilizeze metode neparametrice. Din cauza motivelor enumerate mai sus, metodele neparametrice sunt considerate de unii statisticieni ca fiind mai puțin susceptibile de a fi înțelese și utilizate greșit.

Aplicabilitatea mai largă și robustețea (fiabilitatea) crescută a metodelor neparametrice au un cost: în cazurile în care o metodă parametrică este potrivită, cele neparametrice au o putere statistică mai mică . Cu alte cuvinte, poate fi necesară o dimensiune mai mare a eșantionului pentru a trage concluzii cu aceeași încredere .

Modele neparametrice

Modelele neparametrice diferă de modelele parametrice prin faptul că structura modelului nu este dată a priori , ci determinată de date. Termenul neparametric nu înseamnă absența completă a parametrilor. Doar că numărul și natura lor sunt flexibile și nu sunt fixate în prealabil.

Metode

Metodele de inferență statistică neparametrică (sau fără distribuție ) sunt proceduri matematice pentru testarea ipotezelor statistice care, spre deosebire de statistica parametrică , nu fac ipoteze cu privire la distribuțiile de probabilitate ale variabilelor estimate. Astfel de metode sunt numite teste statistice neparametrice . Cele mai frecvent utilizate criterii includ:

Istorie

Printre primele statistici neparametrice se numără mediana (secolul al XIII-lea sau mai devreme, folosită în estimarea lui Edward Wright , 1599) și testul semnelor lui John Arbuthnot (1710) în analiza raportului de sex al unei persoane la naștere. [3]

Note

  1. Wasserman (2007), p.1
  2. Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , ediția a șasea, §20.2–20.3 ( Arnold ).
  3. Conover, WJ (1999), Capitolul 3.4: Testul semnelor, Statistici practice neparametrice (ed. a treia), Wiley, p. 157–176, ISBN 0-471-16068-7 

Literatură