Testul t al elevului

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 4 noiembrie 2020; verificările necesită 3 modificări .

Testul t al lui Student  este un nume general pentru o clasă de metode de testare statistică a ipotezelor ( teste statistice ) bazate pe distribuția lui Student . Cele mai frecvente cazuri de aplicare a testului t sunt legate de verificarea egalității mediilor în două eșantioane .

t -statistica se construiește de obicei după următorul principiu general: în numărător - o variabilă aleatoare cu așteptare matematică zero (când este îndeplinită ipoteza nulă ), iar la numitor - abaterea standard eșantion a acestei variabile aleatoare, obținută ca rădăcină pătrată a estimării nepărtinitoare a varianței.

Istorie

Acest criteriu a fost dezvoltat de William Gosset pentru a evalua calitatea berii la Guinness . În legătură cu obligațiile față de companie de nedezvăluire a secretelor comerciale (conducerea Guinness a considerat o astfel de utilizare a aparatului statistic în munca lor), articolul lui Gosset a fost publicat în 1908 în revista „Biometrie” sub pseudonimul „Student” ( Student).

Cerințe de date

Pentru a aplica acest criteriu, este necesar ca datele originale să aibă o distribuție normală . În cazul aplicării unui test cu două eșantioane pentru probe independente , este , de asemenea, necesar să se respecte condiția egalității varianțelor . Există, totuși, alternative la testul t al lui Student pentru situații cu varianțe inegale.

Cerința ca distribuția datelor să fie normală este necesară pentru un -test exact. Cu toate acestea, chiar și cu alte distribuții de date, este posibil să se utilizeze -statistics. În multe cazuri, aceste statistici au asimptotic o distribuție normală standard - , așa că puteți utiliza cuantilele acestei distribuții. Cu toate acestea, de multe ori chiar și în acest caz, cuantilele sunt utilizate nu ale distribuției normale standard, ci ale distribuției Student corespunzătoare, ca în testul exact. Ele sunt echivalente asimptotic, totuși, pe eșantioane mici, intervalele de încredere ale distribuției Student sunt mai largi și mai fiabile.

Dacă aceste condiții nu sunt îndeplinite, atunci când se compară mediile eșantionului, ar trebui utilizate metode similare de statistică neparametrică , dintre care cele mai cunoscute sunt testul U Mann-Whitney (ca test cu două eșantioane pentru probe independente), precum și testul semnului și testul Wilcoxon (utilizat în cazul probelor dependente) .

Test t cu un eșantion

Este folosit pentru a testa ipoteza nulă despre egalitatea așteptărilor matematice cu o valoare cunoscută .

Evident, atunci când ipoteza nulă este îndeplinită . Ținând cont de independența asumată a observațiilor . Folosind estimarea variației nepărtinitoare , obținem următoarea t-statistică:

În ipoteza nulă, distribuția acestei statistici este . Prin urmare, dacă valoarea statistică depășește (în termeni absoluti) valoarea critică a acestei distribuții (la un nivel de semnificație dat), ipoteza nulă este respinsă.

Testul t cu două eșantioane pentru probe independente

Să fie două eșantioane independente cu volume de variabile aleatoare distribuite normal . Este necesar să se testeze ipoteza nulă a egalității așteptărilor matematice ale acestor variabile aleatoare folosind date eșantion .

Luați în considerare diferența dintre mediile eșantionului . Evident, dacă ipoteza nulă este satisfăcută, . Pe baza independenței eșantioanelor, varianța acestei diferențe este egală cu: . Apoi, folosind estimarea imparțială a varianței , obținem o estimare nepărtinitoare a varianței diferenței dintre mediile eșantionului: . Prin urmare, statistica t pentru testarea ipotezei nule este

Această statistică, sub valabilitatea ipotezei nule, are o distribuție , unde .

Caz de varianță egală

Dacă se presupune că variațiile eșantionului sunt aceleași, atunci

Atunci statistica t este:

Această statistică are o distribuție .

Testul t cu două eșantioane pentru eșantioane dependente

Pentru a calcula valoarea empirică a criteriului - într-o situație de testare a unei ipoteze despre diferențele dintre două eșantioane dependente (de exemplu, două eșantioane ale aceluiași test cu un interval de timp), se utilizează următoarea formulă:

unde  este diferența medie a valorilor,  este abaterea standard a diferențelor și n este numărul de observații.

Această statistică are o distribuție .

Test de constrângere liniară pe parametrii de regresie liniară

Folosind testul t, puteți testa, de asemenea, o constrângere liniară arbitrară (unică) asupra parametrilor unei regresii liniare estimate prin metoda celor mai mici pătrate obișnuite . Să fie necesar să se testeze ipoteza . Evident, atunci când ipoteza nulă este îndeplinită . Aici se utilizează proprietatea estimărilor LSM imparțiale ale parametrilor modelului . În plus, . Folosind estimarea sa imparțială în loc de varianța necunoscută , obținem următoarea t-statistică:

Această statistică, atunci când ipoteza nulă este satisfăcută, are o distribuție , deci dacă valoarea statisticii este mai mare decât valoarea critică, atunci ipoteza nulă a unei constrângeri liniare este respinsă.

Testarea ipotezei coeficientului de regresie liniară

Un caz special al unei constrângeri liniare este testarea ipotezei că coeficientul de regresie este egal cu o anumită valoare . În acest caz, statistica t corespunzătoare este:

unde  este eroarea standard a estimării coeficientului și este rădăcina pătrată a elementului diagonal corespunzător al matricei de covarianță a estimărilor coeficientului.

Dacă ipoteza nulă este adevărată, distribuția acestei statistici este . Dacă valoarea absolută a statisticilor este mai mare decât valoarea critică, atunci diferența dintre coeficientul de la este semnificativă statistic (nealeatoriu), în caz contrar este nesemnificativă (aleatorie, adică coeficientul adevărat este probabil egal sau foarte apropiat). la valoarea așteptată ).

Notă

Testul cu un eșantion pentru așteptările matematice poate fi redus la testarea unei constrângeri liniare asupra parametrilor de regresie liniară. Într-un test cu un singur eșantion, aceasta este o „regresie” pe o constantă. Prin urmare, regresia este o estimare a eșantionului a varianței variabilei aleatoare studiate, matricea este \u200b\u200b , iar estimarea „coeficientului” modelului este egală cu media eșantionului. Din aceasta obținem expresia pentru statistica t dată mai sus pentru cazul general.

În mod similar, se poate demonstra că un test cu două eșantioane cu variații egale de eșantion se reduce, de asemenea, la testarea constrângerilor liniare. Într-un test cu două eșantioane, aceasta este o „regresie” pe o constantă și o variabilă inactivă care identifică un subeșantion în funcție de valoarea (0 sau 1): . Ipoteza despre egalitatea așteptărilor matematice ale eșantioanelor poate fi formulată ca o ipoteză despre egalitatea coeficientului b al acestui model la zero. Se poate arăta că statistica t corespunzătoare pentru testarea acestei ipoteze este egală cu statistica t dată pentru testul cu două eșantioane.

De asemenea, se poate reduce la verificarea constrângerii liniare în cazul diferitelor variații. În acest caz, varianța erorilor de model ia două valori. Pe baza acestui lucru, se pot obține și statistici t similare cu cele date pentru testul cu două eșantioane.

Analogi neparametrici

Un analog al testului cu două eșantioane pentru probe independente este testul U Mann-Whitney . Pentru situația cu probe dependente, analogii sunt testul semnului și testul T Wilcoxon .

Literatură

student. Eroarea probabilă a unei medii. // Biometrica. 1908. Nr. 6 (1). P. 1-25.

Link -uri

Cu privire la criteriile de testare a ipotezelor despre omogenitatea mijloacelor de pe site-ul web al Universității Tehnice de Stat din Novosibirsk