F-test

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 26 octombrie 2017; verificările necesită 8 modificări .

Testul F sau testul Fisher (testul F, testul φ*) este un test statistic , ale cărui statistici de testare, atunci când ipoteza nulă este îndeplinită, are distribuția Fisher (distribuția F).

Într-un fel sau altul, statisticile testelor se reduc la raportul dintre variațiile eșantionului (sume de pătrate împărțite la „grade de libertate”). Pentru ca o statistică să aibă o distribuție Fisher, numărătorul și numitorul trebuie să fie variabile aleatoare independente, iar sumele corespunzătoare de pătrate trebuie să aibă o distribuție Chi-pătrat . Acest lucru necesită ca datele să aibă o distribuție normală. În plus, se presupune că varianța variabilelor aleatoare ale căror pătrate sunt însumate este aceeași.

Testul se realizează prin compararea valorii statisticii cu valoarea critică a distribuției Fisher corespunzătoare la un nivel de semnificație dat. Se știe că dacă , atunci . În plus, cuantilele distribuției Fisher au proprietatea . Prin urmare, de obicei, în practică, o valoare potențial mare este implicată în numărător, o valoare mai mică este implicată în numitor, iar comparația este efectuată cu cuantila „dreapta” a distribuției. Cu toate acestea, testul poate fi atât bilateral, cât și unilateral. În primul caz , se utilizează cuantila pentru nivelul de semnificație , iar pentru testul cu o singură coadă se folosește [1] . $F \sim F(m,n)$ $1/F \sim F(n,m)$ $F_{1-\alpha}=1/F_{\alpha}$ $\alfa$ $F_{\alpha/2}$ $F_{\alpha}$

O modalitate mai convenabilă de a testa ipotezele este cu o valoare p , probabilitatea ca o variabilă aleatoare cu o anumită distribuție Fisher să depășească o valoare dată a statisticii. Dacă (pentru un test cu două cozi - )) este mai mic decât nivelul de semnificație , atunci ipoteza nulă este respinsă, în caz contrar este acceptată. $p(F)$ $p(F)$ $2p(F$ $\alfa$

Exemple de test F

F-test pentru egalitatea varianțelor

Două selecții

Să fie două eșantioane de mărimea m și respectiv n de variabile aleatoare X și Y având o distribuție normală. Este necesar să se verifice egalitatea variațiilor lor. Statistici de testare

$F=\frac {\hat{\sigma}^2_X}{\hat{\sigma}^2_Y}~ \sim ~F(m-1,n-1)$

unde este varianța eșantionului a . ${\hat{\sigma}^2}$

Dacă statistica este mai mare decât valoarea critică corespunzătoare nivelului de semnificație ales , atunci varianțele variabilelor aleatoare sunt recunoscute ca fiind diferite.

Selecții multiple

Fie ca un eșantion de dimensiunea N al unei variabile aleatoare X să fie împărțit în k grupuri cu numărul de observații din grupul i -a. $n_{i}$

Varianta intergrup („explicată”): $\hat{\sigma}^2_{BG}=\sum^k_{i=1} n_i (\overline {x_i}-\overline {x})^2/(k-1)$

Varianta în cadrul grupului („inexplicabilă”): $\hat{\sigma}^2_{WG}=\sum^k_{i=1}\sum^{n_i}_{j=1} (x_{ij}-\overline {x}_i)^2/( Nk)$

$F=\frac {\hat{\sigma}^2_{BG}}{\hat{\sigma}^2_{WG}}~\sim~F(k-1,Nk)$

Acest test poate fi redus la testarea semnificației regresiei variabilei X pe variabile fictive - indicatori de grup. Dacă statistica depășește valoarea critică, atunci ipoteza despre egalitatea mediilor din eșantioane este respinsă, în caz contrar mediile pot fi considerate la fel.

Verificarea constrângerilor asupra parametrilor de regresie

Statistica de testare pentru testarea constrângerilor liniare asupra parametrilor regresiei liniare normale clasice este determinată de formula:

$F={\frac {(RSS_{S}-RSS_{L})/q}{RSS_{L}/(n-k_{L})))={\frac {(R_{L}^ {2}-R_{S}^{2})/q}{(1-R_{L}^{2})/(n-k_{L})}}~\sim ~F(q,n- k_{L})$

unde este numărul de restricții, n este dimensiunea eșantionului, k este numărul de parametri ai modelului, RSS este suma pătratelor reziduurilor modelului, este coeficientul de determinare, indicii S și L se referă la modelele scurte și lungi , respectiv (modele cu restricții și modele fără restricții). $q=k_L-k_S$ $R^2$

Notă

Testul F descris mai sus este precis în cazul unei distribuții normale a erorilor aleatoare ale modelului. Cu toate acestea, testul F poate fi aplicat și într-un caz mai general. În acest caz, este asimptotic. Statistica F corespunzătoare poate fi calculată din statisticile celorlalte teste asimptotice - testul Wald (W) , testul multiplicatorului Lagrange (LM) și testul raportului de probabilitate (LR) - după cum urmează:

$F=\frac {nk}{q} W/n ~,~ F=\frac {nk}{q} \frac {LM} {n-LM} ~,~F=\frac {nk}{q}( e^{LR/n}-1)$ Toate aceste statistici au asimptotic distribuția F(q, nk), în ciuda faptului că valorile lor pot diferi pe eșantioane mici.

Testarea semnificației regresiei liniare

Acest test este foarte important în analiza regresiei și este în esență un caz special de testare a constrângerilor. În acest caz, ipoteza nulă se referă la egalitatea simultană la zero a tuturor coeficienților din factorii modelului de regresie (adică restricțiile totale k-1). În acest caz, modelul scurt este doar o constantă ca factor, adică coeficientul de determinare al modelului scurt este zero. Statistica testului este:

$F=\frac {R^2/(k-1)}{(1-R^2)/(nk)}~\sim ~F(k-1,nk)$

În consecință, dacă valoarea acestei statistici este mai mare decât valoarea critică la un anumit nivel de semnificație, atunci ipoteza nulă este respinsă, ceea ce înseamnă că regresia este semnificativă statistic. În caz contrar, modelul este considerat nesemnificativ.

Exemplu

Să fie estimată o regresie liniară a ponderii cheltuielilor alimentare în cheltuielile totale pentru o constantă, logaritmul cheltuielilor totale, numărul de membri ai familiei adulți și numărul de copii sub 11 ani. Adică există 4 parametri estimați în model (k=4). Să se obțină coeficientul de determinare pe baza rezultatelor evaluării regresiei . Folosind formula de mai sus, calculăm valoarea statisticii F dacă regresia este estimată din datele a 34 de observații și din datele a 64 de observații: $R^{2}=41,2366\%$ $F_1=\frac {0,412366/(4-1)}{(1-0,412366)/(34-4)}=0,70174*10=7,02$

$F_2=\frac {0,412366/(4-1)}{(1-0,412366)/(64-4)}=0,70174*20=14,04$

Valoarea critică a statisticii la un nivel de semnificație de 1% (în Excel, funcția FDISP) în primul caz este , iar în al doilea caz . În ambele cazuri, regresia este considerată semnificativă la un anumit nivel de semnificație. În primul caz, valoarea P este de 0,1%, iar în al doilea este de 0,00005%. Astfel, în al doilea caz, încrederea în semnificația regresiei este semnificativ mai mare (probabilitatea unei erori este mult mai mică dacă modelul este recunoscut ca fiind semnificativ). $F_{1\%}(3,30)=4,51$ $F_{1\%}(3,60)=4,13$

Testarea heteroscedasticității

Vezi testul Goldfeld-Quandt

Vezi și

Note

↑ Testul F pentru egalitatea a două variații . NIST . Data accesului: 29 martie 2017. Arhivat din original pe 9 martie 2017.