Testul de bunătate a potrivirii lui Pearson sau testul de bunătate a potrivirii (chi-pătrat) este o metodă neparametrică care vă permite să evaluați semnificația diferențelor dintre numărul real (dezvăluit ca rezultat al studiului) de rezultate sau caracteristicile calitative ale eșantionului care se încadrează în fiecare categorie și numărul teoretic la care se poate aștepta în loturile studiate dacă ipoteza nulă este adevărată. În termeni mai simpli, metoda vă permite să evaluați semnificația statistică a diferențelor dintre doi sau mai mulți indicatori relativi (frecvențe, acțiuni).
Este cel mai des folosit criteriu pentru testarea ipotezei că mărimea eșantionului observat aparține unei legi teoretice de distribuție .
Criteriul chi-pătrat pentru analiza tabelelor de contingență a fost dezvoltat și propus în 1900 de fondatorul statisticii matematice , omul de știință englez Karl Pearson .
Criteriul poate fi folosit pentru a testa ipoteze simple ale formei
unde este vectorul cunoscut al parametrilor legii teoretice, iar la testarea ipotezelor complexe de forma
când o estimare a unui parametru de distribuție scalară sau vectorială este calculată pe același eșantion.
Procedura de testare a ipotezelor folosind criterii de tip presupune gruparea observațiilor. Domeniul de definire al unei variabile aleatoare este împărțit în intervale care nu se intersectează prin puncte de limită
unde este limita inferioară a domeniului de definire a unei variabile aleatoare; - Marginea superioară.
În conformitate cu partiția dată, se calculează numărul de valori ale eșantionului care se încadrează în al- lea interval și probabilitățile de a se încadra în interval
corespunzătoare unei legi teoretice cu funcţie de distribuţie
în care
șiLa testarea unei ipoteze simple, se cunosc atât forma legii, cât și toți parametrii ei (se cunoaște parametrul scalar sau vectorial ).
Statisticile utilizate în testele de bunăstare a tipului se bazează pe măsurarea abaterilor de la .
Statistica de bunătate a potrivirii Pearson este determinată de relație
În cazul testării unei ipoteze simple, în limita la , această statistică se supune unei distribuții cu grade de libertate, dacă ipoteza testată este adevărată . Densitatea distribuției -, care este un caz special al distribuției gamma , este descrisă de formula
Ipoteza testată este respinsă pentru valori mari ale statisticilor, atunci când valoarea statisticilor calculate din eșantion este mai mare decât valoarea critică
sau nivelul de semnificație atins ( valoarea p ) este mai mic decât nivelul de semnificație dat (probabilitatea dată de eroare de primul fel ) .
La testarea ipotezelor complexe, dacă parametrii legii pentru același eșantion sunt estimați ca urmare a minimizării statisticilor sau pentru un eșantion grupat folosind metoda maximei probabilități , atunci statistica , dacă ipoteza testată este adevărată, respectă o distribuție cu grade de libertate, unde este numărul de parametri estimați din eșantion.
Dacă parametrii sunt estimați din eșantionul original negrupat , atunci distribuția statisticii nu va fi o distribuție [1] . Mai mult, distribuția statisticilor atunci când ipoteza este adevărată va depinde de metoda de grupare, adică de modul în care domeniul de definiție este împărțit în intervale [2] .
Când estimați metoda de probabilitate maximă a parametrilor pentru un eșantion negrupat, puteți utiliza criterii modificate precum [3] [4] [5] [6] .
Atunci când se utilizează criterii de bunăstare a potrivirii, de regulă, nu sunt stabilite ipoteze concurente: eșantionul aparține unei anumite legi, iar ca ipoteză concurentă, se ia în considerare orice altă lege. Desigur, criteriul va putea distinge în moduri diferite de legea corespunzătoare, legi apropiate sau îndepărtate de aceasta. Dacă specificăm o ipoteză concurentă și o lege concurentă corespunzătoare acesteia , atunci putem vorbi deja despre erori de două tipuri: nu numai despre o eroare de primul fel (respingerea ipotezei testate atunci când este adevărată) și probabilitatea de a această eroare , dar și despre o eroare de al 2-lea fel (nerespingerea în condiții de corectitudine ) și probabilitatea acestei erori .
Puterea criteriului în raport cu ipoteza concurentă se caracterizează prin valoarea . Cu cât criteriul recunoaște mai bine o pereche de ipoteze concurente și , cu atât puterea sa este mai mare.
Puterea testului de bunătate a potrivirii lui Pearson depinde în mod semnificativ de metoda de grupare [7] [8] și de numărul de intervale ales [8] [9] .
În cadrul grupării optime asimptotic, care maximizează diferitele funcționalități ale matricei de informații Fisher asupra datelor grupate (minimizează pierderile asociate grupării), testul de bunăstare a potrivirii Pearson are puterea maximă în raport cu ipotezele concurente „(foarte) apropiate” [1]. 10] [8] [9] .
Când se testează ipoteze simple și se utilizează gruparea optimă asimptotic, testul Pearson de bunătate a potrivirii are un avantaj în putere față de testele neparametrice de bunătate a potrivirii. Când se testează ipoteze complexe, puterea criteriilor neparametrice crește și nu există un astfel de avantaj [11] [12] . Totuși, pentru orice pereche de ipoteze concurente (legi concurente), prin alegerea numărului de intervale și a metodei de împărțire a domeniului de definire a unei variabile aleatoare în intervale, este posibilă maximizarea puterii criteriului [13] .