Distribuția elevilor | |
---|---|
Probabilitate densitate | |
funcția de distribuție | |
Desemnare | |
Opțiuni | este numărul de grade de libertate |
Purtător | |
Probabilitate densitate | |
funcția de distribuție | unde este funcția hipergeometrică |
Valorea estimata | , dacă |
Median | |
Modă | |
Dispersia | , dacă |
Coeficient de asimetrie | , dacă |
Coeficientul de kurtoză | , dacă |
Entropia diferenţială |
|
Funcția generatoare a momentelor | nedeterminat |
Distribuția lui Student ( -distribuția ) în teoria probabilității este o familie cu un singur parametru de distribuții absolut continue . William Seeley Gosset a fost primul care a publicat lucrări despre această distribuție sub pseudonimul „Student”.
Distribuția Student joacă un rol important în analiza statistică și este utilizată, de exemplu, în testul t Student pentru a evalua semnificația statistică a diferenței dintre mediile a două eșantion, în construirea unui interval de încredere pentru așteptarea matematică a unei populații normale cu o necunoscută. varianță și, de asemenea, în analiza regresiei liniare . Distribuția t a lui Student apare și în analiza bayesiană a datelor distribuite normal .
Graficul densității distribuției Student, ca și distribuția normală, este simetric și arată ca un clopot, dar cu cozi mai „grele”, adică realizările unei variabile aleatoare cu o distribuție Student tind să difere foarte mult de așteptările matematice . Acest lucru îl face important pentru înțelegerea comportamentului statistic al anumitor tipuri de rapoarte ale variabilelor aleatoare în care abaterea numitorului este mare și poate produce valori aberante atunci când numitorul raportului este aproape de zero.
Distribuția lui Student este un caz special al distribuției hiperbolice generalizate .
În statistică , distribuția t a fost obținută pentru prima dată ca distribuție posterioară în 1876 de Friedrich Helmert [1] [2] [3] și Jakob Luroth [4] [5] [6] .
În literatura de limba engleză, distribuția își ia numele dintr-un articol al lui William Gosset din revista lui Pearson Biometrics, publicat sub pseudonimul „Student” [7] [8] .
Gosset a lucrat la fabrica de bere Guinness din Dublin , Irlanda și și-a aplicat cunoștințele de statistică atât în procesul de fabricare a berii, cât și în câmp, pentru a dezvolta soiul de orz cu cel mai mare randament. Studiile au fost adaptate nevoilor companiei producătoare de bere și au fost efectuate pe un număr mic de observații, care au servit drept imbold pentru dezvoltarea metodelor care funcționează pe mostre mici.
Gosset a fost nevoit să-și ascundă identitatea în momentul publicării din cauza faptului că mai devreme un alt cercetător care lucra pentru Guinness a publicat în materialele sale informații care constituiau un secret comercial al companiei, după care Guinness le-a interzis angajaților săi să publice orice materiale, indiferent de informațiile conținute în lor.
Articolul lui Gosset descrie distribuția ca „ Distribuția de frecvență a abaterilor standard ale eșantioanelor extrase din populație ”. A devenit celebru datorită lucrării lui Ronald Fisher , care a numit distribuția „Distribuția studentului”, iar valoarea - litera t [9] .
Fie variabile aleatoare normale standard independente astfel încât . Apoi distribuția variabilei aleatoare , unde
se numește distribuția Studentului cu grade de libertate .
Această distribuție este absolut continuă cu densitatea :
,unde este funcția gamma Euler . În acest fel:
pentru chiarși în mod corespunzător
pentru cele ciudate .De asemenea, distribuția densității lui Student poate fi exprimată folosind funcția Euler beta :
.Graficul funcției de densitate a distribuției t este simetric, iar forma sa seamănă cu forma unui clopot, ca distribuția normală standard, dar este mai joasă și mai largă.
Următoarele grafice reflectă densitatea distribuției t pe măsură ce numărul de grade de libertate crește. Se poate observa că pe măsură ce , curba funcției de densitate seamănă din ce în ce mai mult cu distribuția normală standard.
Densitatea distribuției t (linia roșie) pentru 1, 2, 3, 5, 10 și 30 de grade de libertateFuncția de distribuție poate fi exprimată în termenii unei funcții beta incomplete regularizate . Pentru ,
unde [10]Pentru valoarea se poate obține datorită simetriei distribuției.
O altă formulă este corectă pentru [10] :
,unde 2 F 1 este un caz special al funcţiei hipergeometrice .
coincide cu densitatea de probabilitate a distribuției normale standard.
Distribuția studentului cu grade de libertate poate fi definită ca distribuția unei variabile aleatoare [10] [11]
,Unde
Fie, , variabile aleatoare independente cu distribuție normală ,
este media eșantionului,
este estimarea imparțială a varianței.Apoi variabila aleatoare
are o distribuție chi-pătrat cu grade de libertate [12] .
Variabila aleatoare are o distribuție normală standard, , deoarece media eșantionului are o distribuție normală . Mai mult, se poate demonstra că aceste două variabile aleatoare (normală și chi-pătrat ) sunt independente.
Înlocuiți valorile rezultate în valoare
,care are o distribuție Student și diferă de faptul că abaterea standard este înlocuită cu o variabilă aleatoare , . Rețineți că varianța necunoscută nu apare în , deoarece a fost atât la numărător, cât și la numitor. Gosset a obținut intuitiv densitatea de probabilitate stabilită mai sus, unde corespunde ; Fischer a dovedit acest lucru în 1925 [9] .
Distribuția criteriului statistic depinde, dar nu depinde de μ sau σ 2 , ceea ce face ca distribuția să fie importantă atât în teorie, cât și în practică.
Distribuția Studentului apare în legătură cu distribuția varianței eșantionului . Fie variabile aleatoare independente astfel încât . Să notăm media eșantionului acestui eșantion și varianța eșantionului acestuia . Apoi
.Legat de acest fapt este utilizarea distribuției t a lui Student în statistici pentru estimarea punctuală , construirea intervalelor de încredere și testarea ipotezelor despre o medie a eșantionului necunoscută dintr-o distribuție normală.
În statistica bayesiană, o distribuție t non-centrală apare ca o distribuție marginală a coeficientului de distribuție normală .
Dependența varianței necunoscute este exprimată în termeni de:
unde este datele { x i } și orice altă informație care ar putea fi folosită pentru a crea modelul.
Când datele sunt neinformative , teorema lui Bayes implică
distribuție normală și distribuție chi-pătrat inversă scalată, unde
.Integrala marginalizată în acest caz are forma
după înlocuire , unde ,
primim
și evaluare
acum integrala Gamma standard, care se evaluează la o constantă
aceasta este o distribuție t nestandardizată.
Folosind înlocuirea , obținem o distribuție t standardizată.
Derivarea de mai sus a fost prezentată pentru cazul unui anterior neinformativ pentru și ; dar este evident că orice probabilitate anterioară, duce la un amestec de distribuție normală și distribuție chi-pătrat inversă scalată, că o distribuție t non-centrală cu scalare și o bias de , parametrul de scalare va fi influențat de anterioară informații și date, și nu doar datele, ca în exemplul de mai sus.
Distribuția t Student poate fi generalizată la o familie de funcții cu trei parametri, inclusiv un factor de deplasare și un factor de scară , prin relația
sau
,unde este distribuția clasică Student cu grade de libertate.
Densitatea distribuției Student nestandardizate este o distribuție Pearson de tip VII reparametrizată și este determinată de următoarea expresie [13]
Aici nu este abaterea standard, ca în distribuția normală, este, în general, un parametru de scară diferit. Cu toate acestea, la , densitatea de distribuție Pearson de tip VII tinde către o densitate de distribuție normală cu o abatere standard .
În inferența bayesiană, distribuția marginală a mediei necunoscute este mai mare decât , și corespunde cu , unde
pentru ,
pentru
Această distribuție este rezultatul unei combinații a unei distribuții gaussiene (distribuție normală) cu o medie și o varianță necunoscută, cu o distribuție gamma inversă, cu o varianță având parametrii și . Cu alte cuvinte, se presupune că variabila aleatoare X are o distribuție normală cu o varianță necunoscută distribuită ca o gamma inversă, iar apoi varianța este eliminată. Această proprietate este utilă deoarece distribuția gamma inversă este anterioară conjugată a varianței distribuției gaussiene, motiv pentru care distribuția t a lui Student nestandardizată apare în mod natural în multe probleme bayesiene.
În mod echivalent, această distribuție este rezultatul unei combinații a unei distribuții gaussiene cu o distribuție chi-pătrat inversă scalată cu parametrii și . Distribuția chi-pătrat inversă scalată este exact aceeași distribuție ca și distribuția gamma inversă, dar cu o parametrizare diferită, și anume .
O parametrizare alternativă bazată pe parametrul de scalare inversă λ [14] (similar cu modul în care măsura acurateței este inversul varianței) definit de relația ,
atunci densitatea este definită ca
Proprietăți:
pentru ,
pentru
Această distribuție este rezultatul unei combinații a unei distribuții gaussiene cu o medie și o măsură necunoscută de precizie (varianță inversă), cu o distribuție gamma cu parametri și . Cu alte cuvinte, se presupune că variabila aleatoare X are o distribuție normală cu o măsură de precizie distribuită gamma necunoscută.
T-t non-central este o modalitate de a generaliza t-t standard prin includerea unui factor de deplasare suplimentar (parametru de non-centralitate) .
În distribuția non-centrală a Studentului, mediana nu coincide cu modul, i.e. nu este simetric (spre deosebire de nestandardizat).
Această distribuție este importantă pentru studierea puterii statistice a testului t Student.
Distribuția t Student discretă are următoarea funcție de distribuție cu r proporțional: [15]
Unde a , b și k sunt parametri. O astfel de distribuție apare atunci când avem de-a face cu sisteme din distribuții discrete, cum ar fi distribuția Pearson . [16]
Putem obține un eșantion cu o distribuție t luând raportul valorilor din distribuția normală și rădăcina pătrată a distribuției chi-pătrat.
unde sunt variabile aleatoare normale standard independente astfel încât
Dacă în loc de o distribuție normală, luăm de exemplu, Irwin-Hall , obținem o distribuție simetrică cu 4 parametri, care include distribuțiile normale, uniforme, triunghiulare, precum și distribuțiile Student și Cauchy; astfel, această generalizare este mai flexibilă decât multe alte generalizări simetrice ale distribuției gaussiene.
Unele statistici pot avea o distribuție t a lui Student pe dimensiuni mici ale eșantionului, astfel încât distribuția t a lui Student formează baza testelor de semnificație. De exemplu, testul de corelare a rangului lui Spearman ρ , în cazul zero (corelație zero) este bine aproximat de o distribuție t a lui Student cu o dimensiune a eșantionului mai mare de 20.
T-t-ul lui Student poate fi folosit pentru a estima cât de probabil este ca media adevărată să fie în orice interval dat.
Să presupunem că numărul A este ales astfel încât
.
Atunci T are o distribuție t cu n – 1 grade de libertate. În virtutea simetriei distribuției, aceasta este echivalentă cu a spune că A satisface
sau , atunci
care este echivalent cu
astfel, un interval cu o limită de încredere în puncte este un interval de încredere de 90% pentru μ. Prin urmare, dacă găsim media unui set de observații (distribuite în mod normal), putem folosi distribuția t a lui Student pentru a determina dacă limitele de încredere asupra acelei medii includ orice valoare prezisă teoretic, cum ar fi valoarea prezisă din ipoteza nulă.
O astfel de abordare este luată în testul t al lui Student : dacă diferența dintre mediile eșantioanelor din două distribuții normale poate fi ea însăși distribuită în mod normal, t-t al lui Student poate fi utilizat pentru a investiga dacă această diferență poate fi considerată zero cu un grad ridicat. de probabilitate.
Pentru eșantioanele distribuite normal, limita superioară de încredere (UCL) cu o singură coadă (1− a ) a mediei este
.
Limita superioară de încredere rezultată va fi cea mai mare medie pentru intervalul de încredere dat și dimensiunea eșantionului. Cu alte cuvinte, dacă media unui set de observații, probabilitatea ca media distribuției să producă este egală cu un nivel de semnificație de 1– a.
Distribuția t a lui Student poate fi utilizată pentru a obține un interval predictor pentru un eșantion neobservat dintr-o distribuție normală cu medie și varianță necunoscute.
Distribuția t a lui Student, în special cea non-centrală, apare adesea în statistica bayesiană ca urmare a asocierii cu distribuția normală.
Într-adevăr, dacă nu cunoaștem varianța unei variabile aleatoare distribuite normal, dar cunoaștem distribuția anterioară conjugată, va fi posibil să alegem o distribuție gamma astfel încât valorile rezultate să aibă o distribuție Student.
Construcțiile echivalente cu aceleași rezultate includ distribuția chi-pătrat inversă scalată conjugată. Dacă distribuția anterioară incorectă, proporțională cu , este situată deasupra varianței, atunci apare și o distribuție Student. Acest lucru se întâmplă indiferent dacă media unei cantități distribuite normal distribuită cu o distribuție anterioară conjugată este cunoscută sau nu.
Distribuția t a lui Student este adesea folosită ca o alternativă la distribuția normală pentru un model de date. [18] Acest lucru se datorează faptului că datele reale au destul de des cozi mai grele decât ar permite distribuția normală. Abordarea clasică este de a identifica valorile aberante și de a le elimina (sau de a le reduce greutatea). Cu toate acestea, nu este întotdeauna ușor să definiți un valori abere (mai ales în problemele cu dimensiuni mari ), iar distribuția t a lui Student este o alegere naturală pentru a oferi o abordare parametrică a statisticilor robuste .
Lange și alții au explorat utilizarea distribuției Student pentru modelarea robustă a datelor. Calcul bayesian se găsește în Gelman și colab.
Numărul de grade de libertate controlează curtoza distribuției și este corelat cu parametrul de scalare.
Fie integrala funcției de densitate de probabilitate a lui Student, fie probabilitatea ca valoarea lui t să fie mai mică decât valoarea calculată din datele observaționale.
Funcția poate fi utilizată pentru a testa dacă diferența dintre mediile a două seturi de date luate din aceeași populație este semnificativă statistic, acest lucru se realizează prin calcularea valorii corespunzătoare a lui t și a probabilității apariției acesteia.
Acesta este folosit, de exemplu, în testul T al Studentului . Pentru o distribuție t cu grade de libertate, este probabilitatea ca t să fie mai mică decât valoarea observată dacă cele două valori medii au fost aceleași. Poate fi calculat cu ușurință din funcția de distribuție cumulativă a distribuției Studentului:
unde I x - funcție beta incompletă regularizată (a, b).
În testarea ipotezelor statistice, această funcție este utilizată pentru a construi o valoare p .
Există diferite abordări pentru a obține variabile aleatoare din distribuția Student. Totul depinde dacă sunt necesare eșantioane independente sau dacă acestea pot fi construite prin aplicarea funcției de distribuție inversă pe un eșantion cu o distribuție uniformă.
În cazul unui eșantion independent, este ușor de aplicat o extensie a metodei Box-Muller în forma sa polară (trigonometrică) [19] . Avantajul acestei metode este că se aplică în mod egal tuturor gradelor pozitive de libertate , în timp ce multe alte metode nu vor funcționa dacă este aproape de zero. [19]
Distribuția densității Student poate fi obținută prin rezolvarea următoarei ecuații diferențiale :
Multe manuale de statistică includ tabele de distribuție a elevilor.
În zilele noastre, cea mai bună modalitate de a obține o valoare t critică complet exactă, sau probabilitatea cumulativă, este să utilizați o funcție statistică încorporată în foi de calcul (Office Excel, OpenOffice Calc etc.) sau un calculator web interactiv. Funcțiile necesare pentru foile de calcul sunt TDIST și TINV.
Tabelul de mai jos include valorile unor valori pentru distribuțiile lui Student cu v grade de libertate pentru un număr de regiuni critice unilaterale sau cu două fețe .
Ca exemplu de citire a acestui tabel, să luăm al patrulea rând, care începe la 4; aceasta înseamnă că v, numărul de grade de libertate, este 4 (și dacă lucrăm, așa cum se arată mai sus, cu n mărimi cu sumă fixă, atunci n = 5). Să luăm a cincea valoare din coloană 95% pentru o față (90% pentru două fețe ). Valoarea este „2.132”. Prin urmare, probabilitatea ca T să fie mai mic de 2,132 este de 95% sau Pr(−∞ < T < 2,132) = 0,95; aceasta înseamnă, de asemenea, că Pr(−2,132 < T < 2,132) = 0,9.
Aceasta poate fi calculată din simetria distribuției,
Pr( T < −2,132) = 1 − Pr( T > −2,132) = 1 − 0,95 = 0,05,primim
Pr(−2,132 < T < 2,132) = 1 − 2(0,05) = 0,9.Rețineți că ultimul rând oferă și puncte critice: o distribuție t a lui Student cu un număr infinit de grade este o distribuție normală.
Prima coloană afișează numărul de grade de libertate.
unilateral | 75% | 80% | 85% | 90% | 95% | 97,5% | 99% | 99,5% | 99,75% | 99,9% | 99,95% |
---|---|---|---|---|---|---|---|---|---|---|---|
bilateral | cincizeci% | 60% | 70% | 80% | 90% | 95% | 98% | 99% | 99,5% | 99,8% | 99,9% |
unu | 1.000 | 1.376 | 1.963 | 3.078 | 6.314 | 12.71 | 31.82 | 63,66 | 127,3 | 318,3 | 636,6 |
2 | 0,816 | 1.080 | 1.386 | 1.886 | 2.920 | 4.303 | 6.965 | 9.925 | 14.09 | 22.33 | 31.60 |
3 | 0,765 | 0,978 | 1.250 | 1.638 | 2.353 | 3.182 | 4.541 | 5.841 | 7.453 | 10.21 | 12.92 |
patru | 0,741 | 0,941 | 1.190 | 1.533 | 2.132 | 2.776 | 3.747 | 4.604 | 5.598 | 7.173 | 8.610 |
5 | 0,727 | 0,920 | 1.156 | 1.476 | 2.015 | 2.571 | 3.365 | 4.032 | 4.773 | 5.893 | 6.869 |
6 | 0,718 | 0,906 | 1.134 | 1.440 | 1.943 | 2.447 | 3.143 | 3.707 | 4.317 | 5.208 | 5.959 |
7 | 0,711 | 0,896 | 1.119 | 1.415 | 1.895 | 2.365 | 2.998 | 3.499 | 4.029 | 4.785 | 5.408 |
opt | 0,706 | 0,889 | 1.108 | 1.397 | 1.860 | 2.306 | 2.896 | 3.355 | 3.833 | 4.501 | 5.041 |
9 | 0,703 | 0,883 | 1.100 | 1.383 | 1.833 | 2.262 | 2.821 | 3.250 | 3.690 | 4.297 | 4.781 |
zece | 0,700 | 0,879 | 1.093 | 1.372 | 1.812 | 2.228 | 2.764 | 3.169 | 3.581 | 4.144 | 4.587 |
unsprezece | 0,697 | 0,876 | 1.088 | 1.363 | 1.796 | 2.201 | 2.718 | 3.106 | 3.497 | 4.025 | 4.437 |
12 | 0,695 | 0,873 | 1.083 | 1.356 | 1.782 | 2.179 | 2.681 | 3.055 | 3.428 | 3.930 | 4.318 |
13 | 0,694 | 0,870 | 1.079 | 1.350 | 1.771 | 2.160 | 2.650 | 3.012 | 3.372 | 3.852 | 4.221 |
paisprezece | 0,692 | 0,868 | 1.076 | 1.345 | 1.761 | 2.145 | 2.624 | 2.977 | 3.326 | 3.787 | 4.140 |
cincisprezece | 0,691 | 0,866 | 1.074 | 1.341 | 1.753 | 2.131 | 2.602 | 2.947 | 3.286 | 3.733 | 4.073 |
16 | 0,690 | 0,865 | 1.071 | 1.337 | 1.746 | 2.120 | 2.583 | 2.921 | 3.252 | 3.686 | 4.015 |
17 | 0,689 | 0,863 | 1.069 | 1.333 | 1.740 | 2.110 | 2.567 | 2.898 | 3.222 | 3.646 | 3.965 |
optsprezece | 0,688 | 0,862 | 1.067 | 1.330 | 1.734 | 2.101 | 2.552 | 2.878 | 3.197 | 3.610 | 3.922 |
19 | 0,688 | 0,861 | 1.066 | 1.328 | 1.729 | 2.093 | 2.539 | 2.861 | 3.174 | 3.579 | 3.883 |
douăzeci | 0,687 | 0,860 | 1.064 | 1.325 | 1.725 | 2.086 | 2.528 | 2.845 | 3.153 | 3.552 | 3.850 |
21 | 0,686 | 0,859 | 1.063 | 1.323 | 1.721 | 2.080 | 2.518 | 2.831 | 3.135 | 3.527 | 3.819 |
22 | 0,686 | 0,858 | 1.061 | 1.321 | 1.717 | 2.074 | 2.508 | 2.819 | 3.119 | 3.505 | 3.792 |
23 | 0,685 | 0,858 | 1.060 | 1.319 | 1.714 | 2.069 | 2.500 | 2.807 | 3.104 | 3.485 | 3.767 |
24 | 0,685 | 0,857 | 1.059 | 1.318 | 1.711 | 2.064 | 2.492 | 2.797 | 3.091 | 3.467 | 3.745 |
25 | 0,684 | 0,856 | 1.058 | 1.316 | 1.708 | 2.060 | 2.485 | 2.787 | 3.078 | 3.450 | 3.725 |
26 | 0,684 | 0,856 | 1.058 | 1.315 | 1.706 | 2.056 | 2.479 | 2.779 | 3.067 | 3.435 | 3.707 |
27 | 0,684 | 0,855 | 1.057 | 1.314 | 1.703 | 2.052 | 2.473 | 2.771 | 3.057 | 3.421 | 3.690 |
28 | 0,683 | 0,855 | 1.056 | 1.313 | 1.701 | 2.048 | 2.467 | 2.763 | 3.047 | 3.408 | 3.674 |
29 | 0,683 | 0,854 | 1.055 | 1.311 | 1.699 | 2.045 | 2.462 | 2.756 | 3.038 | 3.396 | 3.659 |
treizeci | 0,683 | 0,854 | 1.055 | 1.310 | 1.697 | 2.042 | 2.457 | 2.750 | 3.030 | 3.385 | 3.646 |
40 | 0,681 | 0,851 | 1.050 | 1.303 | 1.684 | 2.021 | 2.423 | 2.704 | 2.971 | 3.307 | 3.551 |
cincizeci | 0,679 | 0,849 | 1.047 | 1.299 | 1.676 | 2.009 | 2.403 | 2.678 | 2.937 | 3.261 | 3.496 |
60 | 0,679 | 0,848 | 1.045 | 1.296 | 1.671 | 2.000 | 2.390 | 2.660 | 2.915 | 3.232 | 3.460 |
80 | 0,678 | 0,846 | 1.043 | 1.292 | 1.664 | 1.990 | 2.374 | 2.639 | 2.887 | 3.195 | 3.416 |
100 | 0,677 | 0,845 | 1.042 | 1.290 | 1.660 | 1.984 | 2.364 | 2.626 | 2.871 | 3.174 | 3.390 |
120 | 0,677 | 0,845 | 1.041 | 1.289 | 1.658 | 1.980 | 2.358 | 2.617 | 2.860 | 3.160 | 3.373 |
∞ | 0,674 | 0,842 | 1.036 | 1.282 | 1.645 | 1.960 | 2.326 | 2.576 | 2.807 | 3.090 | 3.291 |
De exemplu, dacă ni se oferă un eșantion cu o varianță a eșantionului de 2 și o medie a eșantionului de 10 extrasă dintr-un set de eșantion de 11 (10 grade de libertate), folosind formula
Putem determina cu 90% de încredere că adevărata medie este:
(adică, în medie, 90% din timp limita superioară este mai mare decât media adevărată)
si, tot cu 90% certitudine, gasim o adevarata medie mai mare decat
(În medie, 90% din timp, limita inferioară este mai mică decât media reală)
Deci cu 80% certitudine (1-2*(1-90%) = 80%) găsim valoarea adevărată în interval
Cu alte cuvinte, 80% din timp media adevărată este sub limita superioară și peste limita inferioară.
Acest lucru nu este echivalent cu a spune că există o șansă de 80% ca adevărata medie să se afle între o anumită pereche de limite superioare și inferioare.
O generalizare a distribuției Student este distribuția hiperbolică generalizată .
![]() |
---|
Distribuții de probabilitate | |
---|---|
Discret | |
Absolut continuu |