Distribuția elevilor

Distribuția elevilor
Probabilitate densitate
funcția de distribuție
Desemnare	${\mathrm {t))(n)$
Opțiuni	$n>0$ este numărul de grade de libertate
Purtător	$x\in (-\infty ;+\infty )$
Probabilitate densitate	${\frac {\Gamma ({\frac {n+1}{2))}}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))} \,(1+{\frac {x^{2}}{n}})^{\frac {n+1}{2}}}}$
funcția de distribuție	${\frac {1}{2}}+{x\Gamma \left({\frac {n+1}{2}}\right)}\times$ ${\frac {\,_{2}F_{1}\left({\frac {1}{2)),{\frac {n+1}{2});{\frac {3} {2));-{\frac {x^{2}}{n}}\right)}{{\sqrt {\pi n}}\,\Gamma ({\frac {n}{2}}) }}$ unde este funcția hipergeometrică $_{2}F_{1)$
Valorea estimata	$0$ , dacă $n>1$
Median	$0$
Modă	$0$
Dispersia	${\frac {n}{n-2))$ , dacă $n>2$
Coeficient de asimetrie	$0$ , dacă $n>3$
Coeficientul de kurtoză	${\frac {6}{n-4)}$ , dacă $n>4$
Entropia diferenţială	${\begin{matrice}{\frac {n+1}{2}}\left[\psi ({\frac {1+n}{2}})-\psi ({\frac {n}{2} })\right]\\[0,5em]+\log {\left[{\sqrt {n}}B({\frac {n}{2}},{\frac {1}{2}})\ dreapta]}\end{matrice}}$ $\psi =\Gamma '/\Gamma$ , $B$ : funcția beta
Funcția generatoare a momentelor	nedeterminat

Distribuția lui Student ( -distribuția ) în teoria probabilității este o familie cu un singur parametru de distribuții absolut continue . William Seeley Gosset a fost primul care a publicat lucrări despre această distribuție sub pseudonimul „Student”. $t$

Distribuția Student joacă un rol important în analiza statistică și este utilizată, de exemplu, în testul t Student pentru a evalua semnificația statistică a diferenței dintre mediile a două eșantion, în construirea unui interval de încredere pentru așteptarea matematică a unei populații normale cu o necunoscută. varianță și, de asemenea, în analiza regresiei liniare . Distribuția t a lui Student apare și în analiza bayesiană a datelor distribuite normal .

Graficul densității distribuției Student, ca și distribuția normală, este simetric și arată ca un clopot, dar cu cozi mai „grele”, adică realizările unei variabile aleatoare cu o distribuție Student tind să difere foarte mult de așteptările matematice . Acest lucru îl face important pentru înțelegerea comportamentului statistic al anumitor tipuri de rapoarte ale variabilelor aleatoare în care abaterea numitorului este mare și poate produce valori aberante atunci când numitorul raportului este aproape de zero.

Distribuția lui Student este un caz special al distribuției hiperbolice generalizate .

Istorie și etimologie

În statistică , distribuția t a fost obținută pentru prima dată ca distribuție posterioară în 1876 de Friedrich Helmert [1] [2] [3] și Jakob Luroth [4] [5] [6] .

În literatura de limba engleză, distribuția își ia numele dintr-un articol al lui William Gosset din revista lui Pearson Biometrics, publicat sub pseudonimul „Student” [7] [8] .

Gosset a lucrat la fabrica de bere Guinness din Dublin , Irlanda și și-a aplicat cunoștințele de statistică atât în procesul de fabricare a berii, cât și în câmp, pentru a dezvolta soiul de orz cu cel mai mare randament. Studiile au fost adaptate nevoilor companiei producătoare de bere și au fost efectuate pe un număr mic de observații, care au servit drept imbold pentru dezvoltarea metodelor care funcționează pe mostre mici.

Gosset a fost nevoit să-și ascundă identitatea în momentul publicării din cauza faptului că mai devreme un alt cercetător care lucra pentru Guinness a publicat în materialele sale informații care constituiau un secret comercial al companiei, după care Guinness le-a interzis angajaților săi să publice orice materiale, indiferent de informațiile conținute în lor.

Articolul lui Gosset descrie distribuția ca „ Distribuția de frecvență a abaterilor standard ale eșantioanelor extrase din populație ”. A devenit celebru datorită lucrării lui Ronald Fisher , care a numit distribuția „Distribuția studentului”, iar valoarea - litera t [9] .

Definiție

Fie variabile aleatoare normale standard independente astfel încât . Apoi distribuția variabilei aleatoare , unde $Y_{0},Y_{1},\ldots,Y_{n}$ $Y_{i}\sim {\mathcal {N)}(0,1),\;i=0,\ldots, n$ $t$

t={\frac {Y_{0}}{{\sqrt {{\frac {1}{n}}\sum \limits _{{i=1}}^{n}Y_{i}^{2} }}}},

se numește distribuția Studentului cu grade de libertate . $n$ $t\sim {\mathrm {t}}(n)$

Această distribuție este absolut continuă cu densitatea :

f_{t}(y)={\frac {\Gamma \left({\frac {n+1}{2}}\right)}{{\sqrt {n\pi }}\,\Gamma \left({\frac {n}{2}}\right)}}\,\left(1+{\frac {y^{2}}{n}}\right)^{-{\frac {n +1}{2}}}

unde este funcția gamma Euler . În acest fel: $\Gamma$

{\frac {\Gamma ({\frac {n+1}{2))}}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))} }}={\frac {(n-1)(n-3)\cdots 5\cdot 3}{2{\sqrt {n}}(n-2)(n-4)\cdots 4\cdot 2\ ,}},

pentru chiar

n

și în mod corespunzător

{\frac {\Gamma ({\frac {n+1}{2))}}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))} }}={\frac {(n-1)(n-3)\cdots 4\cdot 2}{\pi {\sqrt {n}}(n-2)(n-4)\cdots 5\cdot 3 \,}},

pentru cele ciudate .

n

De asemenea, distribuția densității lui Student poate fi exprimată folosind funcția Euler beta : $\mathrm {B}$

f_{t}(y)={\frac {1}({\sqrt {n)}\,\mathrm {B} ({\frac {1}{2)),{\frac {n} {2))))\left(1+{\frac {y^{2}}{n}}\right)^{\!-{\frac {n+1}{2}}}

Graficul funcției de densitate a distribuției t este simetric, iar forma sa seamănă cu forma unui clopot, ca distribuția normală standard, dar este mai joasă și mai largă.

Următoarele grafice reflectă densitatea distribuției t pe măsură ce numărul de grade de libertate crește. Se poate observa că pe măsură ce , curba funcției de densitate seamănă din ce în ce mai mult cu distribuția normală standard. $n$ $n$

Densitatea distribuției t (linia roșie) pentru 1, 2, 3, 5, 10 și 30 de grade de libertate
față de distribuția normală standard (linia albastră). Diagramele anterioare sunt afișate cu verde.

Funcția de distribuție

Funcția de distribuție poate fi exprimată în termenii unei funcții beta incomplete regularizate . Pentru , $eu$ $t>0$

F(t)=\int _{-\infty }^{t}f(u)\,du=1-{\tfrac {1}{2}}I_{x(t)}\left( {\tfrac {n}{2)),{\tfrac {1}{2}}\dreapta),

unde [10]

x(t)={\frac {n}{t^{2}+n)).

Pentru valoarea se poate obține datorită simetriei distribuției. $t<0$

O altă formulă este corectă pentru [10] : $t^{2}<n$

\int _{-\infty }^{t}f(u)\,du={\tfrac {1}{2}}+t{\frac {\Gamma \left({\tfrac {1} {2}}(n+1)\right)}{{\sqrt {\pi n}}\,\Gamma \left({\tfrac {n}{2}}\right))){}_{2 }F_{1}\left({\tfrac {1}{2)),{\tfrac {1}{2}}(n+1);{\tfrac {3}{2));-{\tfrac {t^{2}}{n}}\dreapta)

unde 2 F 1 este un caz special al funcţiei hipergeometrice .

Cazuri speciale

Distribuția lui Student cu un grad de libertate ( ) este distribuția Cauchy standard . $n=1$

Funcția de distribuție:

F(t)={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arctan(t)

Probabilitate densitate:

f(t)={\frac {1}{\pi (1+t^{2})))

Distribuția studentului cu două grade de libertate ( ): $n=2$

Funcția de distribuție:

F(t)={\tfrac {1}{2}}+{\frac {t}{2{\sqrt {2+t^{2}}}}}

Densitatea de probabilitate: ;

f(t)={\frac {1}{\left(2+t^{2}\right)^{\frac {3}{2}))}

Distribuția studentului cu trei grade de libertate ( ): $n=3$

Probabilitate densitate:

f(t)={\frac {6{\sqrt {3}}}{\pi \left(3+t^{2}\right)^{2))}

Distribuția studentului cu un număr infinit de grade de libertate ( ): $n=\infty$

Probabilitate densitate

f(t)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {t^{2}}{2}}}

coincide cu densitatea de probabilitate a distribuției normale standard.

Proprietăți ale distribuției Student

Distribuția elevului este simetrică. În special, dacă , atunci . $t\sim {\mathrm {t}}(n)$ $-t\sim \mathrm {t} (n)$
Sunt doar momente de ordine și nu există momente de ordine . În acest caz, toate momentele existente de ordin impar sunt egale cu zero. $k<n$ $k\geq n$

{\mathbb {E}}\left[t^{k}\right]=0

, dacă impar ;

k

\mathbb {E} \left[t^{k}\right]={\frac {1}({\sqrt {\pi }}\Gamma \left({\frac {n}{2)) \right)}}\left[\Gamma \left({\frac {k+1}{2}}\right)\Gamma \left({\frac {nk}{2}}\right)n^{\ frac {k}{2}}\dreapta]

dacă este chiar. În special,

k

Aşteptare matematică dacă . ${\mathbb {E}}[t]=0$ $n>1$
varianza daca . ${\mathrm {D}}[t]={n \over n-2}$ $n>2$

Caracteristici

Distribuția studentului cu grade de libertate poate fi definită ca distribuția unei variabile aleatoare [10] [11] $k$ $T$

T={\frac {Z}{\sqrt {V/k)}}=Z{\sqrt {\frac {k}{V}}}

Unde

Z este o variabilă aleatoare cu o distribuție normală standard ; ${\mathcal {N}}(0,1)$
V este o variabilă aleatorie având o distribuție chi-pătrat cu grade de libertate; $k$
Z și V sunt variabile aleatoare independente .

Fie, , variabile aleatoare independente cu distribuție normală , $X_{1},\ldots ,X_{n}$ ${\mathcal {N}}(\mu ,\sigma ^{2})$

${\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})$ este media eșantionului,

S_{n}^{\;2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline { X}}_{n}\dreapta)^{2}

este estimarea imparțială a varianței.

Apoi variabila aleatoare

V=(n-1){\frac {S_{n}^{2}}{\sigma ^{2}}}

are o distribuție chi-pătrat cu grade de libertate [12] . $k=n-1$

Variabila aleatoare are o distribuție normală standard, , deoarece media eșantionului are o distribuție normală . Mai mult, se poate demonstra că aceste două variabile aleatoare (normală și chi-pătrat ) sunt independente. $Z=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt {n}}{\sigma }}$ $Z\sim {\mathcal {N}}(0,1)$ ${\overline {X}}_{n}$ ${\mathcal {N}}(\mu ,{\frac {\sigma ^{2}}{n}})$ $Z$ $V$

Înlocuiți valorile rezultate în valoare

T\equiv {\frac {Z}{\sqrt {V/k}}}=\left({\overline {X}}_{n}-\mu \right) {\frac {\sqrt { n}}{S_{n}}}

care are o distribuție Student și diferă de faptul că abaterea standard este înlocuită cu o variabilă aleatoare , . Rețineți că varianța necunoscută nu apare în , deoarece a fost atât la numărător, cât și la numitor. Gosset a obținut intuitiv densitatea de probabilitate stabilită mai sus, unde corespunde ; Fischer a dovedit acest lucru în 1925 [9] . $Z$ $\sigma$ $S_{n}$ $\sigma ^{2}$ $T$ $k$ $n-1$

Distribuția criteriului statistic depinde, dar nu depinde de μ sau σ 2 , ceea ce face ca distribuția să fie importantă atât în teorie, cât și în practică. $T$ $k$

Cum apare distribuția t

Varianta eșantion

Distribuția Studentului apare în legătură cu distribuția varianței eșantionului . Fie variabile aleatoare independente astfel încât . Să notăm media eșantionului acestui eșantion și varianța eșantionului acestuia . Apoi $X_{1},\ldots ,X_{n}$ $X_{i}\sim {\mathrm {N}}(\mu ,\sigma ^{2}),\;i=1,\ldots ,n$ ${\bara {X}}$ $S^{2}$

{\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}\sim {\mathrm {t}}(n-1)

Legat de acest fapt este utilizarea distribuției t a lui Student în statistici pentru estimarea punctuală , construirea intervalelor de încredere și testarea ipotezelor despre o medie a eșantionului necunoscută dintr-o distribuție normală.

Statistici bayesiene

În statistica bayesiană, o distribuție t non-centrală apare ca o distribuție marginală a coeficientului de distribuție normală . $m$ ${\mathcal {N}}(m,\sigma ^{2})$

Dependența varianței necunoscute este exprimată în termeni de:

{\begin{aligned}p(\mu \mid D,I)=&\int p(\mu ,\sigma ^{2}\mid D,I)\;d\sigma ^{2}= \int p(\mu \mid D,\sigma ^{2},I)\;p(\sigma ^{2}\mid D,I)\;d\sigma ^{2}\end{aligned}}

unde este datele { x i } și orice altă informație care ar putea fi folosită pentru a crea modelul. $D$ $eu$

Când datele sunt neinformative , teorema lui Bayes implică

{\begin{aligned}p(\mu \mid D,\sigma ^{2},I)\sim &N({\bar {x)),{\frac {\sigma ^{2}}{ n)))\end{aliniat}}

{\begin{aligned}p(\sigma ^{2}\mid D,I)\sim &\operatorname {Scale-inv-\chi ^{2}} (n,s^{2})\ sfârşit{aliniat}}

distribuție normală și distribuție chi-pătrat inversă scalată, unde

s^{2}=\sum {\frac {(x_{i}-{\bar {x)})^{2}}{n-1}}

Integrala marginalizată în acest caz are forma

{\begin{aligned}p(\mu |D,I)&\propto \int _{0}^{\infty }{\frac {1}{\sqrt {\sigma ^{2)}} }\exp \left(-{\frac {1}{2\sigma ^{2}}}n(\mu -{\bar {x}})^{2}\right)\;\cdot \;\ sigma ^{-n-2}\exp(-ns^{2}/2\sigma ^{2})\;d\sigma ^{2}\\&\propto \int _{0}^{\infty }\sigma ^{-n-3}\exp \left(-{\frac {1}{2\sigma ^{2}}}\left(n(\mu -{\bar {x}})^{ 2}+ns^{2}\dreapta)\dreapta)\;d\sigma ^{2}\end{aliniat}}

după înlocuire , unde , $z=A/2\sigma ^{2}$ $A=n(\mu -{\bar {x)))^{2}+ns^{2}$

primim $dz=-{\frac {A}{2\sigma ^{4}}}d\sigma ^{2}$

și evaluare $p(\mu |D,I)\propto \;A^{-{\frac {n+1}{2}}}\int _{0}^{\infty }z^{(n- 1)/2}\exp(-z)\,dz$

$\int _{0}^{\infty }z^{(n-1)/2}\exp(-z)\,dz$ acum integrala Gamma standard, care se evaluează la o constantă

${\begin{aligned}p(\mu \mid D,I)\propto &\;A^{-{\frac {n+1}{2)}}\propto &\left(1+{ \frac {n(\mu -{\bar {x}})^{2}}{ns^{2}}}\right)^{-{\frac {n+1}{2}}}\end {aliniat}}$

aceasta este o distribuție t nestandardizată.

Folosind înlocuirea , obținem o distribuție t standardizată. $t={\frac {\mu -{\bar {x}}}{s/{\sqrt {n}}}}$

Derivarea de mai sus a fost prezentată pentru cazul unui anterior neinformativ pentru și ; dar este evident că orice probabilitate anterioară, duce la un amestec de distribuție normală și distribuție chi-pătrat inversă scalată, că o distribuție t non-centrală cu scalare și o bias de , parametrul de scalare va fi influențat de anterioară informații și date, și nu doar datele, ca în exemplul de mai sus. $\scriptstyle {\mu )$ $\scriptstyle {\sigma ^{2)}$ $\scriptstyle {P(\mu |D,I))$ $\scriptstyle {\frac {S^{2}}{n}}$

Generalizări ale distribuției Studentului

Distribuția t nestandardizată a studentului

Distribuția t Student poate fi generalizată la o familie de funcții cu trei parametri, inclusiv un factor de deplasare și un factor de scară , prin relația $\mu$ $\sigma$

X=\mu +\sigma T

T={\frac {X-\mu }{\sigma }}

unde este distribuția clasică Student cu grade de libertate. ${\frac {x-\mu }{\sigma }}$ $n$

Densitatea distribuției Student nestandardizate este o distribuție Pearson de tip VII reparametrizată și este determinată de următoarea expresie [13]

{\displaystyle p(x\mid n,\mu ,\sigma )={\frac {\Gamma ({\frac {n+1}{2))}}{\Gamma ({\frac {n}{2 }}){\sqrt {\pi n}}\sigma }}\left(1+{\frac {1}{n}}\left({\frac {x-\mu }{\sigma }}\right )^{2}\dreapta)^{-{\frac {n+1}{2))))

Aici nu este abaterea standard, ca în distribuția normală, este, în general, un parametru de scară diferit. Cu toate acestea, la , densitatea de distribuție Pearson de tip VII tinde către o densitate de distribuție normală cu o abatere standard . $\sigma$ $n\la\infty$ $\sigma$

În inferența bayesiană, distribuția marginală a mediei necunoscute este mai mare decât , și corespunde cu , unde $\mu$ $\sigma$ $\scriptstyle {s/{\sqrt {n}))$

s^{2}=\sum {\frac {(x_{i}-{\bar {x)})^{2}}{n-1}}.

$\operatorname {E} (X)=\mu$ pentru , $n>1$

${\text{var}}(X)=\sigma ^{2}{\frac {n}{n-2}}$ pentru $n>2$

${\text{mode}}(X)=\mu .$

Această distribuție este rezultatul unei combinații a unei distribuții gaussiene (distribuție normală) cu o medie și o varianță necunoscută, cu o distribuție gamma inversă, cu o varianță având parametrii și . Cu alte cuvinte, se presupune că variabila aleatoare X are o distribuție normală cu o varianță necunoscută distribuită ca o gamma inversă, iar apoi varianța este eliminată. Această proprietate este utilă deoarece distribuția gamma inversă este anterioară conjugată a varianței distribuției gaussiene, motiv pentru care distribuția t a lui Student nestandardizată apare în mod natural în multe probleme bayesiene. $\mu$ $a=n/2$ $b=n\sigma ^{2}/2$

În mod echivalent, această distribuție este rezultatul unei combinații a unei distribuții gaussiene cu o distribuție chi-pătrat inversă scalată cu parametrii și . Distribuția chi-pătrat inversă scalată este exact aceeași distribuție ca și distribuția gamma inversă, dar cu o parametrizare diferită, și anume . $n$ $\sigma ^{2}$ $n=2a,\sigma ^{2}=b/a$

O parametrizare alternativă bazată pe parametrul de scalare inversă λ [14] (similar cu modul în care măsura acurateței este inversul varianței) definit de relația , $\lambda ={\frac {1}{\sigma ^{2}}}$

atunci densitatea este definită ca

p(x|n,\mu,\lambda)={\frac {\Gamma ({\frac {n+1}{2))}}{\Gamma ({\frac {n}{2} })}}\left({\frac {\lambda }{\pi n}}\right)^{\frac {1}{2}}\left(1+{\frac {\lambda (x-\mu )^{2}}{n}}\dreapta)^{-{\frac {n+1}{2}}}.

Proprietăți:

$\operatorname {E} (X)=\mu$ pentru , $n>1$

${\text{var}}(X)={\frac {1}{\lambda }}{\frac {n}{n-2}}$ pentru $n>2$

${\text{mode}}(X)=\mu .$

Această distribuție este rezultatul unei combinații a unei distribuții gaussiene cu o medie și o măsură necunoscută de precizie (varianță inversă), cu o distribuție gamma cu parametri și . Cu alte cuvinte, se presupune că variabila aleatoare X are o distribuție normală cu o măsură de precizie distribuită gamma necunoscută. $\mu$ $a=n/2$ $b=n/(2\lambda )$

Distribuția non-centrală a elevilor

T-t non-central este o modalitate de a generaliza t-t standard prin includerea unui factor de deplasare suplimentar (parametru de non-centralitate) . $\mu$

$(Z+\mu ){\sqrt {\frac {n}{V}}}.$

În distribuția non-centrală a Studentului, mediana nu coincide cu modul, i.e. nu este simetric (spre deosebire de nestandardizat).

Această distribuție este importantă pentru studierea puterii statistice a testului t Student.

Distribuția Discrete Student

Distribuția t Student discretă are următoarea funcție de distribuție cu r proporțional: [15]

\prod _{j=1}^{k}{\frac {1}{(r+j+a)^{2}+b^{2}}}\quad \quad r=\ldots , -1,0,1,\ldots .

Unde a , b și k sunt parametri. O astfel de distribuție apare atunci când avem de-a face cu sisteme din distribuții discrete, cum ar fi distribuția Pearson . [16]

Relația cu alte distribuții

Distribuția t a lui Student este o distribuție t Pearson de tip VII [17] .
Distribuția lui Student cu un grad de libertate ( ) este distribuția Cauchy standard : . $n=1$ ${\mathrm {t}}(1)\equiv {\mathrm {C}}(0,1)$
Distribuția Studentului converge către normala standard la . Să fie dată o secvență de variabile aleatoare , unde . Apoi: prin distribuire la . $n\la\infty$ $\{t_{n}\}_{{n=1}}^{{\infty }}$ $t_{n}\sim {\mathrm {t}}(n),\;n\in {\mathbb {N}}$ $t_{n}\to {\mathcal {N}}(0,1)$ $n\la\infty$
Pătratul unei variabile aleatoare care are o distribuție Student are și o distribuție Fisher . Lasă . Apoi: . $t\sim {\mathrm {t}}(n)$ $t^{2}\sim {\mathrm {F}}(1,n)$

Generalizarea distribuției gaussiene

Putem obține un eșantion cu o distribuție t luând raportul valorilor din distribuția normală și rădăcina pătrată a distribuției chi-pătrat.

unde sunt variabile aleatoare normale standard independente astfel încât $X_{0},X_{1},\ldots,X_{n)$ $X_{i}\sim {\mathcal {N)}(0,1),\;i=0,\ldots,n$

$t={\frac {X_{0}}{\sqrt ({\frac {1}{n}}\sum \limits _{i=1}^{n}X_{i}^{2} }}}.$

Dacă în loc de o distribuție normală, luăm de exemplu, Irwin-Hall , obținem o distribuție simetrică cu 4 parametri, care include distribuțiile normale, uniforme, triunghiulare, precum și distribuțiile Student și Cauchy; astfel, această generalizare este mai flexibilă decât multe alte generalizări simetrice ale distribuției gaussiene.

Aplicarea distribuției Studentului

Testarea ipotezelor

Unele statistici pot avea o distribuție t a lui Student pe dimensiuni mici ale eșantionului, astfel încât distribuția t a lui Student formează baza testelor de semnificație. De exemplu, testul de corelare a rangului lui Spearman ρ , în cazul zero (corelație zero) este bine aproximat de o distribuție t a lui Student cu o dimensiune a eșantionului mai mare de 20.

Construirea unui interval de încredere

T-t-ul lui Student poate fi folosit pentru a estima cât de probabil este ca media adevărată să fie în orice interval dat.

Să presupunem că numărul A este ales astfel încât

$\Pr(-A<T<A)=0,9$ .

Atunci T are o distribuție t cu n – 1 grade de libertate. În virtutea simetriei distribuției, aceasta este echivalentă cu a spune că A satisface

$\Pr(T<A)=0,95,$ sau , atunci $A=t_{(0,05,n-1))$

$\Pr \left(-A<{\frac ({\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}}<A \dreapta)=0,9,$

care este echivalent cu

$\Pr \left({\overline {X}}_{n}-A{\frac {S_{n}}{\sqrt {n}}}<\mu <{\overline {X}}_ {n}+A{\frac {S_{n}}{\sqrt {n}}}\right)=0,9.$

astfel, un interval cu o limită de încredere în puncte este un interval de încredere de 90% pentru μ. Prin urmare, dacă găsim media unui set de observații (distribuite în mod normal), putem folosi distribuția t a lui Student pentru a determina dacă limitele de încredere asupra acelei medii includ orice valoare prezisă teoretic, cum ar fi valoarea prezisă din ipoteza nulă. ${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}$

O astfel de abordare este luată în testul t al lui Student : dacă diferența dintre mediile eșantioanelor din două distribuții normale poate fi ea însăși distribuită în mod normal, t-t al lui Student poate fi utilizat pentru a investiga dacă această diferență poate fi considerată zero cu un grad ridicat. de probabilitate.

Pentru eșantioanele distribuite normal, limita superioară de încredere (UCL) cu o singură coadă (1− a ) a mediei este

$\mathrm {UCL} _{1-a}={\overline {X}}_{n}+t_{a,n-1}{\frac {S_{n}}{\sqrt {n} }}$ .

Limita superioară de încredere rezultată va fi cea mai mare medie pentru intervalul de încredere dat și dimensiunea eșantionului. Cu alte cuvinte, dacă media unui set de observații, probabilitatea ca media distribuției să producă este egală cu un nivel de semnificație de 1– a. ${\overline {X}}_{n}$ $\mathrm {UCL} _{1-n}$

Construirea unui interval predictor

Distribuția t a lui Student poate fi utilizată pentru a obține un interval predictor pentru un eșantion neobservat dintr-o distribuție normală cu medie și varianță necunoscute.

În statisticile bayesiene

Distribuția t a lui Student, în special cea non-centrală, apare adesea în statistica bayesiană ca urmare a asocierii cu distribuția normală.

Într-adevăr, dacă nu cunoaștem varianța unei variabile aleatoare distribuite normal, dar cunoaștem distribuția anterioară conjugată, va fi posibil să alegem o distribuție gamma astfel încât valorile rezultate să aibă o distribuție Student.

Construcțiile echivalente cu aceleași rezultate includ distribuția chi-pătrat inversă scalată conjugată. Dacă distribuția anterioară incorectă, proporțională cu , este situată deasupra varianței, atunci apare și o distribuție Student. Acest lucru se întâmplă indiferent dacă media unei cantități distribuite normal distribuită cu o distribuție anterioară conjugată este cunoscută sau nu. $\sigma ^{2}$

Modelare parametrică rezistentă la încălcări ale ipotezelor inițiale

Distribuția t a lui Student este adesea folosită ca o alternativă la distribuția normală pentru un model de date. [18] Acest lucru se datorează faptului că datele reale au destul de des cozi mai grele decât ar permite distribuția normală. Abordarea clasică este de a identifica valorile aberante și de a le elimina (sau de a le reduce greutatea). Cu toate acestea, nu este întotdeauna ușor să definiți un valori abere (mai ales în problemele cu dimensiuni mari ), iar distribuția t a lui Student este o alegere naturală pentru a oferi o abordare parametrică a statisticilor robuste .

Lange și alții au explorat utilizarea distribuției Student pentru modelarea robustă a datelor. Calcul bayesian se găsește în Gelman și colab.

Numărul de grade de libertate controlează curtoza distribuției și este corelat cu parametrul de scalare.

Alte proprietăți ale distribuției Student

Fie integrala funcției de densitate de probabilitate a lui Student, fie probabilitatea ca valoarea lui t să fie mai mică decât valoarea calculată din datele observaționale. $A(t|n)$ $F(t)$

Funcția poate fi utilizată pentru a testa dacă diferența dintre mediile a două seturi de date luate din aceeași populație este semnificativă statistic, acest lucru se realizează prin calcularea valorii corespunzătoare a lui t și a probabilității apariției acesteia. $A(t|n)$

Acesta este folosit, de exemplu, în testul T al Studentului . Pentru o distribuție t cu grade de libertate, este probabilitatea ca t să fie mai mică decât valoarea observată dacă cele două valori medii au fost aceleași. Poate fi calculat cu ușurință din funcția de distribuție cumulativă a distribuției Studentului: $n$ $A(t|n)$ $F_{n}(t)$

A(t|n)=F_{n}(t)-F_{n}(-t)=1-I_{\frac {n}{n+t^{2}}}\left({ \frac {n}{2)),{\frac {1}{2}}\dreapta),

unde I x - funcție beta incompletă regularizată (a, b).

În testarea ipotezelor statistice, această funcție este utilizată pentru a construi o valoare p .

Eșantionarea Monte Carlo

Există diferite abordări pentru a obține variabile aleatoare din distribuția Student. Totul depinde dacă sunt necesare eșantioane independente sau dacă acestea pot fi construite prin aplicarea funcției de distribuție inversă pe un eșantion cu o distribuție uniformă.

În cazul unui eșantion independent, este ușor de aplicat o extensie a metodei Box-Muller în forma sa polară (trigonometrică) [19] . Avantajul acestei metode este că se aplică în mod egal tuturor gradelor pozitive de libertate , în timp ce multe alte metode nu vor funcționa dacă este aproape de zero. [19] $n$ $n$

Densitatea distribuției lui Student prin soluția unei ecuații diferențiale

Distribuția densității Student poate fi obținută prin rezolvarea următoarei ecuații diferențiale :

$\left\{{\begin{array}{l}\left(n+x^{2}\right)f'(x)+(n+1)xf(x)=0,\\f (1)={\frac {n^{n/2}(n+1)^{-{\frac {n}{2}}-{\frac {1}{2}}}}{B\left ({\frac {n}{2)),{\frac {1}{2}}\right)}}\end{array}}\right\}$

Percentile

Tabele de valori

Multe manuale de statistică includ tabele de distribuție a elevilor.

În zilele noastre, cea mai bună modalitate de a obține o valoare t critică complet exactă, sau probabilitatea cumulativă, este să utilizați o funcție statistică încorporată în foi de calcul (Office Excel, OpenOffice Calc etc.) sau un calculator web interactiv. Funcțiile necesare pentru foile de calcul sunt TDIST și TINV.

Tabelul de mai jos include valorile unor valori pentru distribuțiile lui Student cu v grade de libertate pentru un număr de regiuni critice unilaterale sau cu două fețe .

Ca exemplu de citire a acestui tabel, să luăm al patrulea rând, care începe la 4; aceasta înseamnă că v, numărul de grade de libertate, este 4 (și dacă lucrăm, așa cum se arată mai sus, cu n mărimi cu sumă fixă, atunci n = 5). Să luăm a cincea valoare din coloană 95% pentru o față (90% pentru două fețe ). Valoarea este „2.132”. Prin urmare, probabilitatea ca T să fie mai mic de 2,132 este de 95% sau Pr(−∞ < T < 2,132) = 0,95; aceasta înseamnă, de asemenea, că Pr(−2,132 < T < 2,132) = 0,9.

Aceasta poate fi calculată din simetria distribuției,

Pr( T < −2,132) = 1 − Pr( T > −2,132) = 1 − 0,95 = 0,05,

primim

Pr(−2,132 < T < 2,132) = 1 − 2(0,05) = 0,9.

Rețineți că ultimul rând oferă și puncte critice: o distribuție t a lui Student cu un număr infinit de grade este o distribuție normală.

Prima coloană afișează numărul de grade de libertate.

unilateral	75%	80%	85%	90%	95%	97,5%	99%	99,5%	99,75%	99,9%	99,95%
bilateral	cincizeci%	60%	70%	80%	90%	95%	98%	99%	99,5%	99,8%	99,9%
unu	1.000	1.376	1.963	3.078	6.314	12.71	31.82	63,66	127,3	318,3	636,6
2	0,816	1.080	1.386	1.886	2.920	4.303	6.965	9.925	14.09	22.33	31.60
3	0,765	0,978	1.250	1.638	2.353	3.182	4.541	5.841	7.453	10.21	12.92
patru	0,741	0,941	1.190	1.533	2.132	2.776	3.747	4.604	5.598	7.173	8.610
5	0,727	0,920	1.156	1.476	2.015	2.571	3.365	4.032	4.773	5.893	6.869
6	0,718	0,906	1.134	1.440	1.943	2.447	3.143	3.707	4.317	5.208	5.959
7	0,711	0,896	1.119	1.415	1.895	2.365	2.998	3.499	4.029	4.785	5.408
opt	0,706	0,889	1.108	1.397	1.860	2.306	2.896	3.355	3.833	4.501	5.041
9	0,703	0,883	1.100	1.383	1.833	2.262	2.821	3.250	3.690	4.297	4.781
zece	0,700	0,879	1.093	1.372	1.812	2.228	2.764	3.169	3.581	4.144	4.587
unsprezece	0,697	0,876	1.088	1.363	1.796	2.201	2.718	3.106	3.497	4.025	4.437
12	0,695	0,873	1.083	1.356	1.782	2.179	2.681	3.055	3.428	3.930	4.318
13	0,694	0,870	1.079	1.350	1.771	2.160	2.650	3.012	3.372	3.852	4.221
paisprezece	0,692	0,868	1.076	1.345	1.761	2.145	2.624	2.977	3.326	3.787	4.140
cincisprezece	0,691	0,866	1.074	1.341	1.753	2.131	2.602	2.947	3.286	3.733	4.073
16	0,690	0,865	1.071	1.337	1.746	2.120	2.583	2.921	3.252	3.686	4.015
17	0,689	0,863	1.069	1.333	1.740	2.110	2.567	2.898	3.222	3.646	3.965
optsprezece	0,688	0,862	1.067	1.330	1.734	2.101	2.552	2.878	3.197	3.610	3.922
19	0,688	0,861	1.066	1.328	1.729	2.093	2.539	2.861	3.174	3.579	3.883
douăzeci	0,687	0,860	1.064	1.325	1.725	2.086	2.528	2.845	3.153	3.552	3.850
21	0,686	0,859	1.063	1.323	1.721	2.080	2.518	2.831	3.135	3.527	3.819
22	0,686	0,858	1.061	1.321	1.717	2.074	2.508	2.819	3.119	3.505	3.792
23	0,685	0,858	1.060	1.319	1.714	2.069	2.500	2.807	3.104	3.485	3.767
24	0,685	0,857	1.059	1.318	1.711	2.064	2.492	2.797	3.091	3.467	3.745
25	0,684	0,856	1.058	1.316	1.708	2.060	2.485	2.787	3.078	3.450	3.725
26	0,684	0,856	1.058	1.315	1.706	2.056	2.479	2.779	3.067	3.435	3.707
27	0,684	0,855	1.057	1.314	1.703	2.052	2.473	2.771	3.057	3.421	3.690
28	0,683	0,855	1.056	1.313	1.701	2.048	2.467	2.763	3.047	3.408	3.674
29	0,683	0,854	1.055	1.311	1.699	2.045	2.462	2.756	3.038	3.396	3.659
treizeci	0,683	0,854	1.055	1.310	1.697	2.042	2.457	2.750	3.030	3.385	3.646
40	0,681	0,851	1.050	1.303	1.684	2.021	2.423	2.704	2.971	3.307	3.551
cincizeci	0,679	0,849	1.047	1.299	1.676	2.009	2.403	2.678	2.937	3.261	3.496
60	0,679	0,848	1.045	1.296	1.671	2.000	2.390	2.660	2.915	3.232	3.460
80	0,678	0,846	1.043	1.292	1.664	1.990	2.374	2.639	2.887	3.195	3.416
100	0,677	0,845	1.042	1.290	1.660	1.984	2.364	2.626	2.871	3.174	3.390
120	0,677	0,845	1.041	1.289	1.658	1.980	2.358	2.617	2.860	3.160	3.373
∞	0,674	0,842	1.036	1.282	1.645	1.960	2.326	2.576	2.807	3.090	3.291

De exemplu, dacă ni se oferă un eșantion cu o varianță a eșantionului de 2 și o medie a eșantionului de 10 extrasă dintr-un set de eșantion de 11 (10 grade de libertate), folosind formula

${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}.$

Putem determina cu 90% de încredere că adevărata medie este:

$10+1,37218{\frac {\sqrt {2}}{\sqrt {11}}}=10,58510,$

(adică, în medie, 90% din timp limita superioară este mai mare decât media adevărată)

si, tot cu 90% certitudine, gasim o adevarata medie mai mare decat

$10-1,37218{\frac {\sqrt {2}}{\sqrt {11}}}=9,41490.$

(În medie, 90% din timp, limita inferioară este mai mică decât media reală)

Deci cu 80% certitudine (1-2*(1-90%) = 80%) găsim valoarea adevărată în interval

$\left(10-1,37218{\frac {\sqrt {2}}{\sqrt {11}}},10+1,37218{\frac {\sqrt {2}}{\sqrt {11}}}\ dreapta)=\left(9.41490,10.58510\right).$

Cu alte cuvinte, 80% din timp media adevărată este sub limita superioară și peste limita inferioară.

Acest lucru nu este echivalent cu a spune că există o șansă de 80% ca adevărata medie să se afle între o anumită pereche de limite superioare și inferioare.

Generalizare

O generalizare a distribuției Student este distribuția hiperbolică generalizată .

Note

↑ Helmert, F. R. (1875). „Uber die Bestimmung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler”. Z Matematică. Fiz. , 20, 300–3.
↑ Helmert, F. R. (1876a). „Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen”. Z Matematică. Fiz. , 21, 192–218.
↑ Helmert, F. R. (1876b). „Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers regizor Beobachtungen gleicher Genauigkeit”, Astron. Nachr. , 88, 113–32.
↑ Lüroth, J. Vergleichung von zwei Werten des wahrscheinlichen Fehlers (germană) // Astron. Nachr. : magazin. - 1876. - Bd. 87 , nr. 14 . - S. 209-220 . - doi : 10.1002/asna.18760871402 . - Cod biblic .
↑ Pfanzagl, J.; Sheynin, O. Un precursor al distribuției t (Studii în istoria probabilității și statisticii XLIV) (engleză) // Biometrika : journal. - 1996. - Vol. 83 , nr. 4 . - P. 891-898 . - doi : 10.1093/biomet/83.4.891 .
↑ Sheynin, lucrarea lui O. Helmert în teoria erorilor // Arh . Hist. Exact Sci. : jurnal. - 1995. - Vol. 49 . - P. 73-104 . - doi : 10.1007/BF00374700 .
↑ „Student” [ William Sealy Gosset ]. Eroarea probabilă a unei medii (engleză) // Biometrika : journal. - 1908. - Martie ( vol. 6 , nr. 1 ). - P. 1-25 . - doi : 10.1093/biomet/6.1.1 .
↑ „Student” (William Sealy Gosset), lucrare originală Biometrika ca scanare Arhivată 5 martie 2016 la Wayback Machine
↑ 1 2 Ronald Fisher. Aplicații ale distribuției „Student” // metron . - 1925. - Vol. 5 . - P. 90-104 . Arhivat din original pe 5 martie 2016.
↑ 1 2 3 Johnson, NL, Kotz, S., Balakrishnan, N. capitolul 28 // Continuous Univariate Distributions, Vol. 2, Ediția a II-a .. - 1995. - ISBN 0-471-58494-0 .
↑ Hogg & Craig (1978, secțiunile 4.4 și 4.8.)
↑ W. G. Cochran. Distribuția formelor pătratice într-un sistem normal, cu aplicații la analiza covarianței // Mathematical Proceedings of the Cambridge Philosophical Society. - 1934-04-01. - T. 30 , nr. 02 . - S. 178-191 . — ISSN 1469-8064 . - doi : 10.1017/S0305004100016595 .
↑ Simon Jackman. Analiza Bayesiană pentru Științe Sociale . — Wiley. - 2009. - S. 507 .
↑ Bishop CM Recunoașterea modelelor și învățarea automată. — Springer . — 2006.
↑ Ord, JK (1972) Families of Frequency Distributions , Griffin. ISBN 0-85264-137-0 (Tabelul 5.1)
↑ Ord, JK (1972) Families of Frequency Distributions , Griffin. ISBN 0-85264-137-0 (Capitolul 5)
↑ Korolyuk, 1985 , p. 134.
↑ Kenneth L. Lange, Roderick J. A. Little, Jeremy M. G. Taylor. Modelare statistică robustă folosind distribuția t // Jurnalul Asociației Americane de Statistică . - 1989-12-01. - T. 84 , nr. 408 . - S. 881-896 . — ISSN 0162-1459 . - doi : 10.1080/01621459.1989.10478852 .
↑ 1 2 Ralph W. Bailey. Generarea polară de variații aleatorii cu distribuția t // Matematica calculului. — 1994-01-01. - T. 62 , nr. 206 . - S. 779-781 . - doi : 10.2307/2153537 . Arhivat din original pe 3 aprilie 2016.

Literatură

Korolyuk V. S. , Portenko N. I. , Skorokhod A. V. , Turbin A. F. Manual de teorie a probabilității și statistică matematică. - M. : Nauka, 1985. - 640 p.

Dicționare și enciclopedii	Rusă mare Britannica (online)

Distribuții de probabilitate
Discret	Bernoulli Binom Geometric hipergeometrică Logaritmic Binom negativ Poisson Uniformă discretă Multinom
Absolut continuu	Beta Weibulla Gamma- hiperexponenţială Gompertz Kolmogorov Cauchy Laplace lognormal Normal (Gauss) Logistică Nakagami Pareto Pearson semicircular uniformă continuă Orez Rayleigh Student Tracey - Vidoma Pescar Chi-pătrat Exponenţial Varianta-gama Normal multivariat copulă