Modelarea ierarhică bayesiană

Modelarea ierarhică bayesiană  este un model statistic , scris sub forma mai multor nivele (în formă ierarhică), care estimează parametrii ai distribuției posterioare folosind metoda bayesiană [1] . Submodelele sunt combinate într-un model ierarhic și teorema lui Bayes este utilizată pentru a le combina cu datele observate și pentru a ține seama de orice incertitudini prezente. Rezultatul acestei uniuni este distribuția posterioară, cunoscută și sub denumirea de estimare a probabilității rafinate, după ce se obțin mai multe informații despre probabilitatea anterioară .

Introducere

Statistica de frecvență , cea mai populară bază de statistică , poate da o concluzie în aparență neconformă cu concluzia pe care o dă statistica bayesiană, deoarece abordarea bayesiană tratează parametrii ca variabile aleatoare și folosește informații subiective pentru a stabili ipoteze asupra acestor parametri. [2] . Deoarece abordările răspund la întrebări diferite, rezultatele formale nu sunt inconsistente din punct de vedere tehnic, dar cele două abordări nu sunt de acord cu privire la răspunsul care se aplică anumitor aplicații. Bayesienii susțin că informațiile relevante pentru decizia și actualizările de încredere nu pot fi ignorate și că modelarea ierarhică are potențialul de a avea prioritate față de metodele clasice în aplicațiile în care respondentul oferă opțiuni multiple de date observaționale. Mai mult, modelul s-a dovedit a fi robust , cu o sensibilitate mai mică a distribuției posterioare la priorități ierarhice variabile.

Modelarea ierarhică este utilizată atunci când informațiile sunt disponibile la mai multe niveluri diferite de cantități observate. Tipul ierarhic de analiză și reprezentare ajută la înțelegerea problemelor multiparametrice și joacă un rol important în dezvoltarea strategiilor de calcul [3] .

Filosofie

Numeroase aplicații statistice folosesc parametri multipli care pot fi considerați dependenți sau legați în așa fel încât problema presupune că modelul de probabilitate comună al acestor parametri este dependent [4] .

Gradele individuale de încredere, exprimate sub formă de probabilități, au propria lor incertitudine [5] . În plus, gradul de certitudine se poate modifica în timp. După cum au afirmat profesorul José M. Bernardo și profesorul Adrian F. Smith, „Relevanța procesului de învățare constă în evoluția încrederii individuale și subiective în realitate”. Aceste probabilități subiective sunt implicate mai direct în minte decât probabilitățile fizice [6] . Prin urmare, aceasta necesită o actualizare a încrederii, iar bayesianiștii au formulat un model statistic alternativ care ia în considerare aparițiile a priori ale unui anumit eveniment [7] .

Teorema lui Bayes

Presupusa primire a unui eveniment real schimbă de obicei preferințele între anumite opțiuni. Aceasta se realizează prin modificarea gradului de încredere în evenimentele care determină opțiunile [8] .

Să presupunem că în studierea eficacității terapiei cardiace pentru pacienții din spitalul j care au probabilitate de supraviețuire , probabilitatea de supraviețuire este actualizată la evenimentul y care generează un ser ipotetic discutabil despre care unii cred că crește supraviețuirea pacienților cu probleme cardiace.

Pentru a face enunțuri actualizate despre probabilitatea ca evenimentul y să se producă , trebuie să începem cu un model care oferă o distribuție comună a probabilității pentru și y . Acesta poate fi scris ca produsul a două distribuții, adesea denumite distribuția anterioară și respectiv distribuția de eșantionare :

Dacă se folosește proprietatea de bază a probabilității condiționate , distribuția posterioară va da:

Egalitatea care arată relația dintre probabilitatea condiționată și evenimentele individuale este cunoscută sub numele de teorema lui Bayes. Această expresie simplă întruchipează nucleul tehnic al inferenței bayesiene, care își propune să includă încrederea actualizată într-un mod relevant și rezolvabil [8] .

Permutabilitate

Un punct de plecare obișnuit pentru analiza statistică este să presupunem că n valori permută. Dacă nu este disponibilă nicio altă informație decât datele y pentru a distinge oricare de altele și nu se poate face nicio ordonare sau grupare a parametrilor, ar trebui să se presupună simetria parametrilor în raport cu probabilitatea lor anterioară [9] . Această simetrie este reprezentată de permutabilitate probabilistică. De obicei, este util și acceptabil să modelezi datele dintr-o distribuție de permutare ca fiind independente și distribuite în mod egal, având în vedere un vector necunoscut de parametri cu distribuție .

Permutabilitate finită

Pentru un număr fix n , o mulțime este permutabilă dacă distribuția comună este invariantă sub permutările indexului . Adică pentru orice permutare sau a indicilor (1, 2, …, n ), [10]

Mai jos este un exemplu de secvență permutabilă, dar nu independentă și distribuită identic: Luați în considerare o urnă cu bile roșii și albastre cu probabilități de a extrage bile. Bilele sunt scoase fără să se întoarcă în urnă, adică după extragerea uneia dintre cele n bile, n − 1 bile rămân în urnă  pentru următoarea extragere.

Lăsa dacă a --a bilă este roșie
in caz contrar.

Deoarece probabilitatea de a extrage o minge roșie la prima extragere și o minge albastră la a doua extragere este egală cu probabilitatea de a extrage o minge albastră la prima extragere și o minge roșie la a doua, care sunt ambele egale cu 1/2 (adică ), apoi fac naveta.

Cu toate acestea, probabilitatea de a alege o minge roșie la a doua extragere nu va mai fi de 1/2. Astfel, și nu sunt independente.

Dacă sunt independente și distribuite egal, atunci sunt permutabile, dar invers nu este neapărat adevărat [11] .

Permutabilitate infinită

Permutabilitatea infinită este o astfel de proprietate încât orice submulțime finită a unei secvențe infinite este permutabilă. Adică pentru orice n secvența permută [11] .

Modele ierarhice

Componente

Modelarea ierarhică bayesiană utilizează două concepte importante pentru a deriva distribuția posterioară [1] , și anume:

  1. Hyperparameter : parametrii de distribuție anteriori
  2. Hyperprior distributions : distribuții hiperparametrice

Să presupunem că variabila aleatoare Y are o distribuție normală cu parametrul θ ca medie și parametrul 1 ca varianță , adică . Să presupunem că parametrul are o distribuție dată de o distribuție normală cu medie și varianță 1, adică . În plus, este o altă distribuție dată, de exemplu, de distribuția normală standard . Parametrul se numește hiperparametru, în timp ce distribuția sa, dată ca , este un exemplu de distribuție hiperprecedentă. Notația pentru Y se schimbă odată cu adăugarea unui alt parametru, adică . Dacă există un alt nivel, să zicem, este o altă distribuție normală cu medie și varianță , ceea ce înseamnă , atunci și poate fi numită și hiperparametri, iar distribuțiile lor sunt distribuții hiperprecedente [4] .

Sistem

Fie observații și să fie un parametru care controlează procesul de generare . Să presupunem în continuare că parametrii sunt generați de permutări din populația principală cu o distribuție controlată de hiperparametru .

Modelul ierarhic bayesian conține următoarele niveluri:

Nivelul I: Nivelul II: Nivelul III:

Probabilitatea, așa cum se vede de la nivelul I, este , c ca distribuție anterioară. Rețineți că probabilitatea depinde doar de prin .

Distribuția anterioară de la nivelul I poate fi împărțită în:

[din definiția probabilității condiționate]

unde este un hiperparametru cu distribuție hiperprioritară .

Atunci distribuția posterioară este proporțională cu această cantitate:

[folosind teorema lui Bayes] [12]

Exemplu

Pentru a ilustra, luați în considerare un exemplu: Un profesor dorește să evalueze cât de bine s-a descurcat un elev la testul SAT ( Testul de evaluare scolastică [13] ) .  Folosește informații despre elevul din liceu și media lor curentă (GPA) pentru a obține o notă . GPA curent, notat cu , are o probabilitate dată de o funcție de probabilitate cu un parametru , adică . Acest parametru este scorul SAT al studentului. Scorul SAT este considerat ca o unitate de probă extrasă din totalul eșantionului derivat din distribuția populației generale, indexată de un alt parametru , care este scorul de liceu al elevului [14] . Adică, . Mai mult, hiperparametrul are propria sa distribuție cu funcția , care se numește distribuție hiperprior.  

Pentru a obține scorul SAT din informațiile GPA,

Toate informațiile din problemă vor fi folosite pentru a obține distribuția posterioară. În loc să rezolve folosind doar funcția anterioară și probabilitate, utilizarea distribuțiilor hiperprecedente oferă mai multe informații, ceea ce duce la mai multă încredere în comportamentul parametrului [15] .

Model ierarhic pe două niveluri

În cazul general, distribuția posterioară comună a modelelor ierarhice pe 2 nivele care ne interesează este:

[cincisprezece]

Model ierarhic pe trei niveluri

Pentru modelele ierarhice pe 3 niveluri, distribuția posterioară este dată după cum urmează:

[cincisprezece]

Note

  1. 1 2 Allenby, Rossi, McCulloch, 2005 , p. 3.
  2. Gelman, Carlin, Stern, Rubin, 2004 , p. 4–5.
  3. Gelman, Carlin, Stern, Rubin, 2004 , p. 6.
  4. 1 2 Gelman, Carlin, Stern, Rubin, 2004 , p. 117.
  5. Bun, 1980 , p. 480.
  6. Bun, 1980 , p. 489-490.
  7. Bernardo și Smith, 1994 , p. 23.
  8. 1 2 Gelman, Carlin, Stern, Rubin, 2004 , p. 6-8.
  9. Dickey și Chen 1983 , p. 167–168.
  10. Gelman, Carlin, Stern, Rubin, 2004 , p. 121-125.
  11. 1 2 Diaconis, Freedman, 1980 , p. 745–747.
  12. Kadane și Wasilkowski 1983 , p. 371–372.
  13. „Test de evaluare academică” - un test standardizat pentru admiterea în instituțiile de învățământ superior din SUA
  14. Gelman, Carlin, Stern, Rubin, 2004 , p. 120-121.
  15. 1 2 3 Box, Tiao, 1965 .

Literatură