Analiza de supraviețuire este o clasă de modele statistice care permit estimarea probabilității de apariție a unui eveniment.
Acest grup de metode statistice a primit denumirea potrivită datorită utilizării lor inițial pe scară largă în cercetarea medicală pentru a estima speranța de viață în studiul eficacității metodelor de tratament. Ulterior, aceste metode au început să fie aplicate în industria asigurărilor, precum și în științele sociale. [unu]
Analiza supraviețuirii se preocupă de modelarea proceselor de declanșare a evenimentelor terminale (critice) pentru elemente ale unei anumite populații (inițial, „moarte” pentru elemente ale unei populații de ființe vii). Astfel, în cadrul cercetării medicale, analiza supraviețuirii poate răspunde la întrebări precum „care va fi proporția supraviețuitorilor în rândul pacienților la ceva timp după tehnicile de tratament aplicate?”, „ce rate de mortalitate vor fi observate în rândul supraviețuitorilor?”, „ ce factori afectează creșterea sau scăderea șanselor de supraviețuire? etc.
Pentru a răspunde la întrebările relevante, este necesar să se poată defini clar „durata de viață” a elementului (perioada de ședere a elementului în agregat înainte de debutul evenimentului terminal). În cazul supraviețuirii biologice, „moartea” este lipsită de ambiguitate, dar în alte cazuri, debutul unui eveniment terminal nu este întotdeauna posibil de localizat într-un moment separat în timp.
În general, analiza supraviețuirii este construirea de modele care descriu date privind momentul producerii unui eveniment. Deoarece un organism viu poate muri o singură dată, în mod tradițional, în cadrul acestei abordări sunt luate în considerare doar evenimentele terminale unice și unice.
Analiza datelor prin metode de analiză a supraviețuirii poate fi efectuată numai pentru datele cenzurate. Se spune că observațiile sunt cenzurate dacă variabila dependentă de interes reprezintă momentul producerii evenimentului terminal, iar durata studiului este limitată în timp.
Cu cenzura fixă , un eșantion de obiecte este observat pentru un timp fix . Numărul de obiecte pentru care are loc un eveniment terminal, sau numărul de decese, este aleatoriu, dar durata totală a studiului este fixă. Fiecare obiect are o perioadă maximă de observare posibilă , , care poate varia de la un obiect la altul, dar este fixată în avans. Probabilitatea ca un obiect să fie în viață la sfârșitul perioadei sale de observare este , iar numărul total de decese este aleatoriu.
Cenzurare aleatorieÎn cenzura aleatorie, un eșantion de obiecte este observat atât timp cât este necesar pentru ca obiectele să experimenteze evenimentul. În această schemă, numărul de decese , care determină acuratețea studiului, este fixat în avans și poate fi utilizat ca parametru. Dezavantajul acestei abordări este că, în acest caz, durata totală a studiului este aleatorie și nu poate fi cunoscută cu precizie dinainte.
Când cenzurați, puteți specifica direcția în care are loc cenzura.
Cenzura dreaptaCenzurarea corectă are loc dacă cercetătorul știe în ce moment a început experimentul și că se va termina în momentul din dreapta punctului de început al experimentului.
Cenzură pentru stângaciDacă cercetătorul nu deține informații despre momentul în care a început experimentul (de exemplu, în cercetarea biomedicală se poate ști când pacientul a fost internat în spital și că a supraviețuit o anumită perioadă de timp, dar este posibil să nu existe informații despre momentul în care simptomele apar boala lui a apărut mai întâi).apărut), apoi are loc cenzura stângă.
Cenzurarea unică are loc la un moment dat (experimentul se termină după un timp fix). Pe de altă parte, cenzura multiplă apare în mod natural în cercetarea biomedicală , de exemplu, atunci când pacienții sunt externați din spital după ce au fost supuși unui tratament de cantități (sau durate) diferite, iar cercetătorul știe că pacientul tocmai a trăit până la punctul relevant de cenzură.
Aceste tabele pot fi considerate tabele de frecvență „extinse”. Zona orelor posibile de apariție a evenimentelor critice (decese, eșecuri etc.) este împărțită într-un anumit număr de intervale de timp (puncte de timp). Pentru un moment de timp, numărul și proporția obiectelor care la începutul intervalului considerat făceau parte din elementele populației studiate (erau „în viață”), numărul și proporția elementelor pe care populația le-a lăsat („a murit”); ), precum și numărul și proporția elementelor care au fost retrase sau cenzurate în fiecare interval.
Obiectul analizat în funcția de supraviețuire este notat convențional ca ; este descris de următoarea funcție :
unde este un interval de timp în care populația a fost observată, este o variabilă aleatorie care denotă momentul „morții” (părăsirea populației de către obiect) și înseamnă probabilitatea „morții” într-un interval de timp dat. Adică, funcția de supraviețuire descrie probabilitatea de „moarte” la ceva timp după moment .
De obicei, se presupune că, deși această valoare poate fi mai mică de 1, dacă există o posibilitate de moarte imediată sau eșec.
Dacă , atunci funcția de supraviețuire ar trebui să arate ca . Această proprietate rezultă din faptul că condiția implică faptul că . În esență, ceea ce se înțelege aici este că supraviețuirea pentru perioada ulterioară este posibilă numai după supraviețuirea în perioada anterioară.
De obicei se presupune că funcția de supraviețuire tinde spre zero cu o creștere infinită a variabilei timp: la .
De asemenea, atunci când se analizează supraviețuirea, se utilizează funcția de distribuție cumulativă și derivata ei, funcția densitate de distribuție .
Funcția de distribuție cumulativă are forma
și descrie probabilitatea ca evenimentul terminal să fi avut loc în timp .
Funcția de densitate de distribuție (PDF) are forma
această funcție arată frecvența de apariție a evenimentului terminal la momentul respectiv .
Aceasta este o estimare a probabilității de abandonare a populației („deces”) în intervalul corespunzător, definită după cum urmează:
unde este estimarea probabilității de eșec în al- lea interval, este fracția cumulativă a obiectelor supraviețuitoare (funcția de supraviețuire) până la începutul celui de-al- lea interval, este lățimea celui de-al- lea interval.
Funcția de risc este definită ca probabilitatea ca un element rămas în populație la începutul intervalului corespunzător să părăsească populația („moară”) în acest interval. Estimarea funcției de intensitate se calculează după cum urmează:
Numătorul acestei expresii este probabilitatea condiționată ca evenimentul să se producă în interval dacă nu s-a întâmplat înainte, iar numitorul este lățimea intervalului.
Acesta este punctul de pe axa timpului în care funcția de supraviețuire cumulată este 0,5. Alte percentile (cum ar fi percentilele 25 și 75 sau quartile) ale funcției de supraviețuire cumulativă sunt calculate în același mod.
Modelele de supraviețuire pot fi reprezentate în mod semnificativ ca modele de regresie liniară , deoarece toate familiile de distribuții enumerate mai sus pot fi reduse la cele liniare cu transformări adecvate. În acest caz, durata de viață va fi variabila dependentă.
Cunoscând familia parametrică de distribuții, se poate calcula funcția de probabilitate din datele disponibile și se poate găsi maximul acesteia. Astfel de estimări se numesc estimări de probabilitate maximă. În ipoteze foarte generale, aceste estimări coincid cu estimările celor mai mici pătrate. În mod similar, maximul funcției de probabilitate se găsește sub ipoteza nulă, adică pentru un model care permite intensități diferite la intervale diferite. Ipoteza formulată poate fi testată, de exemplu, utilizând testul raportului de probabilitate, a cărui statistică are o distribuție chi-pătrat asimptotică .
În general, tabelul de viață oferă o idee bună despre distribuția defecțiunilor sau morților obiectelor în timp. Cu toate acestea, pentru a face o predicție, este adesea necesar să se cunoască forma funcției de supraviețuire luate în considerare.
În contextul analizei de supraviețuire, următoarele familii de distribuție sunt cel mai adesea folosite pentru a construi modele:
Pentru observațiile de viață cenzurate, dar negrupate, funcția de supraviețuire poate fi estimată direct (fără un tabel de viață). Să presupunem că există o bază de date în care fiecare observație conține exact un interval de timp. Înmulțind probabilitățile de supraviețuire în fiecare interval, obținem următoarea formulă pentru funcția de supraviețuire:
În această expresie , este estimarea funcției de supraviețuire, este numărul total de evenimente (timpi de sfârșit), este numărul ordinal (cronologic) al unui singur eveniment, egal cu 1 dacă evenimentul --lea înseamnă eșec (moarte) și 0 dacă al-lea eveniment înseamnă pierderea observării (cenzurare), înseamnă produsul peste toate observațiile finalizate până la momentul .
Această estimare a funcției de supraviețuire, numită estimarea multiplicatorului, a fost propusă pentru prima dată de Kaplan și Meyer (1958).