Corelație (din latină corelatio „raport”) sau dependență de corelație - o relație statistică a două sau mai multe variabile aleatoare (sau variabile care pot fi considerate ca atare cu un grad acceptabil de acuratețe), în timp ce modificările valorilor uneia sau mai multe dintre aceste cantități sunt însoțite de o modificare sistematică a valorilor unei alte cantități sau altor cantități [1] .
O măsură matematică a corelației a două variabile aleatoare este raportul de corelație [2] sau coeficientul de corelație (sau ) [1] . Dacă o modificare a unei variabile aleatoare nu duce la o modificare regulată a unei alte variabile aleatoare, ci conduce la o modificare a unei alte caracteristici statistice a acestei variabile aleatoare, atunci o astfel de relație nu este considerată o corelație, deși este statistică [3] .
Pentru prima dată, termenul de corelație a fost introdus în circulația științifică de către paleontologul francez Georges Cuvier în secolul al XVIII-lea. El a dezvoltat „legea corelației” părților și organelor ființelor vii, cu ajutorul căreia se poate restabili aspectul unui animal fosil, având la dispoziție doar o parte din rămășițele sale. În statistică, cuvântul „corelație” a fost folosit pentru prima dată de biologul și statisticianul englez Francis Galton la sfârșitul secolului al XIX-lea [4] .
O corelație semnificativă între două variabile aleatoare este întotdeauna o dovadă a existenței unei relații statistice într-un eșantion dat, dar această relație nu trebuie neapărat să fie observată pentru un alt eșantion și să fie de natură cauzală. Simplitatea adesea tentantă a unui studiu de corelare încurajează cercetătorul să tragă concluzii intuitive false despre prezența unei relații cauzale între perechi de trăsături, în timp ce coeficienții de corelație stabilesc doar relații statistice. De exemplu, privind incendiile dintr-un anumit oraș, se poate găsi o corelație foarte mare între pagubele cauzate de incendiu și numărul de pompieri implicați în stingerea incendiului, iar această corelație va fi pozitivă. Acest lucru, însă, nu conduce la concluzia că „o creștere a numărului de pompieri duce la o creștere a pagubelor produse”, și cu atât mai puțin se va încerca o încercare reușită de a minimiza pagubele cauzate de incendii prin eliminarea pompierilor [ 5] . Corelarea a două mărimi poate indica existența unei cauze comune, deși fenomenele în sine nu interacționează direct. De exemplu, givrarea cauzează atât o creștere a rănilor din cauza căderilor, cât și o creștere a accidentelor în rândul vehiculelor. În acest caz, două cantități (leziuni din cauza căderilor de pietoni și accidente de vehicule) vor fi corelate, deși nu sunt legate cauzal între ele, ci au doar o cauză comună terță parte - gheața neagră .
În același timp, absența unei corelații între două cantități nu înseamnă că nu există nicio legătură între ele. De exemplu, dependența poate avea un caracter complex neliniar, pe care corelația nu îl dezvăluie.
Unele tipuri de coeficienți de corelație pot fi pozitivi sau negativi. În primul caz, se presupune că putem determina doar prezența sau absența unei conexiuni, iar în al doilea, și direcția acesteia. Dacă se presupune că valorile variabilelor au o relație de ordine strictă , atunci o corelație negativă este o corelație în care o creștere a unei variabile este asociată cu o scădere a alta. În acest caz, coeficientul de corelație va fi negativ. O corelație pozitivă în astfel de condiții este aceea în care o creștere a unei variabile este asociată cu o creștere a unei alte variabile. De asemenea, este posibil să nu existe o relație statistică - de exemplu, pentru variabile aleatoare independente .
Metoda de calcul al coeficientului de corelare depinde de tipul de scară la care se referă variabilele. Deci, pentru măsurarea variabilelor cu intervale și scale cantitative, este necesar să se utilizeze coeficientul de corelație Pearson (corelația momentelor produsului ). Dacă cel puțin una dintre cele două variabile are o scară ordinală sau nu este distribuită în mod normal , trebuie utilizată corelația de rang a lui Spearman sau (tau) Kendall. În cazul în care una dintre cele două variabile este dihotomică , se utilizează o corelație punctuală cu două serii, iar dacă ambele variabile sunt dihotomice , se utilizează o corelație cu patru câmpuri. Calculul coeficientului de corelație între două variabile nedihotomice are sens doar atunci când relația dintre ele este liniară (unidirecțională).
O caracteristică importantă a distribuției comune a două variabile aleatoare este covarianța (sau momentul de corelație ). Covarianța este un moment central articular de ordinul doi [6] . Covarianța este definită ca așteptarea matematică a produsului abaterilor variabilelor aleatoare [7] :
,unde este așteptarea matematică (în literatura în limba engleză, desemnarea de la valoarea așteptată este acceptată ).
Proprietăți de covarianță :
Deoarece și sunt variabile aleatoare independente, abaterile lor și sunt, de asemenea, independente. Folosind faptul că așteptarea matematică a produsului variabilelor aleatoare independente este egală cu produsul așteptărilor matematice ale factorilor, iar așteptarea matematică a abaterii este zero, avem
Să introducem o variabilă aleatoare (unde este abaterea standard ) și să găsim varianța acesteia . După ce facem calculele, obținem:
Orice varianță este nenegativă, deci
De aici
Prin introducerea unei variabile aleatoare , în mod similar
Combinând inegalitățile obținute, avem
Sau
Asa de,
Pentru a elimina lipsa de covarianță, a fost introdus un coeficient de corelație liniară (sau coeficientul de corelație al lui Pearson ), care a fost dezvoltat de Karl Pearson , Francis Edgeworth și Raphael Weldon în anii 90 ai secolului XIX. Coeficientul de corelație se calculează prin formula [10] [8] :
unde , este valoarea medie a probelor.
Coeficientul de corelație variază de la minus unu la plus unu [11] .
DovadaÎmpărțind ambele părți ale inegalității duble la obținem
Coeficientul de corelație liniară este legat de coeficientul de regresie sub forma următoarei dependențe: unde este coeficientul de regresie, este abaterea standard a atributului factorului corespunzător [12] . Raportul dintre coeficientul de regresie și abaterea standard Y nu depinde de unitățile lui Y. Cu o transformare liniară a setului de date și coeficientul de corelație liniară va fi egal cu .
Este folosit pentru a identifica relația dintre indicatorii cantitativi sau calitativi, dacă aceștia pot fi clasați. Valorile indicatorului X sunt stabilite în ordine crescătoare și sunt atribuite ranguri. Valorile indicatorului Y sunt clasate și se calculează coeficientul de corelație Kendall :
,
unde .
este numărul total de observații care urmează observațiilor curente cu o valoare mare a rangurilor Y.
este numărul total de observații care urmează observațiilor curente cu ranguri Y mai mici . (rangurile egale nu sunt luate în considerare!)
Dacă datele studiate sunt repetate (au aceleași ranguri), atunci în calcule se utilizează coeficientul de corelație Kendall ajustat:
este numărul de ranguri înrudite din seriile X și, respectiv, Y.
Coeficientul de corelare a rangului lui SpearmanGradul de dependență a două variabile aleatoare (trăsături) și poate fi caracterizat pe baza analizei rezultatelor obținute . Fiecărui indicator i se atribuie un rang. Rândurile valorilor sunt în ordine firească . Rangul este scris ca și corespunde rangului perechii pentru care rangul este . Pe baza rangurilor obținute și a diferențelor acestora se calculează și se calculează coeficientul de corelație Spearman :
Valoarea coeficientului variază de la -1 (secvențele de ranguri sunt complet opuse) la +1 (secvențele de ranguri sunt complet aceleași). O valoare de zero indică faptul că caracteristicile sunt independente.
Coeficientul de corelare a semnului FechnerSe calculează numărul de coincidențe și nepotriviri ale semnelor de abateri ale valorilor indicatorilor de la valoarea lor medie.
C este numărul de perechi pentru care coincid semnele abaterilor valorilor de la mediile lor.
H este numărul de perechi pentru care semnele abaterilor valorilor de la mediile lor nu se potrivesc.
Coeficient de corelație multiplă Coeficient de corelație de rang multiplu (concordanță)
este numărul de grupuri care sunt clasate.
este numărul de variabile.
este rangul factorului - al lui y -unul.
Semnificaţie:
, atunci ipoteza lipsei de legătură este respinsă.
În cazul rangurilor înrudite:
Luați în considerare variabile aleatoare X și Y cu medii zero și varianțe egale cu și, respectiv . Să calculăm varianța variabilei aleatoare :
Presupunând că coeficientul de corelaţie
atunci expresia anterioară se va rescrie sub forma
Deoarece puteți alege întotdeauna numerele a și b astfel încât (de exemplu, dacă , atunci luăm un arbitrar a și ), atunci pentru acestea a și b varianța este , și, prin urmare, aproape sigur. Dar asta înseamnă o relație liniară între X și Y. Demonstrarea este generalizată în mod evident în cazul X și Y cu medii diferite de zero, doar în calculele de mai sus va fi necesar să înlocuim X cu și Y cu .
Analiza corelației este o metodă statistică de prelucrare a datelor care măsoară puterea relației dintre două sau mai multe variabile. Analiza corelației este strâns legată de analiza de regresie (termenul „ analiza de corelație-regresie ”, care este un concept statistic mai general, se găsește și el deseori ), determină necesitatea includerii anumitor factori în ecuația de regresie multiplă și evaluează, de asemenea, ecuația de regresie rezultată pentru relațiile identificate de conformitate (folosind coeficientul de determinare ) [1] [2] .
Această metodă de prelucrare a datelor statistice este foarte populară în economie , astrofizică și științe sociale (în special în psihologie și sociologie ), deși sfera de aplicare a coeficienților de corelare este extins: controlul calității produselor industriale, metalurgie , chimie agricolă , hidrobiologie , biometrie și altele. . În diverse industrii aplicate, diferite limite de intervale sunt acceptate pentru evaluarea etanșeității și semnificației conexiunii.
Popularitatea metodei se datorează a două puncte: coeficienții de corelație sunt relativ ușor de calculat, aplicarea lor nu necesită pregătire matematică specială. Combinată cu ușurința de interpretare, ușurința de aplicare a coeficientului a condus la utilizarea pe scară largă a acestuia în domeniul analizei datelor statistice.
Dicționare și enciclopedii | |
---|---|
În cataloagele bibliografice |
|