Corelație

Corelație (din latină  corelatio „raport”) sau dependență de corelație  - o relație statistică a două sau mai multe variabile aleatoare (sau variabile care pot fi considerate ca atare cu un grad acceptabil de acuratețe), în timp ce modificările valorilor uneia sau mai multe dintre aceste cantități sunt însoțite de o modificare sistematică a valorilor unei alte cantități sau altor cantități [1] .

O măsură matematică a corelației a două variabile aleatoare este raportul de corelație [2] sau coeficientul de corelație (sau ) [1] . Dacă o modificare a unei variabile aleatoare nu duce la o modificare regulată a unei alte variabile aleatoare, ci conduce la o modificare a unei alte caracteristici statistice a acestei variabile aleatoare, atunci o astfel de relație nu este considerată o corelație, deși este statistică [3] .

Pentru prima dată, termenul de corelație a fost introdus în circulația științifică de către paleontologul francez Georges Cuvier în secolul al XVIII-lea. El a dezvoltat „legea corelației” părților și organelor ființelor vii, cu ajutorul căreia se poate restabili aspectul unui animal fosil, având la dispoziție doar o parte din rămășițele sale. În statistică, cuvântul „corelație” a fost folosit pentru prima dată de biologul și statisticianul englez Francis Galton la sfârșitul secolului al XIX-lea [4] .

Corelarea și interconectarea cantităților

O corelație semnificativă între două variabile aleatoare este întotdeauna o dovadă a existenței unei relații statistice într-un eșantion dat, dar această relație nu trebuie neapărat să fie observată pentru un alt eșantion și să fie de natură cauzală. Simplitatea adesea tentantă a unui studiu de corelare încurajează cercetătorul să tragă concluzii intuitive false despre prezența unei relații cauzale între perechi de trăsături, în timp ce coeficienții de corelație stabilesc doar relații statistice. De exemplu, privind incendiile dintr-un anumit oraș, se poate găsi o corelație foarte mare între pagubele cauzate de incendiu și numărul de pompieri implicați în stingerea incendiului, iar această corelație va fi pozitivă. Acest lucru, însă, nu conduce la concluzia că „o creștere a numărului de pompieri duce la o creștere a pagubelor produse”, și cu atât mai puțin se va încerca o încercare reușită de a minimiza pagubele cauzate de incendii prin eliminarea pompierilor [ 5] . Corelarea a două mărimi poate indica existența unei cauze comune, deși fenomenele în sine nu interacționează direct. De exemplu, givrarea cauzează atât o creștere a rănilor din cauza căderilor, cât și o creștere a accidentelor în rândul vehiculelor. În acest caz, două cantități (leziuni din cauza căderilor de pietoni și accidente de vehicule) vor fi corelate, deși nu sunt legate cauzal între ele, ci au doar o cauză comună terță parte - gheața neagră .

În același timp, absența unei corelații între două cantități nu înseamnă că nu există nicio legătură între ele. De exemplu, dependența poate avea un caracter complex neliniar, pe care corelația nu îl dezvăluie.

Unele tipuri de coeficienți de corelație pot fi pozitivi sau negativi. În primul caz, se presupune că putem determina doar prezența sau absența unei conexiuni, iar în al doilea, și direcția acesteia. Dacă se presupune că valorile variabilelor au o relație de ordine strictă , atunci o corelație negativă  este o corelație în care o creștere a unei variabile este asociată cu o scădere a alta. În acest caz, coeficientul de corelație va fi negativ. O corelație pozitivă în astfel de condiții este aceea în care o creștere a unei variabile este asociată cu o creștere a unei alte variabile. De asemenea, este posibil să nu existe o relație statistică - de exemplu, pentru variabile aleatoare independente .

Măsuri de corelare

Metoda de calcul al coeficientului de corelare depinde de tipul de scară la care se referă variabilele. Deci, pentru măsurarea variabilelor cu intervale și scale cantitative, este necesar să se utilizeze coeficientul de corelație Pearson (corelația momentelor produsului ). Dacă cel puțin una dintre cele două variabile are o scară ordinală sau nu este distribuită în mod normal , trebuie utilizată corelația de rang a lui Spearman sau (tau) Kendall. În cazul în care una dintre cele două variabile este dihotomică , se utilizează o corelație punctuală cu două serii, iar dacă ambele variabile sunt dihotomice  , se utilizează o corelație cu patru câmpuri. Calculul coeficientului de corelație între două variabile nedihotomice are sens doar atunci când relația dintre ele este liniară (unidirecțională).

Indicatori parametrici ai corelației

Covarianță

O caracteristică importantă a distribuției comune a două variabile aleatoare este covarianța (sau momentul de corelație ). Covarianța este un moment central articular de ordinul doi [6] . Covarianța este definită ca așteptarea matematică a produsului abaterilor variabilelor aleatoare [7] :

,

unde  este așteptarea matematică (în literatura în limba engleză, desemnarea de la valoarea așteptată este acceptată ).

Proprietăți de covarianță :

  • Covarianța a două variabile aleatoare independente și este egală cu zero [8] .
Dovada

Deoarece și sunt variabile aleatoare independente, abaterile lor și sunt, de asemenea, independente. Folosind faptul că așteptarea matematică a produsului variabilelor aleatoare independente este egală cu produsul așteptărilor matematice ale factorilor, iar așteptarea matematică a abaterii este zero, avem

  • Valoarea absolută a covarianței a două variabile aleatoare și nu depășește media geometrică a dispersiunilor lor : [9] .
Dovada

Să introducem o variabilă aleatoare (unde este abaterea standard ) și să găsim varianța acesteia . După ce facem calculele, obținem:

Orice varianță este nenegativă, deci

De aici

Prin introducerea unei variabile aleatoare , în mod similar

Combinând inegalitățile obținute, avem

Sau

Asa de,

  • Covarianța are o dimensiune egală cu produsul dimensiunii variabilelor aleatoare, adică mărimea covarianței depinde de unitățile de măsură ale variabilelor independente. Această caracteristică a covarianței face dificilă utilizarea acesteia în scopul analizei corelației [8] .
Coeficient de corelație liniară

Pentru a elimina lipsa de covarianță, a fost introdus un coeficient de corelație liniară (sau coeficientul de corelație al lui Pearson ), care a fost dezvoltat de Karl Pearson , Francis Edgeworth și Raphael Weldon în anii 90 ai secolului XIX. Coeficientul de corelație se calculează prin formula [10] [8] :

unde ,  este valoarea medie a probelor.

Coeficientul de corelație variază de la minus unu la plus unu [11] .

Dovada

Împărțind ambele părți ale inegalității duble la obținem

Coeficientul de corelație liniară este legat de coeficientul de regresie sub forma următoarei dependențe: unde  este coeficientul de regresie,  este abaterea standard a atributului factorului corespunzător [12] . Raportul dintre coeficientul de regresie și abaterea standard Y nu depinde de unitățile lui Y. Cu o transformare liniară a setului de date și coeficientul de corelație liniară va fi egal cu .

Măsuri neparametrice ale corelației

Coeficientul de corelare a rangului lui Kendall

Este folosit pentru a identifica relația dintre indicatorii cantitativi sau calitativi, dacă aceștia pot fi clasați. Valorile indicatorului X sunt stabilite în ordine crescătoare și sunt atribuite ranguri. Valorile indicatorului Y sunt clasate și se calculează coeficientul de corelație Kendall :

,

unde .

 este numărul total de observații care urmează observațiilor curente cu o valoare mare a rangurilor Y.

 este numărul total de observații care urmează observațiilor curente cu ranguri Y mai mici . (rangurile egale nu sunt luate în considerare!)

Dacă datele studiate sunt repetate (au aceleași ranguri), atunci în calcule se utilizează coeficientul de corelație Kendall ajustat:

 este numărul de ranguri înrudite din seriile X și, respectiv, Y.

Coeficientul de corelare a rangului lui Spearman

Gradul de dependență a două variabile aleatoare (trăsături) și poate fi caracterizat pe baza analizei rezultatelor obținute . Fiecărui indicator i se atribuie un rang. Rândurile valorilor sunt în ordine firească . Rangul este scris ca și corespunde rangului perechii pentru care rangul este . Pe baza rangurilor obținute și a diferențelor acestora se calculează și se calculează coeficientul de corelație Spearman :

Valoarea coeficientului variază de la -1 (secvențele de ranguri sunt complet opuse) la +1 (secvențele de ranguri sunt complet aceleași). O valoare de zero indică faptul că caracteristicile sunt independente.

Coeficientul de corelare a semnului Fechner

Se calculează numărul de coincidențe și nepotriviri ale semnelor de abateri ale valorilor indicatorilor de la valoarea lor medie.

C este numărul de perechi pentru care coincid semnele abaterilor valorilor de la mediile lor.

H este numărul de perechi pentru care semnele abaterilor valorilor de la mediile lor nu se potrivesc.

Coeficient de corelație multiplă Coeficient de corelație de rang multiplu (concordanță)

 este numărul de grupuri care sunt clasate.

 este numărul de variabile.

 este rangul factorului - al lui y -unul.

Semnificaţie:

, atunci ipoteza lipsei de legătură este respinsă.

În cazul rangurilor înrudite:

Proprietățile coeficientului de corelație

dacă luăm covarianța ca produs scalar a două variabile aleatoare , atunci norma variabilei aleatoare va fi egală cu , iar consecința inegalității Cauchy-Bunyakovsky va fi: .
  • Coeficientul de corelație este egal dacă și numai dacă și sunt dependente liniar (excluzând evenimentele cu probabilitate zero, când mai multe puncte „elimină” din linia dreaptă, reflectând dependența liniară a variabilelor aleatoare):
, unde . Mai mult, în acest caz, semnele și coincid: . Dovada

Luați în considerare variabile aleatoare X și Y cu medii zero și varianțe egale cu și, respectiv . Să calculăm varianța variabilei aleatoare :

Presupunând că coeficientul de corelaţie

atunci expresia anterioară se va rescrie sub forma

Deoarece puteți alege întotdeauna numerele a și b astfel încât (de exemplu, dacă , atunci luăm un arbitrar a și ), atunci pentru acestea a și b varianța este , și, prin urmare, aproape sigur. Dar asta înseamnă o relație liniară între X și Y. Demonstrarea este generalizată în mod evident în cazul X și Y cu medii diferite de zero, doar în calculele de mai sus va fi necesar să înlocuim X cu și Y cu .

  • Fie variabile aleatoare astfel încât , . Atunci: , unde este așteptarea matematică condiționată.
  • Dacă variabile aleatoare independente , atunci . Reversul nu este adevărat în general.

Analiza corelației

Analiza corelației este o  metodă statistică de prelucrare a datelor care măsoară puterea relației dintre două sau mai multe variabile. Analiza corelației este strâns legată de analiza de regresie (termenul „ analiza de corelație-regresie ”, care este un concept statistic mai general, se găsește și el deseori ), determină necesitatea includerii anumitor factori în ecuația de regresie multiplă și evaluează, de asemenea, ecuația de regresie rezultată pentru relațiile identificate de conformitate (folosind coeficientul de determinare ) [1] [2] .

Limitările analizei corelației

  1. Aplicarea este posibilă dacă există suficiente observații de studiat. În practică, se crede că numărul de observații ar trebui să fie de cel puțin 5-6 ori numărul de factori (există și o recomandare de a folosi o proporție care este de cel puțin 10 ori numărul de factori). Dacă numărul de observații depășește de zeci de ori numărul de factori, intră în joc legea numerelor mari , care asigură anularea reciprocă a fluctuațiilor aleatorii [13] .
  2. Este necesar ca totalitatea valorilor tuturor caracteristicilor factoriale și efective să se supună distribuției normale multivariate . Dacă volumul populației este insuficient pentru testarea formală a normalității distribuției, atunci legea distribuției este determinată vizual pe baza câmpului de corelație . Dacă se observă o tendință liniară în locația punctelor din acest câmp, atunci se poate presupune că setul de date inițiale respectă legea distribuției normale [14] .
  3. Setul inițial de valori ar trebui să fie omogen calitativ [13] .
  4. Prin el însuși, faptul corelației nu dă motive să se afirme că una dintre variabile precede sau este cauza modificărilor, sau că variabilele sunt în general legate cauzal între ele, iar efectul celui de-al treilea factor nu este observat [5]. ] .

Domeniul de aplicare

Această metodă de prelucrare a datelor statistice este foarte populară în economie , astrofizică și științe sociale (în special în psihologie și sociologie ), deși sfera de aplicare a coeficienților de corelare este extins: controlul calității produselor industriale, metalurgie , chimie agricolă , hidrobiologie , biometrie și altele. . În diverse industrii aplicate, diferite limite de intervale sunt acceptate pentru evaluarea etanșeității și semnificației conexiunii.

Popularitatea metodei se datorează a două puncte: coeficienții de corelație sunt relativ ușor de calculat, aplicarea lor nu necesită pregătire matematică specială. Combinată cu ușurința de interpretare, ușurința de aplicare a coeficientului a condus la utilizarea pe scară largă a acestuia în domeniul analizei datelor statistice.

Vezi și

Note

  1. 1 2 3 Shmoylova, 2002 , p. 272.
  2. 1 2 Eliseeva, Yuzbashev, 2002 , p. 232.
  3. Eliseeva, Iuzbashev, 2002 , p. 228.
  4. Eliseeva, Iuzbashev, 2002 , p. 228-229.
  5. 1 2 Eliseeva, Yuzbashev, 2002 , p. 229.
  6. Suslov, Ibragimov, Talysheva, Tsyplakov, 2005 , p. 141.
  7. Gmurman, 2004 , p. 176-177.
  8. 1 2 3 Gmurman, 2004 , p. 177.
  9. Gmurman, 2004 , p. 178-179.
  10. Shmoylova, 2002 , p. 300.
  11. Gmurman, 2004 , p. 179.
  12. Shmoylova, 2002 , p. 301.
  13. 1 2 Eliseeva, Yuzbashev, 2002 , p. 230.
  14. Shmoylova, 2002 , p. 275.

Literatură

  • Gmurman V. E. Teoria probabilităților și statistică matematică: manual pentru licee. — ediția a 10-a, stereotip. - Moscova: Şcoala superioară, 2004. - 479 p. —ISBN 5-06-004214-6.
  • Eliseeva I. I. , Yuzbashev M. M. Teoria generală a statisticii: Manual / Ed. I. I. Eliseeva. - Ediția a IV-a, revizuită și mărită. - Moscova: Finanțe și Statistică, 2002. - 480 p. — ISBN 5-279-01956-9 .
  • Analiza corelației  / A. V. Prokhorov // Marea Enciclopedie Rusă  : [în 35 de volume]  / cap. ed. Yu. S. Osipov . - M .  : Marea Enciclopedie Rusă, 2004-2017.
  • Teoria Generală a Statisticii: Manual / Ed. R. A. Shmoylova . — Ediția a III-a, revizuită. - Moscova: Finanțe și Statistică, 2002. - 560 p. — ISBN 5-279-01951-8 .
  • Suslov V. I., Ibragimov N. M., Talysheva L. P., Tsyplakov A. A. Econometrie. - Novosibirsk: SO RAN, 2005. - 744 p. — ISBN 5-7692-0755-8 .

Link -uri