A nu se confunda cu coeficientul de determinare.
În teoria probabilității și statistică , coeficientul de variație , cunoscut și sub denumirea de abatere standard relativă , este o măsură standard a varianței unei distribuții de probabilitate sau de frecvență. Este adesea exprimat ca procent și este definit ca raportul dintre abaterea standard σ și media μ. CV sau RSD sunt utilizate pe scară largă în chimia analitică pentru a exprima acuratețea și repetabilitatea unei analize. De asemenea, sunt adesea folosite în inginerie și fizică, în cercetarea de asigurare a calității. În plus, CV-ul este folosit de economiști și investitori în modele economice.
Coeficientul de variație este definit ca raportul dintre abaterea standard σ și media μ: c v = [1] . Arată gradul de variabilitate în raport cu media eșantionului. Coeficientul de variație ar trebui să fie calculat numai pentru datele măsurate pe o scară de raport, adică scale care au un zero semnificativ și, prin urmare, permit o comparație relativă a două măsurători. Este posibil ca coeficientul de variație să nu aibă semnificație pentru datele de scară de interval . De exemplu, majoritatea scalelor de temperatură (ex. Celsius, Fahrenheit etc.) sunt scale de intervale cu zerouri arbitrare, astfel încât coeficientul de variație calculat va diferi în funcție de scara utilizată. Pe de altă parte, temperatura Kelvin are un zero semnificativ, absența completă a energiei termice și, prin urmare, este o scară de raport. În termeni simpli, este logic să spunem că 20 kelvin este de două ori mai fierbinte decât 10 kelvin, dar numai pe această scară cu zero absolut adevărat. Deși abaterea standard poate fi măsurată în Kelvin, Celsius sau Fahrenheit, valoarea calculată se aplică doar la scara respectivă. Doar scara Kelvin poate fi utilizată pentru a calcula coeficientul real de variație.
Măsurătorile care sunt distribuite lognormal prezintă un CV staționar; dimpotrivă, RCC variază în funcție de valoarea așteptată a măsurătorilor.
O posibilitate mai robustă este coeficientul de varianță cuartil , jumătate din intervalul intercuartil împărțit la media quartilelor. În cele mai multe cazuri, CV-ul este calculat pentru o singură variabilă independentă (de exemplu, un produs din fabrică) cu mai multe măsurători repetate ale variabilei dependente (de exemplu, o eroare în procesul de fabricație). Cu toate acestea, datele care sunt liniare sau chiar neliniare din punct de vedere logaritmic și care includ un interval continuu pentru variabila independentă cu măsurători rare pentru fiecare valoare (de exemplu, diagramă de dispersie) pot fi susceptibile de un singur calcul LR folosind abordarea estimării cu probabilitate maximă .
Setul de date [100, 100, 100] are valori constante. Deviația standard a eșantionului este 0 și media sa este 100, dând coeficientul de variație:
0 / 100 = 0
Setul de date [90, 100, 110] are o variabilitate mai mare. Deviația standard a eșantionului este 10 și media sa este 100, dând coeficientul de variație:
10 / 100 = 0,1
Setul de date [1, 5, 6, 8, 10, 40, 65, 88] are și mai multă variabilitate. Deviația standard a eșantionului este de 32,9 și media sa este de 27,9, dând coeficientul de variație:
32,9 / 27,9 = 1,18
Compararea coeficienților de variație între parametri folosind unități relative poate duce la diferențe care pot să nu fie realiste. Dacă comparăm același set de temperaturi în Celsius și Fahrenheit (ambele unități relative, unde Kelvin și Rankine sunt valorile lor absolute respective):
Celsius: [0, 10, 20, 30, 40]
Fahrenheit: [32, 50, 68, 86, 104]
Abaterile standard sunt 15,81, respectiv 28,46. CV-ul primului set este 15,81 / 20 = 79%.
Pentru al doilea set (la aceleași temperaturi) este 28,46/68 = 42%.
Dacă, de exemplu, seturile de date sunt citiri de temperatură de la doi senzori diferiți (un senzor Celsius și un senzor Fahrenheit) și vrei să știi care senzor este mai bun alegându-l pe cel cu cea mai mică abatere, atunci vei fi indus în eroare, dacă folosesc CV-ul. Problema aici este că ați împărțit la o sumă relativă, nu la una absolută.
Comparație a aceluiași set de date, acum în unități absolute:
Conform Kelvin: [273.15, 283.15, 293.15, 303.15, 313.15]
Conform Rankin: [491.67, 509.67, 527.67, 545.67, 563.67]
Abaterile standard ale eșantionului sunt încă de 15,81 și, respectiv, 28,46, deoarece abaterea standard nu este afectată de părtinirea constantă. Cu toate acestea, coeficienții de variație sunt acum de 5,39%.
Din punct de vedere matematic, coeficientul de variație nu este complet liniar. Adică, pentru o variabilă aleatoare X , coeficientul de variație aX + b este egal cu coeficientul de variație X numai când b = 0 . În exemplul de mai sus, grade Celsius pot fi convertite numai în grade Fahrenheit folosind o transformare liniară de forma ax + b cu b ≠ 0, în timp ce grade Kelvin pot fi convertite în grade Rankine printr-o transformare liniară ax.
Când este disponibil doar un eșantion de date dintr-o populație, CV-ul populației poate fi estimat utilizând raportul dintre abaterea standard a eșantionului s și media eșantionului x :
c v =
Dar această estimare, aplicată unui eșantion mic sau mediu, tinde să fie prea imprecisă: este o estimare părtinitoare . Pentru datele distribuite normal , estimatorul imparțial pentru un eșantion de dimensiune n este:
În multe aplicații, se poate presupune că datele sunt distribuite log-normal (indicat de prezența asimetriei în eșantionul de date). În astfel de cazuri, se obține o estimare mai precisă din proprietățile distribuției lognormale , care este definită ca:
unde este abaterea standard eșantion a datelor după transformarea logaritmului natural al .
Coeficientul de variație este util deoarece abaterea standard a datelor trebuie întotdeauna înțeleasă în contextul mediei datelor. În schimb, valoarea reală a CV-ului nu depinde de unitatea de măsură, deci este un număr adimensional. Pentru a compara seturi de date cu unități de măsură diferite sau cu mijloace foarte diferite, utilizați coeficientul de variație în loc de abaterea standard.
Coeficientul de variație este, de asemenea, obișnuit în domenii aplicate ale probabilității, cum ar fi teoria reînnoirii , teoria cozilor și teoria fiabilității . În aceste zone , distribuția exponențială este adesea mai importantă decât distribuția normală . Abaterea standard a unei distribuții exponențiale este egală cu media ei, deci coeficientul de variație este 1. Distribuțiile cu CV < 1 (de exemplu, distribuția Erlang ) sunt considerate a avea varianță scăzută, în timp ce distribuțiile cu CV > 1 (de exemplu, distribuția Erlang) , distribuţia hiperexponenţială ) sunt considerate a avea varianţă mare . Unele dintre formulele din aceste câmpuri sunt exprimate în termeni de coeficient de variație pătrat, adesea abreviat KCV. În esență, CV înlocuiește termenul de abatere standard cu abatere standard. În timp ce multe procese naturale arată o corelație între medie și cantitatea de variație în jurul acesteia, dispozitivele cu senzori de precizie trebuie proiectate astfel încât coeficientul de variație să fie aproape de zero, adică să ofere o eroare absolută constantă în intervalul lor de funcționare.
În calculele actuariale , CV este cunoscut ca risc unificat .
În prelucrarea industrială a solidelor, CV-ul este deosebit de important pentru măsurarea gradului de omogenitate al unui amestec de pulberi. Compararea CV-ului calculat cu specificația va determina dacă s-a realizat o amestecare suficientă.
Coeficientul de variație satisface cerințele pentru măsurarea inegalității economice . Dacă x (cu elementele x i ) este o listă de valori ale unui indicator economic (de exemplu, bogăție) și x i este bogăția agentului i, atunci sunt îndeplinite următoarele cerințe:
1. Anonimitatea — c v nu depinde de ordonarea listei x. Aceasta rezultă din faptul că varianța și media nu depind de ordonarea listei x.
2. c v (x)=c v (αx), unde α este un număr real .
3. Dacă {x, x} este o listă x atașată la sine, atunci c v ({x, x})=c v (x).
4. Principiul transferului Pigou-Dalton: când bogăția este transferată de la un agent mai bogat i la un agent mai sărac j (adică x i > x j ) fără a-și schimba rangul, atunci c v scade și invers.
c v își ia valoarea minimă egală cu zero pentru egalitate completă (toți x i sunt egali). Cel mai notabil dezavantaj este că nu este mărginit de sus, deci nu poate fi normalizat să fie într-un interval fix (cum ar fi coeficientul Gini , care este mărginit între 0 și 1). Cu toate acestea, se pretează mai bine la analiză, spre deosebire de coeficientul Gini.
Având în vedere că valorile negative și mici pozitive ale mediei eșantionului apar cu o frecvență neglijabilă, distribuția de probabilitate a coeficientului de variație pentru un eșantion de dimensiunea n a fost prezentată de Hendrix și Roby :
unde simbolul ∑ indică faptul că însumarea se termină numai cu valorile pare ale lui n−1-i , adică dacă n este impar, se însumează valorile pare i, iar dacă n este par , se însumează doar valorile i impare .
Acest lucru este util atunci când se construiesc ipoteze statistice sau intervale de încredere. Inferența statistică pentru coeficientul de variație în datele distribuite normal se bazează adesea pe aproximarea chi-pătrat a lui McKay pentru coeficientul de variație .
Momentele standardizate sunt rapoarte similare, , unde acestea sunt momentele k -lea despre medie, care sunt, de asemenea, adimensionale și invariante la scară. Raportul varianță-medie, , este un alt raport similar, dar care nu este adimensional. Consultați normalizarea pentru mai multe relații .
Alte rapoarte relevante includ:
1. performanță ,
2. Moment standardizat ,
3. Indicele de variație ,
4. factorul Fano ,