O variabilă calitativă , discretă sau categorială este o variabilă care poate prelua una dintr-un număr limitat și de obicei fix de valori posibile , atribuind fiecare unitate de observație unui anumit grup sau categorie nominală pe baza unei proprietăți calitative [1] . În informatică și în unele ramuri ale matematicii , variabilele calitative sunt numite enumerații sau distribuție categorială .
Datele calitative sunt un tip de date statistice , constând din variabile calitative, sau date care sunt convertite într-o astfel de formă, cum ar fi datele grupate . Mai precis, datele calitative pot fi obținute din observații de date calitative care sunt rezumate sub formă de contoare sau tabele încrucișate , sau din observații de date cantitative grupate pe intervale date. Adesea, datele pur calitative sunt formulate sub forma unui tabel de contingente . Cu toate acestea, termenul „ date calitative ” se aplică seturi de date care, deși au unele variabile calitative, pot conține și variabile care nu sunt calitative.
O variabilă calitativă care poate lua exact două valori se numește variabilă binară sau variabilă dihotomică . Un caz special important este valoarea distribuită conform legii Bernoulli . Variabilele calitative cu mai mult de două valori posibile se numesc variabile politomice . Variabilele calitative sunt adesea considerate politomice, dacă nu se specifică altfel. Discretizarea este tratarea datelor continue ca și cum ar fi calitative. Dihotomizarea este tratarea datelor continue ca și cum ar fi variabile binare. Analiza de regresie este adesea tratată ca fiind calitativă cu una sau mai multe variabile fictive cantitative .
Exemple de valori care pot fi reprezentate ca variabilă calitativă:
Pentru comoditatea prelucrării statistice, indici numerici pot fi alocați variabilelor calitative, de exemplu, de la 1 la K pentru o variabilă calitativă cu valoare K (adică o variabilă care poate lua exact K valori posibile). Cu toate acestea, ca regulă generală, numerele sunt arbitrare și au puțină semnificație în afară de simpla furnizare a unei etichete pentru o anumită valoare. Cu alte cuvinte, valorile unei variabile calitative există la o scară nominală - valorile sunt concepte separate, nu pot fi ordonate și nu pot fi manipulate ca numerele obișnuite. Operațiunile valide pot fi numai echivalența , apartenența la set și alte operațiuni pe seturi.
Ca urmare, tendința centrală a setului de variabile calitative este dată de modul . Nici media, nici mediana nu pot fi determinate. De exemplu, având în vedere un set de persoane, putem lua în considerare un set de variabile calitative corespunzătoare numelor lor de familie. Putem lua în considerare operațiuni precum echivalența (dacă două persoane au același nume de familie), apartenența stabilită (dacă un nume de familie se află într-o listă dată), numărarea (câte persoane au un nume de familie dat) sau găsirea modei (care durează ). numele este cel mai frecvent). Cu toate acestea, nu putem calcula în mod semnificativ „suma” Smith + Johnson, sau să punem o întrebare sau să „comparam” Smith și Johnson. Ca urmare, nu putem întreba care este „numele de familie” ( valoarea medie ) sau „cel mai apropiat nume de familie” ( mediană (statistică) |mediană) într-un set de nume de familie.
Rețineți că aceasta ignoră noțiunea de ordine alfabetică , care este o proprietate care nu este moștenită de la numele de familie în sine, ci o modalitate de a construi etichete. De exemplu, dacă scriem nume de familie în chirilic și asumăm ordinea literelor chirilice, este posibil să obținem un rezultat diferit de „Smith” < „Holmes” pe care îl obținem când scriem nume de familie în alfabetul latin standard . Și dacă scriem numele în caractere chinezești , nu vom putea scrie deloc „Smith” < „Holms” în mod semnificativ, deoarece nu este definită nicio ordine pentru ele. Totuși, dacă considerăm numele scrise, de exemplu, în alfabetul latin și definim o ordine corespunzătoare ordinii alfabetice standard, le putem transforma în variabile ordinale definite pe scara obișnuită .
Variabilele aleatoare calitative sunt descrise printr-o distribuție calitativă statistic , care permite exprimarea unei variabile calitative arbitrare cu valori K cu probabilități separate date pentru fiecare dintre cele K rezultate posibile. Astfel de variabile calitative multi-categorii sunt adesea explorate cu o distribuție multi- nominală , care numără frecvența fiecărei combinații posibile de numere din diferitele categorii. Analiza de regresie a rezultatelor calitative este efectuată utilizând regresia logistică multinomială , probit multinomial multinomial , sau tipuri înrudite de modele de alegere discretă .
Variabilele calitative care au doar două rezultate posibile (cum ar fi da/nu sau succes/eșec) sunt cunoscute ca variabile binare (sau variabile Bernoulli ). Datorită importanței lor, aceste variabile sunt adesea considerate o categorie separată cu o distribuție separată (distribuția Bernoulli ) și modele de regresie separate ( Regresia logistică , Regresia Probit etc.). Ca rezultat, termenul „variabilă calitativă” este adesea rezervat cazurilor de 3 sau mai multe rezultate și sunt numite variabile cu mai multe valori , spre deosebire de o variabilă binară.
Se pot lua în considerare și variabile calitative pentru care numărul de categorii nu este fixat în prealabil. O astfel de variabilă calitativă poate fi o variabilă care descrie un cuvânt și nu putem ști dinainte dimensiunea dicționarului, astfel încât putem permite întâlnirea unor cuvinte pe care nu le-am văzut până acum. Modelele statistice standard care implică distribuția calitativă și regresia logistică multinomială presupun că numărul de categorii este cunoscut în avans și schimbarea numărului de categorii din mers este problematică. În astfel de cazuri, ar trebui utilizate tehnici mai avansate. Un exemplu este procesul Dirichlet , care intră în domeniul statisticii neparametrice . Într-un astfel de caz, se presupune logic că există un număr infinit de categorii, dar la un moment dat majoritatea dintre ele (de fapt, toate, cu excepția unui număr finit) nu sunt niciodată vizualizate. Toate formulele sunt formulate în funcție de numărul de categorii efectiv lovite, nu în termeni de numărul total (infinit) de categorii potențiale, iar metodele sunt create pentru a actualiza distribuțiile de probabilitate incrementale, inclusiv adăugarea de categorii „noi”.
Variabilele calitative reprezintă o metodă de evaluare calitativă (spre deosebire de cantitativă) a datelor (adică reprezintă categorii sau apartenența la grup). Ele pot fi incluse ca variabile independente într-o analiză de regresie sau ca variabile dependente într-o regresie logistică sau probit , dar trebuie convertite în pentru a putea analiza datele. Acest lucru se realizează prin utilizarea sistemelor de codare. Analiza se face astfel încât să fie codificate numai valorile g −1 ( g este egal cu numărul de grupuri). Acest lucru minimizează redundanța, dar reprezintă totuși setul complet de date, deoarece nu se vor obține informații suplimentare din codificarea tuturor grupurilor g . De exemplu, când codificăm genul ( g = 2: bărbat și femeie), dacă codificăm doar femei, restul va fi masculin. De obicei, un grup care nu este codificat este de interes minim [2] .
Există trei sisteme principale de codare utilizate în mod obișnuit în analiza variabilelor calitative în regresie: codificare dummy, codificare influență și codare contrast. Ecuația de regresie ia forma Y=bX + a , unde b este factorul de pantă și specifică ponderea atribuită empiric explicației, X este variabila explicativă și a este intersecția cu axa y și aceste valori ia valori diferite în funcție de sistemul de codificare adoptat. Alegerea sistemului de codare nu afectează statisticile F sau R 2 . Totuși, sistemul de codificare se alege în funcție de interesul față de categorii, deoarece de acesta depinde valoarea lui b [2] .
Codarea simulată [3] este utilizată atunci când există un grup de control sau de comparație. Prin urmare, datele sunt analizate în raport cu grupul de comparație - a reprezintă media grupului de control, iar b este diferența dintre media grupului experimental și media grupului de control. Se presupune că sunt îndeplinite trei criterii de eligibilitate a grupului de control - grupul trebuie să fie bine definit (de exemplu, nu ar trebui să fie categoria „alții”), trebuie să existe un motiv logic pentru alegerea acestui grup ca grup de comparație (de exemplu, se așteaptă ca grupul să aibă cel mai mare scor la variabila dependentă) și, în sfârșit, dimensiunea eșantionului grupului ar trebui să fie semnificativă și nu mai mică în comparație cu alte grupuri [4] .
În codificarea inactivă, grupului de referință i se atribuie valoarea 0 pentru fiecare variabilă de codificare. Pentru fiecare respondent din setul de variabile, doar unul poate lua valoarea 1, și acesta este cel care corespunde categoriei [5] [2] . Valorile b ar trebui interpretate astfel încât grupul experimental să fie comparat cu grupul de control. Prin urmare, obținerea unei valori negative pentru b înseamnă că grupul experimental are scoruri mai mici decât grupul de control la variabila dependentă . Pentru a ilustra acest lucru, să presupunem că măsurăm optimismul în rândul mai multor naționalități și decidem că francezii vor fi folosiți ca grup de control. Dacă îi comparăm cu italienii și obținem o valoare b negativă , aceasta sugerează că italienii sunt, în medie, mai puțin optimiști.
Următorul tabel oferă un exemplu de codificare fictivă cu francezii ca grup de control și, respectiv, C1, C2 și C3 fiind codurile pentru italieni , germani și alții (nici francezi, nici italieni, nici germani):
Naţionalitate | C1 | C2 | C3 |
francezi | 0 | 0 | 0 |
italieni | unu | 0 | 0 |
germani | 0 | unu | 0 |
Alte | 0 | 0 | unu |
Într-un sistem de codificare a influenței, datele sunt analizate prin compararea unui grup cu toate celelalte grupuri. Spre deosebire de codificarea simulată, nu există un grup de control. În schimb, comparația se face față de media tuturor grupurilor ( a va fi acum media generală ). Prin urmare, nu se caută relația datelor cu alte grupuri, ci se caută relația cu media generală [2] .
Codarea influenței poate fi fie ponderată, fie nu. Codarea impactului ponderat calculează pur și simplu o medie globală ponderată, luând astfel în considerare dimensiunea eșantionului pentru fiecare variabilă. Acest lucru este cel mai potrivit în situațiile în care eșantionul este reprezentativ pentru populație. Codarea influenței neponderate este cea mai potrivită în situațiile în care diferența de dimensiune a eșantionului este rezultatul unor factori aleatori. Interpretarea lui b este diferită pentru aceste cazuri - în cazul codării neponderate, efectul lui b este diferența dintre media grupului experimental și media generală, în timp ce în cazul codării ponderate este egal cu media grupului experimental minus media ponderată. [2] .
În codificarea influenței, codificăm grupul studiat în același mod ca și în codificarea simulată. Diferența fundamentală este că atribuim codul -1 grupului care ne interesează cel mai puțin. Deoarece continuăm să folosim schema de codificare g - 1, grupul codificat -1 nu produce date ca urmare a faptului că suntem cei mai puțin interesați de acest grup.
Valorile b ar trebui interpretate în așa fel încât grupul de tratament să fie comparat cu media tuturor grupurilor (sau media generală ponderată în cazul codificării influenței ponderate). Astfel, obținerea unei valori negative pentru b înseamnă că grupul codificat are un scor mai mic decât media tuturor grupurilor pe variabila dependentă. Folosind exemplul nostru anterior de notare a optimismului pe națiune, dacă se ia în considerare un grup de italieni, valoarea negativă observată a lui b înseamnă că aceștia au un scor de optimism scăzut.
Următorul tabel este un exemplu de codificare a influenței, grupul cel mai puțin interesant fiind alții .
Naţionalitate | C1 | C2 | C3 |
francezi | 0 | 0 | unu |
italieni | unu | 0 | 0 |
germani | 0 | unu | 0 |
alții | −1 | −1 | −1 |
Sistemul de codare prin contrast (sau codificare ortogonală ) permite cercetătorului să pună întrebări specifice în mod direct. În loc să aibă un sistem de codificare care dictează comparații (adică împotriva unui grup de control, ca în codificarea simulată, sau împotriva tuturor grupurilor, ca în codificarea influenței), poate fi dezvoltat un criteriu de comparație unic pentru o anumită întrebare de cercetare. Aceste ipoteze individuale se bazează de obicei pe cercetări și/sau teorii anterioare. Ipotezele sunt de obicei următoarele. Există o ipoteză centrală care postulează o mare diferență între cele două seturi de grupuri. A doua ipoteză sugerează că în fiecare set, diferența dintre grupuri este mică. Prin aceste ipoteze a priori , codarea de contrast poate da o creștere a puterii de testare statistică în comparație cu sistemele de codare anterioare [2] .
Unele diferențe apar atunci când comparăm prioritățile noastre între ANOVA și regresie. Spre deosebire de cazul în care se utilizează analiza varianței, în care cercetătorul decide dacă valorile coeficienților vor fi ortogonale sau nu, atunci când se utilizează regresia, este esențial ca valorile coeficienților alocați în timpul codificării contrastului să fie ortogonală. Mai mult, la regresie, valorile coeficienților trebuie să fie fie sub forma unei fracții (obișnuite), fie sub forma unei fracții zecimale. Ele nu pot fi valori de interval.
Construirea codurilor de contrast este limitată de trei reguli:
Încălcarea regulii 2 dă valorile R 2 și F , ceea ce arată că ar trebui să obținem aceleași concluzii dacă există o diferență semnificativă; Cu toate acestea, nu mai putem interpreta valorile lui b ca diferență dintre medii.
Pentru a ilustra construcția codurilor de contrast, luați în considerare următorul tabel. Coeficienții au fost aleși pentru a ilustra ipotezele noastre anterioare: Ipoteza 1: francezii și italienii sunt mai optimiști decât germanii (franceză=+0,33, italienii=+0,33, germanii=−0,66). Acest lucru este ilustrat prin atribuirea aceluiași coeficient categoriilor franceză și italiană și a unui coeficient diferit celui german. Semnele atribuite arată direcția conexiunii (semnul negativ pentru germani arată optimismul lor mai puțin ipotetic). Ipoteza 2: se așteaptă ca francezii și italienii să aibă o diferență de optimism (franceză=+0,50, italienii=−0,50, germani=0). Prin urmare, atribuirea unei valori zero germanilor demonstrează eșecul lor de a include această ipoteză în analiză. Din nou, semnele atribuite indică presupusele conexiuni.
Naţionalitate | C1 | C2 |
francezi | +0,33 | +0,50 |
italieni | +0,33 | −0,50 |
germani | −0,66 | 0 |
Codificarea prostii apare atunci când valorile arbitrare sunt folosite în locul lui „0”, „1” și „-1” în sistemul de codificare anterior. În timp ce această codificare produce valorile corecte pentru variabile, utilizarea codării nonsens nu este recomandată deoarece va duce la rezultate statistice imprevizibile [2] .
Înglobările sunt codificări ale valorilor categoriale în spații vectoriale cu valori reale (uneori cu valori complexe ), de obicei în așa fel încât valorile „similare” să fie atribuite vectorilor „similari”, sau supuse unui fel de criteriu care face vectorii utili pentru aplicația corespunzătoare. Un caz special obișnuit este încorporarea cuvintelor , în care valorile posibile ale variabilelor calitative sunt cuvinte din limbă și vectori similari sunt alocați cuvintelor cu valori similare.
O interacțiune poate apărea dacă este luată în considerare între trei sau mai multe variabile și descrie o situație în care influența simultană a două variabile asupra uneia trei nu este aditivă. Interacțiunea cu variabile calitative poate apărea în două moduri: fie interacțiunea unei variabile calitative cu una calitativă, fie interacțiunea unei variabile calitative cu una continuă.
Interacțiunea unei variabile calitative cu una calitativăAcest tip de interacțiune apare atunci când avem două variabile calitative. Pentru a explora acest tip de interacțiune, sistemul trebuie să fie codificat pentru a aborda cel mai adecvat ipoteza cercetătorului. Rezultatul codificării reproduce interacțiunea. Apoi puteți calcula valoarea lui b și puteți determina dacă această interacțiune este semnificativă [2] .
Interacțiunea unei variabile calitative cu una continuăAnaliza simplă a pantei este o analiză retrospectivă comună utilizată în regresie, care este similară cu analiza simplă a influenței din ANOVA utilizată în analiza interacțiunii. În acest test, testăm pantele unei variabile independente față de anumite valori ale altei variabile independente. Un astfel de test nu se limitează la variabile continue și poate fi folosit și atunci când variabila independentă este calitativă. Nu putem selecta pur și simplu valori pentru studiile de interacțiune, ca în cazul unei variabile continue, datorită naturii nominale a datelor (adică, în cazul continuu, se pot analiza datele la niveluri ridicate, medii și scăzute prin atribuirea unei abateri standard deasupra mediei, la mijloc și una sub medie). În cazul nostru, folosim o ecuație simplă de regresie pe grup pentru a explora pante. Este o practică comună standardizarea sau centrarea variabilelor pentru a face datele mai interpretabile în analiza pantei. Cu toate acestea, variabilele calitative nu ar trebui să fie standardizate sau centrate. Acest test poate fi utilizat cu toate sistemele de codare [2] .