Fiabilitatea testului psihologic

Fiabilitatea este unul dintre criteriile de calitate a testului , stabilitatea sa în raport cu erorile de măsurare. Există două tipuri de fiabilitate - fiabilitatea ca stabilitate și fiabilitatea ca consistență internă .

Fiabilitatea ca durabilitate

Stabilitatea rezultatelor testelor sau retest reliability ( în engleză test-retest reliability ) - posibilitatea de a obține aceleași rezultate de la subiecți în cazuri diferite.

Stabilitatea este determinată de teste repetate (retest) :

În această metodă, se propune efectuarea mai multor măsurători cu o anumită perioadă de timp (de la o săptămână la un an) cu același test. Dacă corelația dintre rezultatele diferitelor măsurători este mare, atunci testul este destul de fiabil. Valoarea cea mai puțin satisfăcătoare pentru fiabilitatea retestării este 0,76. Cu toate acestea, fiabilitatea tuturor testelor nu poate fi testată prin această metodă, deoarece calitatea, fenomenul sau efectul evaluat pot fi în sine instabile (de exemplu, starea noastră de spirit, care se poate schimba de la o măsurare la alta). Un alt dezavantaj al retestării este efectul de dependență. Subiecții sunt deja familiarizați cu acest test și pot chiar să-și amintească majoritatea răspunsurilor de la finalizarea anterioară.

În legătură cu cele de mai sus, se utilizează un studiu al fiabilității metodelor de psihodiagnostic folosind forme paralele, în care se construiesc seturi echivalente sau paralele de sarcini. În acest caz, subiecții efectuează un test complet diferit în condiții similare. Cu toate acestea, există dificultăți în a demonstra că cele două forme sunt într-adevăr echivalente. În ciuda acestui fapt, în practică, formele paralele de teste sunt utile în stabilirea fiabilității testelor.

Fiabilitatea ca consistență internă

Consistența internă ( English internal consistency ) este determinată de relația fiecărui element specific al testului cu rezultatul general, de cât de mult îi contrazice fiecare element pe celălalt, de cât de mult măsoară fiecare întrebare individuală semnul către care este îndreptat întregul test. Cel mai adesea, testele sunt concepute în așa fel încât să aibă un grad ridicat de consistență internă, datorită faptului că, dacă o variabilă este măsurată printr-o parte a testului, atunci în alte părți, dacă nu sunt în concordanță cu prima, aceeași variabilă nu poate fi măsurată. Astfel, pentru ca un test să fie valid, acesta trebuie să fie consecvent.

Cu toate acestea, există și un punct de vedere opus. Cattell spune că consistența internă ridicată este de fapt opusul validității: fiecare întrebare ar trebui să acopere o zonă mai mică sau să aibă o semnificație mai restrânsă decât criteriul măsurat. Dacă toate întrebările sunt foarte consistente, ele sunt foarte corelate și, prin urmare, un test de încredere va măsura doar o variabilă relativ „îngustă” cu variații mici. Conform raționamentului lui Cattell, valabilitatea maximă există atunci când toți itemii testului nu sunt corelați între ei, iar fiecare dintre ei are o corelație pozitivă cu criteriul. Cu toate acestea, un astfel de test ar avea o fiabilitate scăzută a consistenței interne.

Pentru a verifica consistența internă, aplicați:

Metoda split sau metoda pieselor autonome
Metoda goală echivalentă
Alfa lui Cronbach

Fiabilitate pe jumătate

Această metodă constă în împărțirea/împărțirea testului în două părți egale (de exemplu, întrebări pare și impare, prima și a doua jumătate), apoi găsirea corelației dintre ele. Dacă corelația este mare, testul poate fi considerat fiabil.

Metoda spațiilor echivalente

OIE constă în utilizarea a două forme de testare comparabile între ele pentru un eșantion mare (de exemplu, formele L și M pentru măsurarea scalei de inteligență Stanford-Binet). Se compară rezultatele din cele două forme și se calculează o corelație. Dacă coeficientul de corelație este mare, atunci testul este de încredere. Dezavantajul acestei metode este că implică un proces atât de lung și laborios precum crearea a două forme echivalente.

Metoda alfa lui Cronbach

Această metodă, propusă de Lee Cronbach , compară răspândirea fiecărui element cu răspândirea totală a întregii scale. Dacă răspândirea scorurilor la test este mai mică decât răspândirea scorurilor pentru fiecare întrebare individuală, atunci fiecare întrebare individuală își propune să exploreze același teren comun. Ele produc o valoare care poate fi considerată adevărată. Dacă o astfel de valoare nu poate fi calculată, adică se obține o distribuție aleatorie la răspunsul la întrebări, testul nu este de încredere și alfa lui Cronbach va fi egal cu 0. Dacă toate întrebările măsoară același atribut, atunci testul este de încredere. iar alfa lui Cronbach în acest caz va fi egală cu unu.

calculul lui Cronbach

\alfa

$\alfa$ Cronbach este definit ca

${{{N} \over {N-1}}\left({{\sigma _{X}^{2}-\sum _{i=1}^{N}{\sigma _{Y_ {i}}^{2}}} \over {\sigma _{X}^{2}}}\right)}$ ,

unde este numărul de itemi din scară, este varianța scorului total la test și este varianța elementului . $N$ $\sigma _{X}^{2)$ $\sigma _{Y_{i}}^{2}$ $i$

O modalitate alternativă de calcul este următoarea:

${\displaystyle \alpha ={N\cdot {\bar {c}} \over ({\bar {v}}+(N-1)\cdot {\bar {c}})))$

unde N este numărul de itemi din scară, este varianța medie pentru eșantion, este media tuturor covarianțelor dintre componentele eșantionului. ${\bar {v)}$ ${\bar {c}}$

În prezent, Cronbach este calculat folosind SPSS , STATISTICA și alte pachete statistice moderne, eventual folosind Microsoft Excel.

Semnificația lui Cronbach

\alfa

Alfa lui Cronbach va crește în general pe măsură ce corelațiile încrucișate ale variabilelor cresc și, prin urmare, este considerat un marker al consistenței interne în evaluarea validității rezultatelor testelor. Întrucât corelațiile încrucișate maxime dintre variabilele pentru toți itemii sunt prezente dacă se măsoară același lucru, alfa lui Cronbach indică indirect măsura în care toți itemii măsoară același lucru. Astfel, alfa este cel mai potrivit de utilizat atunci când toate elementele au ca scop măsurarea aceluiași fenomen, proprietate, fenomen. Cu toate acestea, trebuie remarcat faptul că o valoare ridicată a coeficientului indică prezența unei baze comune pentru un set de întrebări, dar nu înseamnă că există un singur factor în spatele lor - unidimensionalitatea scării ar trebui confirmată de metode suplimentare. Când se măsoară o structură eterogenă, alfa lui Cronbach va fi adesea scăzută. Astfel, alfa nu este potrivit pentru evaluarea fiabilității instrumentelor în mod deliberat eterogene (de exemplu, pentru MMPI original , în acest caz este logic să se efectueze măsurători separate pentru fiecare scară).

Se crede că testele concepute profesional ar trebui să aibă o consistență internă de cel puțin 0,70 [1] .

Coeficientul alfa poate fi folosit și pentru a rezolva alte tipuri de probleme. Astfel, poate fi folosit pentru a măsura gradul de consistență al experților care evaluează un anumit obiect, stabilitatea datelor în timpul măsurătorilor multiple etc.

Fundamentul teoretic al lui Cronbach

\alfa

Metoda alfa lui Cronbach poate fi privită ca o extensie a lui Cuder-Richardson-20 , care este echivalentul lucrului cu dihotomii sau variabile care iau doar două valori (de exemplu, răspunsuri adevărat/fals).

Criteriul alfa al lui Cronbach este teoretic legat de formula de predicție Spearman-Brown . Și ambele formule decurg din teoria clasică a testului (link inaccesibil) , care constă în faptul că fiabilitatea rezultatelor testului poate fi exprimată ca raportul dintre variațiile scorurilor adevărate și totale (eroare și scor adevărat) .

Vezi și

Pe lângă fiabilitatea testelor, există și fiabilitatea observațională - fiabilitatea interobservatori. МН este procentul de coincidență a rezultatelor observării experților între ei.
Analiza de fiabilitate
Teoria răspunsului la item

Fiabilitate și valabilitate

Fiabilitatea arată că rezultatele studiului în curs de desfășurare sunt apropiate de adevăr, iar validitatea arată că rezultatele se referă într-adevăr la fenomenul pe care cercetătorul îl studiază. Un studiu valid este automat de încredere, dar invers nu este neapărat cazul. Un studiu de încredere poate să nu fie valabil.

Note

^ Lance Charles E. , Butts Marcus M. , Michels Lawrence C. The Sources of Four Commonly Reported Cutoff Criteria // Organizational Research Methods. - 2006. - Aprilie ( vol. 9 , nr. 2 ). - P. 202-220 . - ISSN 1094-4281 . - doi : 10.1177/1094428105284919 .

Literatură

Paul Kline. „Ghid de referință pentru proiectarea testelor”, Kiev, 1994.

Link -uri

Metode de calcul al criteriului alfa lui Cronbach
Fiabilitatea testelor din cartea „Testarea realizărilor educaționale” de V. S. Kim