Analiza itemilor (articolelor de testare) [1] include un set de metode statistice pentru examinarea adecvării itemilor individuali de testare, ale căror valori au fost obținute, de exemplu, printr-o anchetă scrisă, în funcție de scopul studiului . Scopul este de a crea o scară calitativă (scala înseamnă aici un instrument de măsurare a unor variabile) pentru a testa și îmbunătăți elementele de testare. Prin urmare, subiectul analizei itemilor este de a studia utilitatea elementelor individuale pentru un anumit test. Analiza postului este un instrument cheie pentru proiectarea cazurilor de testare și evaluarea fiabilității acestora (ca criteriu). Decisiv pentru evaluare este decizia că întregul test (adică toate elementele sale) are ca scop studierea exactă a ceea ce a fost inițial intenționat să fie măsurat.
Conceptul de analiză a sarcinilor nu este definit cu precizie în literatură. Este folosit pentru a determina empiric criteriile psihometrice pentru itemii individuali de testare. Majoritatea definițiilor se referă la analiza clasică a sarcinilor în proiectarea testelor: • Analiza distribuției frecvenței • Calculul parametrilor statistici o Dificultatea sarcinilor o Puterea discriminantă (capacitatea distinctivă) a sarcinilor o Omogenitatea (Omogenitatea) sarcinilor • Dimensionalitatea (dimensionalitatea). Analiza se realizează conform algoritmului, al cărui scop este dezvoltarea capacității de măsurare a factorului pentru care a fost creat testul. Analiza itemilor este folosită pentru a selecta și revizui itemi, pentru a le plasa corect într-un test și, eventual, pentru a dezvolta teste paralele.
Valorile de control pot fi prezentate grafic (de exemplu, ca un grafic cu bare). Aceasta oferă prima idee generală a distribuției frecvenței . Interesul principal aici este răspândirea valorilor și răspunsul la întrebarea dacă distribuția valorilor brute urmează o distribuție normală. Deoarece multe proceduri de analiză statistică presupun o distribuție normală, este de dorit o distribuție adecvată.
Dificultatea sarcinilor este caracterizată printr-un indice care corespunde proporției de oameni care au rezolvat corect sarcina (Bortz & Döring, 2005). Anterior, acest indicator a fost numit Indicele de popularitate. Scopul indicelui de dificultate este de a face distincția între sarcinile care sunt de mare dificultate și cele care sunt mai ușoare. Nepotrivite sunt sarcinile pentru care toți subiecții dau răspunsul corect sau sarcinile pentru care răspunsul nu a fost găsit de nimeni. Indicele de dificultate trebuie să se situeze neapărat între aceste cazuri extreme. În teste, nivelul de dificultate ar trebui să acopere întregul interval posibil al caracteristicii măsurate de test.
Dificultatea itemilor de test cu un răspuns în doi pași (de exemplu, adevărat / fals) se calculează după cum urmează:
, Unde
Nr = numărul de subiecți care au răspuns corect, N = numărul de subiecți, p = Dificultatea itemului (doar itemi în doi pași!) Aceasta oferă o soluție pentru cel mai simplu caz. Dacă subiecții nu au rezolvat sarcina sau există suspiciunea că unele sarcini au fost efectuate „la întâmplare”, atunci trebuie să se bazeze pe alte soluții alternative. (vgl. Fisseni, 1997, 41-42).
Calculul dificultății sarcinilor cu răspunsuri în mai multe etape (alternative): Cazul când p nu este definit. Soluții posibile la această problemă: • Produceți o dihotomie de valori setate (de exemplu, 0 și 1), în acest caz, se calculează dificultatea sarcinii cu un răspuns în doi pași. • Calculul mediei și varianței (media este echivalentă cu p, dar trebuie luată în considerare și dispersia).
• = Index pentru întrebările cu răspunsuri pe mai multe niveluri:
Formula simplificata:
Pentru un calcul mai precis, diferiți autori oferă diferite metode (vgl. Fisseni, 2004, 43-45). Diferența de dificultate a celor două sarcini poate fi verificată folosind un tabel multidisciplinar. Aceste formule pot fi folosite doar pentru nivelul de testare, adică atunci când testarea nu este necesară și/sau când subiecții au reușit să facă față tuturor sarcinilor. (vgl. Lienert, 1989).
Calculând puterea discriminantă, puteți vedea cât de mult afectează fiecare element rezultatul general al testului (Bortz & Döring, 2005). Prin urmare, un scor de putere discriminant ridicat înseamnă că itemul este capabil să distingă itemii în ceea ce privește testul general (adică indivizii cu valori ridicate ale caracteristicii de cei cu valori scăzute). Puterea discriminantă are un coeficient. Acesta este coeficientul de corelație dintre un singur item și scorul general al testului. Coeficientul este calculat pentru fiecare sarcină individuală și depinde de scara nivelului de control. Dacă distribuția valorilor testului are forma unei distribuții normale, atunci puterea discriminantă ( ) este determinată de corelația dintre valoarea unei sarcini i și valoarea totală a testului t:
Dacă = 0, atunci sarcinile ating valori la fel de scăzute și ridicate ale caracteristicii. Dacă scorul de corelare este negativ, atunci elementul este considerat inutilizabil. A priori, este de dorit cea mai mare distincție posibilă a sarcinilor, mai ales pentru nivelul testelor. Puterea discriminantă a fiecărei sarcini depinde de complexitatea, dimensiunea și omogenitatea testului, precum și de poziția acestuia în cadrul testului și de fiabilitatea criteriului. (Criteriul poate conține o valoare de test, în plus, poate fi folosit un criteriu extern. Apoi acționează ca un coeficient) Eficiența ridicată a puterii discriminante este posibilă cu o complexitate medie a sarcinii (vgl. Lienert, 1989).
Omogenitatea arată cât de strâns sunt legate între ele elementele de testare. Când există o omogenitate ridicată, sarcinile de cercetare urmăresc măsurarea aceluiași fenomen (Bortz & Döring, 2005). Toți itemii testului au perechi de corelație, rezultând un coeficient de corelație ( ), care (calculat folosind transformarea Z Fisher) descrie scorul mediu de omogenitate a testului ( ). Numărul de corelații depinde de dificultatea sarcinilor. Cu cât este mai mare diferența de sarcini în funcție de criteriul de dificultate, cu atât mai puțină corelație încrucișată, care, la rândul său, afectează fiabilitatea testului. Astfel, itemii testului (subtestului) nu au o corelație în ceea ce privește dificultatea (testul heterogen), sau itemii au această corelație (testul omogen) (vgl. Lienert, 1989).
Dimensionalitatea unui test indică doar una dintre funcțiile sale (testul univariat) sau mai multe funcții ale testului sau subtestelor (testul multivariat) (Bortz & Döring 2005). Din punct de vedere empiric, dimensionalitatea poate fi determinată folosind analiza factorială.