Datele panel [1] [2] sau datele longitudinale [2] sunt date multidimensionale utilizate în științe sociale și econometrie , obținute printr-o serie de măsurători sau observații pe mai multe perioade de timp pentru aceleași companii sau oameni. Un studiu care utilizează date de grup se numește studiu de grup .
Uman | An | Sursa de venit | Vârstă | Podea |
---|---|---|---|---|
numarul 1 | 2016 | 1300 | 27 | unu |
numarul 1 | 2017 | 1600 | 28 | unu |
numarul 1 | 2018 | 2000 | 29 | unu |
nr. 2 | 2016 | 2000 | 38 | 2 |
nr. 2 | 2017 | 2300 | 39 | 2 |
nr. 2 | 2018 | 2400 | 40 | 2 |
Uman | An | Sursa de venit | Vârstă | Podea |
---|---|---|---|---|
numarul 1 | 2016 | 1600 | 23 | unu |
numarul 1 | 2017 | 1500 | 24 | unu |
nr. 2 | 2016 | 1900 | 41 | 2 |
nr. 2 | 2017 | 2000 | 42 | 2 |
nr. 2 | 2018 | 2100 | 43 | 2 |
Numărul 3 | 2017 | 3300 | 34 | unu |
Exemplul de mai jos arată două seturi de date colectate într-o structură de panou. Caracteristicile individuale (venit, vârstă, sex) sunt colectate pentru diferite persoane și diferiți ani. În primul set de date, două persoane (#1, #2) sunt urmărite în fiecare an timp de trei ani (2016, 2017, 2018). În al doilea set de date, trei persoane (#1, #2, #3) sunt văzute de două ori (persoana #1), de trei ori (persoana #2) și, respectiv, o dată (persoana #3), de-a lungul a trei ani (2016). , 2017 , 2018); în special, nu există date pentru 2018 pentru persoana #1 și pentru 2016 și 2018 pentru persoana #3.
Un panou echilibrat [3] (primul exemplu) este un set de date în care fiecare membru al unui grup (adică o persoană) este observat în fiecare an. Prin urmare, dacă un panou echilibrat conține N unități de observație și T perioade, numărul de observații (n) din setul de date va fi în mod necesar n = N × T [4] .
Un panou dezechilibrat [3] (al doilea set de date din exemplu) este un set de date în care cel puțin un membru al grupului nu are date pentru toate perioadele. Prin urmare, dacă un panou dezechilibrat conține N unități de observație și T perioade, atunci numărul de observații (n) din setul de date este strict mai mic decât produsul lor: n < N × T [4] .
Ambele seturi de date sunt structurate într-un format lung, în care un rând conține câte o observație la un moment dat. O altă modalitate de a structura datele panoului este formatul larg, unde un rând reprezintă o unitate de observație pentru toate punctele de timp [5] (de exemplu, în formatul larg vor fi doar două (primul exemplu) sau trei (al doilea exemplu) rânduri de date, cu coloane suplimentare pentru fiecare variabilă de timp (venit, vârstă).