Analiza legăturii

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 16 iulie 2019; verificările necesită 2 modificări .

Link analysis sau link analysis (din engleză „link analysis”) este o metodă de analiză a datelor utilizată în cadrul analizei rețelelor pentru a evalua relațiile (legăturile) dintre noduri (obiecte/actori) . Relațiile pot fi definite pentru diferite tipuri de noduri: oameni, organizații, operațiuni etc. Termenul „analiza legăturii” (una dintre opțiunile de traducere: „analiza relațiilor”) se referă la procesul de analiză a totalității relațiilor dintre diferite obiecte de rețea. pentru a-i identifica caracteristicile .

Inițial, această metodă a fost folosită pentru a combate criminalitatea, în primul rând frauda și terorismul, în scopuri de contrainformații și de optimizare a instrumentelor de securitate a informațiilor . Mai târziu, această metodă și-a găsit aplicarea în marketing și cercetarea medicală, precum și în optimizarea algoritmilor motoarelor de căutare .

Această metodă aparține grupului de metode Data Mining . Acesta este un grup de algoritmi iterativi și interactivi pentru detectarea, analizarea și vizualizarea diferitelor modele în date. Analiza legăturilor aparține acestui grup de algoritmi și, la fel ca majoritatea metodelor din acest grup, este implementată în următorii pași[ stil ] [1] : Colectarea datelor, Prelucrarea datelor , Analiza datelor și Vizualizarea datelor .

Istoria dezvoltării setului de instrumente

Klerks a distins trei [2] perioade în dezvoltarea instrumentelor pentru implementarea analizei legăturilor. Prima generație a fost introdusă în 1975 ca Anacpapa Chart de către Harper și Harris [3] . Această metodă se implementează astfel: Cercetatorul prelucrează datele disponibile, denotând relaţiile dintre actori sub forma unei matrice de interacţiune. Apoi, cercetătorul construiește un grafic adecvat pentru a vizualiza datele și, în cele din urmă, analizează rețeaua rezultată, determinând indicatorii de centralitate (Patterns of interest). Această metodă necesită extrem de consumatoare de timp atunci când se iau în considerare cantități mari de date.

A doua generație de instrumente a oferit capacitatea de a automatiza construcția graficelor pentru matricele de interacțiune corespunzătoare, dar introducerea datelor trebuia să se facă în continuare manual. Procedurile de analiză a datelor au necesitat și participarea activă a unui cercetător cu baza de cunoștințe necesară.

A treia generație de instrumente oferă, de asemenea, capacitatea de a vizualiza automat relațiile dintre actori. Mai mult, apar instrumente care fac posibilă comprimarea vizuală a unor cantități mari de date în pachete compacte, ceea ce simplifică analiza vizuală a datelor pentru modele complexe. Calculul principalilor indicatori ai centralității s-a efectuat și în mod automat.

Colectarea datelor

Recenzii și sondaje

La colectarea datelor de rețea, și anume la stabilirea prezenței sau absenței legăturilor sociale, în cele mai multe cazuri, se folosesc rapoartele respondenților. De obicei, astfel de date sunt obținute prin solicitarea respondentului să enumere acei agenți cu care el sau organizația de care aparține au contacte directe. Tipul (sau tipul) acestor conexiuni este specificat în prealabil și depinde de obiectivele studiului. Când populația este limitată (numărul de actori - elemente ale viitoarei rețele este mic), respondenților li se poate cere să-și enumere pur și simplu contactele, dar mai des se practică alte metode. Holland și Lenhardt [4] au folosit:

  1. indicatori dihotomici ai prezenței sau absenței acestor tipuri de interacțiuni, în care ar putea fi înregistrat numărul de conexiuni între respondenți;
  2. scale sau serii care diferențiază relațiile după intensitate;
  3. metode de comparare pereche a diferitelor interacțiuni pentru putere.

Mai sistematic, tehnica colectării datelor din rețea este prezentată în procedura lui Burt [5] , unde mai întâi, apartenența la rețeaua respondentului a fost identificată prin unul sau mai mulți parametri, iar apoi, în funcție de date, s-au obținut rezultate suplimentare care explicau o astfel de aranjament. Au fost studiate următoarele proprietăți ale rețelelor:

  1. atributele indivizilor (elementele rețelei);
  2. posibile proprietăți ale conexiunilor între respondenți - frecvența contactelor, intensitatea;
  3. intensitatea conexiunilor dintre perechile de respondenți, care este folosită pentru a măsura proprietățile structurale ale rețelelor egocentrice (de exemplu, determinarea densității).

În studierea interacțiunilor interorganizaționale, se recomandă să nu vă limitați la mărturiile unuia dintre informatori; problema selecției respondenților crește direct proporțional cu amploarea specializării unei organizații date. Pentru un studiu mic, un raport de rețea de înaltă calitate de la un agent al organizației va fi destul de suficient, dar astfel de rapoarte ar trebui folosite pentru a studia acele tipuri de interacțiuni care reflectă doar o parte a activității informatorului. Dar atunci când analizați organizațiile, este mai bine să analizați informațiile obținute din rapoartele mai multor agenți, precum și susținute de documente ale organizației (scrisori, memorii, rapoarte, procese-verbale ale întâlnirilor).

Arhive

Sunt necesare resurse semnificative pentru a colecta date de rețea de înaltă calitate. Sursele de arhivă sunt mult mai puțin costisitoare, iar unul dintre avantajele lor este că permit cercetarea retrospectivă și urmărește dezvoltarea rețelelor studiate. Aici analiza link-ului ca instrument de extragere a datelor este strâns legată de o altă zonă a analizei datelor extragerea textului .

Procedura de analiză a relației

Rezultatul colectării și procesării datelor empirice sunt matrice formalizate de interacțiune între actorii rețelei studiate.

Pe baza datelor primite sub forma unei matrice de interacțiune, se construiește un grafic corespunzător, ilustrând relațiile actorilor din rețea.

Calculul indicatorilor cheie

Limitările abordării

Unii cercetători [6] notează că, pe lângă riscul mare de a obține evaluări subiective ale rețelei de la informatori, există și riscul perceperii subiective a datelor primite de către cercetător și astfel chiar și analiza acelorași informații poate duce la concluzii diferite.

Cu toate acestea, există o serie de tehnici general acceptate pentru evaluarea proprietăților unei rețele și a conexiunilor dintre actorii ei.

Dimensiunea rețelei

Principalul indicator care reprezintă dimensiunea rețelei este numărul de legături directe incluse în conexiunile individuale. Dimensiunea rețelei poate varia de la valoarea minimă 1 (2 vârfuri în grafic) până la valoarea maximă posibilă (g-1) , unde g este numărul de vârfuri ale graficului.

Densitatea rețelei

De obicei, este înțeles ca o putere semnificativă a conectivității între asociațiile dintr-o rețea sau (pentru măsurători dihotomice) raportul dintre conexiunile existente și posibile.

Densitatea conexiunii a unui grafic nedirecționat poate fi calculată folosind formula:

, unde L este numărul de legături observate într-un grafic sau subgraf dat.

Densitatea conexiunilor într-un grafic direcționat se calculează prin formula:

.

Cu toate acestea, cu ajutorul densității, este destul de problematică să dezvăluiți legăturile structurale dacă rețeaua are subgrupuri, iar transformarea densității poate avea loc atunci când dimensiunea rețelei se modifică.

Centralitate și centralizare [7] Măsurarea gradului de centralitate

Cu această abordare, numărul de actori cu care este asociat acest actor este important. În cel mai simplu caz, aceasta este pur și simplu numărarea numărului de conexiuni de actor folosind următoarea formulă:

.

Pentru a putea compara gradul de centralitate al unui actor nu numai în cadrul aceleiași rețele, ci și între rețele de structuri diferite, este necesar să se calculeze o estimare standardizată a centralității folosind următoarea formulă:

.

De asemenea, puteți calcula gradul de centralitate pentru întreaga rețea:

.

Este adesea necesar să se compare diferite structuri și să se determine care dintre ele oferă cea mai bună centralizare a actorilor. Pentru aceasta, există o formulă pentru calcularea gradului normalizat de centralitate pentru întreaga rețea:

.

Densitatea centralității

Această abordare măsoară densitatea centralității – cât de aproape este un actor de alți actori. Adică, cu această abordare, centrala este poziția din care este necesar să se parcurgă numărul minim de pași către toate celelalte poziții din grup.

Densitatea centralității actorului se măsoară după cum urmează:

.

Iată numărul de legături dintre actori și . Valoarea maximă a indicelui este . Astfel, coeficientul normalizat de densitate a centralității actorului se calculează prin următoarea formulă:

Densitatea normalizată a centralității rețelei este calculată prin formula:

Centralitatea ca mediere

În cadrul acestei abordări , centralitatea este văzută ca controlul relațiilor dintre anumite poziții. Astfel, dacă distanța cea mai scurtă dintre actorii n 2 și n 3 este n 2 , n 1 , n 4 și n 3 , atunci pozițiile n 1 și n 4 sunt controlante față de perechea de actori n 2 și n 3 .

Centralitatea medierii actorilor poate fi calculată folosind formula:

Aici este numărul celor mai scurte căi care trec prin actor . Deoarece numărul maxim de legături dintre toate vârfurile graficului este egal cu

.

Un scor standardizat al centralității rețelei poate fi calculat folosind următoarea formulă:

.

Echivalență

Adesea, atunci când descriem proprietățile structurale ale unei rețele, se recurge la conceptele de similaritate structurală a actorilor individuali. Identificarea pozițiilor similare structural ne permite să simplificăm graficul combinând actori similari în proprietățile lor structurale în actori noi, corporativi. În consecință, pentru a identifica echivalența între două poziții, se utilizează de obicei următoarea formulă propusă de Burt [8] :

Vezi și

Note

  1. Ahonen, H., Features of Knowledge Discovery Systems Arhivat 8 decembrie 2012 la Wayback Machine .
  2. Klerks, P. Paradigma de rețea aplicată organizațiilor criminale: teoretic nitpicking sau a relevant doctrine for investigators? Evoluții recente în Țările de Jos  (engleză)  // Conexiuni : jurnal. - 2001. - Vol. 24 . - P. 53-65 .
  3. Harper și Harris, The Analysis of Criminal Intelligence, Human Factors and Ergonomics Society Annual Meeting Proceedings, 19(2), 1975, pp. 232-238.
  4. Holland PW, LeinhardtS. Implicațiile structurale ale erorii de măsurare în sociometrie // J. Match. Sociol, 1973. Vol. 3. P. 85-111.
  5. Burt RS Models of network structure//Annu. Rev. Sociol, 1980. Vol. 6. P. 79-141.
  6. McGrath, C., Blythe, J., Krackhardt, D., Seeing Groups in Graph Layouts Arhivat 3 octombrie 2013 la Wayback Machine
  7. Freeman L. Cu centralitatea în rețelele sociale, precizări conceptuale // Soc. Rețele, 1979. Vol. 1. P. 215-236.
  8. Burt RS Contagiune socială și inovație: coeziune versus echivalență structurală.//American Journal of Sociology, 1987.92: 1287-1335.

Surse

  • Gradoselskaya GV Măsurătorile rețelei în sociologie: Manual / Ed. G. S. Batygina. M .: Editura „Manual nou”, 2004.
  • Chubukova I.A. extragerea datelor. M.: Binom, 2008
  • Thelwall M. Analiza legăturii: O abordare a științei informației. New York: Academic Press , 2004.