Web mining

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 22 septembrie 2016; verificările necesită 8 modificări .

Miningul web  este utilizarea tehnicilor de extragere a datelor pentru a descoperi automat documente și servicii web, pentru a extrage informații din resursele web și pentru a descoperi modele comune pe Internet [1] .

În Web Mining se pot distinge următoarele etape:

Aceștia sunt pașii generali pe care trebuie să îi parcurgeți pentru a analiza datele de pe Internet. Procedurile specifice pentru fiecare etapă depind de sarcina la îndemână. În acest sens, există diferite categorii de Web Mining:

Web Content Mining  este procesul de extragere a cunoștințelor din conținutul documentelor sau descrierile acestora disponibile pe Internet [2] . Căutarea cunoștințelor pe Internet este o sarcină dificilă și care necesită timp. Această direcție a Web Mining este cea care o rezolvă. Se bazează pe o combinație între regăsirea informațiilor, învățarea automată și extragerea datelor.

Web Structure Mining  este procesul de descoperire a informațiilor structurale pe Internet [3] . Această direcție ia în considerare relația dintre paginile web , pe baza legăturilor dintre ele. Modelele construite pot fi folosite pentru a clasifica și căuta resurse web similare, precum și pentru a recunoaște site-urile cu drepturi de autor.

Web Usage Mining  este descoperirea automată a tiparelor pe ruta de călătorie a unui utilizator și a datelor conexe colectate sau achiziționate ca urmare a interacțiunii cu unul sau mai multe site-uri web [4] . Această direcție se bazează pe extragerea datelor din jurnalele serverului web. Scopul analizei este de a identifica preferințele vizitatorilor atunci când folosesc anumite resurse de pe Internet.

Web Mining

Exploatare web și regăsire informații

Unii susțin că regăsirea informațiilor de pe Internet este un caz special de web mining, alții asociază web mining cu regăsirea inteligentă a informațiilor . De fapt, regăsirea informațiilor este o căutare automată a tuturor documentelor necesare, totuși, în același timp, este posibilă primirea unor documente irelevante [5] . Sarcinile principale ale regăsirii informațiilor sunt găsirea de documente utile, indexarea textului integral, iar în prezent cercetările în domeniul regăsirii informațiilor includ modelarea, clasificarea și clasificarea documentelor, interfețele utilizator , vizualizarea datelor , filtrarea etc. O sarcină care, este considerată pentru a efectua un caz special de Web Mining - aceasta este clasificarea sau categorizarea documentelor web care pot fi folosite pentru indexare. În acest sens, Web Mining face parte din procesul de regăsire a informațiilor. Cu toate acestea, trebuie remarcat faptul că nu toate sarcinile de indexare folosesc tehnici de data mining .

Web Mining și extragerea informațiilor

Scopul extragerii informațiilor este de a transforma o colecție de documente, de obicei cu ajutorul sistemelor de recuperare a informațiilor , în informații ușor digerabile și analizabile. Procesul de extragere a informațiilor urmărește extragerea faptelor relevante din documente, în timp ce procesul de regăsire a informațiilor urmărește selectarea documentelor relevante. Primul este interesat de structura sau prezentarea documentului, adică lucrează la nivel de detaliu fin, iar al doilea consideră textul documentului ca o colecție de cuvinte neordonate. Cu toate acestea, diferențele dintre cele două procese devin nesemnificative dacă scopul regăsirii informațiilor  este extragerea informațiilor [6] .

Datorită dinamicii și varietății conținutului web, nu este posibilă crearea unui mod manual al sistemelor de extracție a informațiilor. Din acest motiv, majoritatea sistemelor de extragere a datelor se concentrează pe anumite site-uri web. Alții folosesc mașini de învățare sau tehnici de data mining și sunt capabili să extragă documente web automat sau semi-automat. Din acest punct de vedere, Web Mining face parte din procesul de extragere a informațiilor de pe Internet .

Web Mining și Machine Learning

Miningul web nu funcționează pe același principiu ca și metodele de învățare automată utilizate pe Internet . Pe de o parte, există unele aplicații de învățare automată care nu sunt un caz special de web mining. Un exemplu în acest sens este o metodă care utilizează în mod eficient un păianjen de pânză pentru un anumit subiect sau o metodă care pune accent pe planificarea celei mai bune căi de urmat. Pe de altă parte, pe lângă metodele de învățare automată, există și alte metode care sunt aplicabile pentru Web Mining. De exemplu, unii dintre algoritmii proprietari care sunt utilizați pentru a extrage hub-uri și pagini de autoritate, DataGuides și algoritmi de descoperire a schemelor web. Cu toate acestea, există o relație puternică între cele două domenii de cercetare, iar tehnicile de învățare automată pot fi aplicate proceselor de web mining. De exemplu, studii recente au arătat că aplicarea metodelor de învățare automată poate îmbunătăți procesul de clasificare a textului, în comparație cu rezultatele metodelor tradiționale de regăsire a informațiilor [7] .

Exploatarea conținutului web

Web Content Mining descrie căutarea automată a resurselor de informații pe Internet și include extragerea conținutului din datele web. În esență, Web Content Mining este analog cu data mining pentru bazele de date relaționale, deoarece este posibil să găsiți tipuri similare de cunoștințe din datele nestructurate găsite în documentele web. Un document web poate conține mai multe tipuri de date, cum ar fi text, imagini, audio, video, metadate și hyperlinkuri . Unele sunt semi-structurate, precum documentele HTML , altele sunt mai structurate, cum ar fi datele din tabele sau bazele de date , dar majoritatea informațiilor sunt stocate în date text nestructurate [8] .

Există diferite metode de a găsi informații pe Internet. Cea mai comună abordare este căutarea bazată pe cuvinte cheie. Motoarele de căutare tradiționale au crawler-uri pentru a găsi și colecta informații utile pe web, metode de indexare pentru stocarea informațiilor și procesare a interogărilor pentru a oferi utilizatorilor informații mai precise. Web Content Mining depășește tehnologia tradițională IR ( Information Retrieval ) . 

Există două abordări ale exploatării conținutului web: bazată pe agenți și bazată pe baze de date. În primul caz, data mining-ul este efectuat de agenți software, în al doilea caz, datele sunt considerate ca aparținând bazei de date [9] .

Abordarea bazată pe agenți include următoarele sisteme [10] :

Exemple de sisteme de agenți de căutare inteligente:

Abordarea bazată pe baze de date include sisteme [10] :

Exemple de sisteme de solicitare web:

Web Structure Mining

Web Structure Mining  este un proces de identificare a informațiilor structurale pe Internet, care poate fi împărțit în două tipuri în funcție de tipul de structură a informațiilor utilizat [3] :

Hyperlinkuri

Un hyperlink este o unitate structurală care conectează o locație dintr-o pagină web cu alta, fie în cadrul aceleiași pagini web, fie pe o altă pagină web. Un hyperlink care se conectează la o altă parte a aceleiași pagini se numește hyperlink intra-document, iar un hyperlink care conectează două pagini diferite se numește hyperlink inter-document.

Structura documentului

Conținutul unei pagini web poate fi prezentat într-un format arborescent bazat pe diverse etichete HTML și XML. Scopul este extragerea automată a structurii DOM (model obiect document) din documente.

Web Structure Mining încearcă să descopere modelul care stă la baza structurii link-urilor de pe web. Modelul se bazează pe o topologie de hyperlink cu sau fără o descriere a link-ului. Acest model poate fi folosit pentru a clasifica o pagină Web și este util pentru obținerea de informații precum asemănările și relațiile dintre site-uri web [11] . Structura linkurilor conține informații importante și poate ajuta la filtrarea și clasarea paginilor web. În special, un link de la pagina A la pagina B poate fi considerat o recomandare a paginii B de către autorul A.

Au fost propuși câțiva algoritmi noi care folosesc structura de linkuri nu numai pentru căutări de cuvinte cheie, ci și pentru alte sarcini, cum ar fi generarea automată a ierarhiilor asemănătoare Yahoo sau a identităților comunității pe Internet. Performanța acestor algoritmi este în general mai bună decât performanța algoritmilor IR, deoarece folosesc mai multe informații decât conținutul paginilor.

Minerarea utilizării web

Web Usage Mining  este procesul de extragere a informațiilor utile din jurnalele de acces ale utilizatorilor, jurnalele serverului proxy, jurnalele browserului, datele sesiunii utilizator. În termeni simpli, Web Usage Mining este procesul de a afla ce caută utilizatorii pe Internet. Unii utilizatori pot fi interesați doar de datele text, în timp ce alții pot fi mai interesați de datele multimedia [12] .

Se analizează următoarele informații:

De asemenea, analizează ce grupuri de utilizatori pot fi distinse în numărul lor total pe baza istoricului de navigare a site-ului Web.

Web Usage Mining include următoarele componente:

Primul pas este colectarea datelor și preprocesarea datelor. Etapa preliminară a procesării include curățarea datelor din fluxul de clic și  împărțirea  datelor în multe tranzacții ale utilizatorilor cu vizitele acestora pe site-ul web. În timpul etapei de descoperire a modelelor, algoritmii statistici și de bază de date sunt rulați pe jurnalele de tranzacții pentru a găsi modele ascunse și comportamentul utilizatorului. În etapa finală a analizei modelelor, modelele detectate de la pasul anterior sunt procesate și filtrate secvenţial pentru a produce modele care pot fi utilizate ulterior ca intrare la diferite instrumente de vizualizare și raportare [12] .

Statisticile captează identitatea utilizatorilor web împreună cu comportamentul lor pe site. În funcție de tipul de utilizare a datelor, rezultatul Web Usage Mining va fi:

Date server web

Serverul web colectează jurnalele utilizatorilor și, de obicei, include adresa IP, linkul paginii și timpul de acces.

Date aplicației server

Serverele de aplicații comerciale, cum ar fi WebLogic , StoryServer au capacități semnificative, permițând aplicațiilor de comerț electronic să se așeze deasupra lor. O caracteristică cheie este capacitatea de a urmări diferite tipuri de activități de afaceri și de a le înregistra în jurnalele serverului de aplicații.

Date layer de aplicație

Aplicația poate defini noi tipuri de evenimente, a căror înregistrare poate include istoricul creării acestor evenimente. Trebuie remarcat faptul că multe aplicații finale necesită o combinație a uneia sau mai multor metode utilizate în categoriile de mai sus.

Avantajele și dezavantajele minării utilizării web

Pro

Web Usage Mining are o serie de avantaje, ceea ce face ca această tehnologie să fie atractivă pentru corporații, inclusiv pentru agențiile guvernamentale [13] :

Contra

Note

  1. Web Mining: Machine Learning for Web Applications, 2004 , p. 290.
  2. Web Mining Functions, 2009 , p. 132.
  3. 1 2 Web Mining - Concepte, aplicații și direcții de cercetare, 2004 , p. 3.
  4. Web Usage Mining Description, 2011 , p. 527.
  5. A Survey of Web Mining, 2000 , p. 2.
  6. A Survey of Web Mining, 2000 , p. 2-3.
  7. A Survey of Web Mining, 2000 , p. 3.
  8. Web Content, 2000 , p. 5.
  9. Web Content Methods, 2008 , p. 263.
  10. 1 2 Abordări bazate pe agenți și bazate de date, 2006 .
  11. Web Structure Mining, 2007 , p. 3.
  12. 1 2 Web Usage Mining, 2008 , p. 7.
  13. Avantaje și dezavantaje ale utilizării Web Mining
  14. Probleme etice, 2004 .

Literatură