Extragerea datelor

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 7 mai 2022; verificările necesită 6 modificări .

Miningul de date ( rusesc data mining, data mining, data mining ) este o denumire colectivă folosită pentru a face referire la un set de metode de detectare a cunoștințelor necunoscute anterior, netriviale, practic utile și accesibile în date , necesare pentru luarea deciziilor în diverse domenii ale activitate umana. Termenul a fost introdus de Grigory Pyatetsky-Shapiro în 1989 [1] [2] [3] .

Expresia engleză „ mining de date ” nu are încă o traducere bine stabilită în rusă. La transmiterea în limba rusă, se folosesc următoarele expresii [4] : ​​cernerea informațiilor , extragerea datelor, extragerea datelor , precum și extragerea datelor [5] [6] [7] . Mai completă și mai precisă este sintagma „ descoperirea cunoștințelor în baze de date ” ( Descoperirea cunoștințelor engleze  în baze de date , KDD).

La baza metodelor de data mining se află tot felul de metode de clasificare, modelare și prognoză bazate pe utilizarea arborilor de decizie , a rețelelor neuronale artificiale , a algoritmilor genetici , a programarii evolutive , a memoriei asociative , a logicii fuzzy . Metodele de extragere a datelor includ adesea metode statistice ( analiza descriptivă, analiza de corelație și regresie, analiza factorială , analiza varianței , analiza componentelor , analiza discriminantă , analiza serii de timp , analiza supraviețuirii , analiza relațiilor ). Astfel de metode, totuși, presupun câteva idei a priori despre datele analizate, ceea ce este oarecum în contradicție cu obiectivele extragerii de date (descoperirea cunoștințelor necunoscute anterior, netriviale și practic utile).

Unul dintre cele mai importante scopuri ale metodelor de data mining este vizualizarea rezultatelor calculelor (vizualizarea), ceea ce permite utilizarea instrumentelor de data mining de către persoane care nu au pregătire matematică specială.

Aplicarea metodelor statistice de analiză a datelor necesită o bună cunoaștere a teoriei probabilităților și a statisticii matematice .

Introducere

Metodele de extragere a datelor (sau, ceea ce este la fel, descoperirea cunoștințelor în date, pe scurt KDD) se află la intersecția bazelor de date , statisticii și inteligența artificială [8] .

Digresiune istorică

Domeniul data mining a început cu un seminar susținut de Grigory Pyatetsky-Shapiro în 1989 [1] .

Anterior, în timp ce lucra la GTE Labs, Grigory Pyatetsky-Shapiro a devenit interesat de întrebarea: este posibil să găsim automat anumite reguli pentru a accelera unele interogări către baze de date mari. În același timp, au fost propuși doi termeni - data mining („data mining” [9] ) și descoperirea cunoștințelor în date (care ar trebui tradusă prin „descoperirea cunoștințelor în baze de date”).

În 1993, a fost lansată prima listă de corespondență Knowledge Discovery Nuggets, iar în 1994, a fost creat unul dintre primele site-uri de data mining.

Enunțul problemei

Inițial, sarcina este stabilită după cum urmează:

Este necesar să se dezvolte metode de descoperire a cunoștințelor ascunse în volume mari de date „brute” inițiale. În condițiile actuale ale concurenței globale, modelele (cunoștințele) găsite pot fi o sursă de avantaj competitiv suplimentar.

Ce înseamnă „cunoaștere ascunsă”? Trebuie să fie cunoștințe despre:

Aceste cerințe determină în mare măsură esența metodelor de extragere a datelor și în ce formă și în ce proporție sistemele de gestionare a bazelor de date , metodele de analiză statistică și metodele de inteligență artificială sunt utilizate în tehnologia de extragere a datelor.

Exploatarea datelor și bazele de date

Metodele de data mining pot fi aplicate atât pentru lucrul cu date mari, cât și pentru prelucrarea unor cantități relativ mici de date (obținute, de exemplu, din rezultatele experimentelor individuale sau la analiza datelor despre activitățile companiei) . Ca criteriu pentru o cantitate suficientă de date, sunt luate în considerare atât domeniul de studiu, cât și algoritmul de analiză aplicat. .

Dezvoltarea tehnologiilor de baze de date a dus mai întâi la crearea unui limbaj specializat - limbajul de interogare a bazelor de date. Pentru bazele de date relaționale  , acesta este limbajul SQL , care a oferit oportunități ample pentru crearea, modificarea și preluarea datelor stocate. Apoi a fost nevoie de a obține informații analitice (de exemplu, informații despre activitățile unei întreprinderi pentru o anumită perioadă), apoi s-a dovedit că bazele de date relaționale tradiționale, bine adaptate, de exemplu, pentru păstrarea înregistrărilor operaționale la o întreprindere, sunt slab adaptate pentru analiză. Aceasta, la rândul său, a dus la crearea așa-numitului. „ magazine de date ”, însăși structura cărora este cel mai bun mod de a efectua o analiză matematică cuprinzătoare.

Exploatarea datelor și inteligența artificială

Cunoștințele obținute prin metodele de data mining sunt de obicei reprezentate sub formă de modele (patterns) . Acestea sunt:

Algoritmii de căutare a unor astfel de modele se află la intersecția zonelor: Inteligență artificială, Statistică matematică, Programare matematică, Vizualizare, OLAP .

Exploatarea datelor și afaceri

Potrivit IBM , procesarea „big data” este „capacitatea de a utiliza informațiile într-un mod nou pentru a genera idei utile sau pentru a crea bunuri și servicii de mare valoare” Această definiție tratează datele mari ca pe un tip de analiză , deoarece lucrul cu acestea. are ca scop extragerea de informații utile care pot oferi un avantaj competitiv [10] .

Sarcini

Sarcinile rezolvate prin metodele de extragere a datelor sunt de obicei împărțite în descriptive ( engleză  descriptive ) și predictive ( engleză  predictivă ).

În sarcinile descriptive, cel mai important lucru este de a oferi o descriere vizuală a tiparelor ascunse existente, în timp ce în sarcinile predictive, problema predicției pentru acele cazuri pentru care încă nu există date este în prim plan.

Sarcinile descriptive includ:

  • căutarea regulilor sau modelelor de asociere (eșantioane);
  • grupare de obiecte, analiza cluster;
  • construirea unui model de regresie.

Sarcinile predictive includ:

Algoritmi de învățare

Problemele de clasificare se caracterizează prin „ învățare supravegheată ”, în care construcția (antrenamentul) modelului se realizează pe un eșantion care conține vectori de intrare și de ieșire.

Pentru problemele de grupare și asociere, se folosește „ învățare nesupravegheată ”, în care modelul este construit pe un eșantion care nu are un parametru de ieșire. Valoarea parametrului de ieșire („se referă la un cluster...”, „pare ca un vector...”) este selectată automat în procesul de învățare.

Problemele de reducere a descrierii sunt caracterizate prin absența divizării în vectori de intrare și de ieșire . Începând cu lucrarea clasică a lui C. Pearson privind analiza componentelor principale , accentul se pune pe aproximarea datelor .

Etapele învățării

Un număr de etape de rezolvare a problemelor folosind metode de data mining:

  1. Enunțarea problemei analizei;
  2. Colectare de date;
  3. Pregătirea datelor (filtrare, adăugare, codificare);
  4. Selecția modelului (algoritm de analiză a datelor);
  5. Selectarea parametrilor modelului și a algoritmului de învățare;
  6. Antrenamentul modelului (căutare automată a altor parametri de model);
  7. Analiza calității educației, dacă analiza este nesatisfăcătoare - treceți la paragraful 5 sau paragraful 4;
  8. Analiza tiparelor identificate, dacă analiza este nesatisfăcătoare - treceți la pasul 1, 4 sau 5.

Pregătirea datelor

Înainte de a utiliza algoritmi de data mining, este necesar să pregătiți un set de date analizate. Deoarece IAD poate detecta numai modele care sunt prezente în date, datele inițiale, pe de o parte, trebuie să aibă un volum suficient pentru ca aceste modele să fie prezente în ele și, pe de altă parte, să fie suficient de compacte pentru ca analiza să ia un timp acceptabil. Cel mai adesea, depozitele de date sau magazinele de date acționează ca date sursă . Este necesară pregătirea pentru a analiza datele multidimensionale înainte de grupare sau extragere de date.

Datele sunt apoi filtrate. Filtrarea elimină mostrele cu zgomot și date lipsă.

Datele filtrate sunt reduse la seturi de caracteristici (sau vectori dacă algoritmul poate funcționa numai cu vectori cu dimensiuni fixe), un set de caracteristici per observație. Setul de caracteristici este format în conformitate cu ipotezele despre care caracteristici ale datelor brute au o putere predictivă mare pe baza puterii de calcul necesare procesării. De exemplu, o imagine de față alb-negru de 100×100 pixeli conține 10.000 de biți de date brute. Ele pot fi convertite într-un vector caracteristic prin detectarea ochilor și gurii în imagine. Ca urmare, are loc o reducere a cantității de date de la 10 mii de biți la o listă de coduri de poziție, reducând semnificativ cantitatea de date analizate și, prin urmare, timpul de analiză.

O serie de algoritmi sunt capabili să proceseze datele lipsă care au putere de predicție (de exemplu, absența unui anumit tip de achiziție de către un client). De exemplu, când se utilizează metoda regulilor de asociere , nu sunt procesați vectorii de caracteristici, ci seturi de dimensiuni variabile.

Alegerea funcției obiectiv va depinde de care este scopul analizei; alegerea funcției „corecte” este fundamentală pentru data mining de succes.

Observațiile sunt împărțite în două categorii - set de antrenament și set de test. Setul de antrenament este folosit pentru a „antrena” algoritmul de extragere a datelor, iar setul de testare este folosit pentru a testa modelele găsite.

Vezi și

Note

  1. 1 2 Vezi interviul său Arhivat 16 decembrie 2010 la Wayback Machine , acordat de el revistei Computerra în 2007.
  2. V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Aplicarea tehnologiilor de extragere a datelor în domeniul științelor naturale, tehnic și umanitar.
  3. O. S. Kovalenko, Review of problems and perspectives for data analysis  (link inaccesibil) .
  4. A. A. Ezhov, S. A. Shumsky, Lectură: Extragerea cunoștințelor utilizând rețelele neuronale Arhivat 7 aprilie 2011 la Wayback Machine .
  5. Microsoft SQL Server 2008 R2: A New Approach to Information Management Arhivat 15 iulie 2014.
  6. Oracle Data Mining: Present and Future Arhivat 8 martie 2012 la Wayback Machine .
  7. Stepanov R.G. Data Mining Technology: Data Mining Archival copie din 11 iunie 2017 la Wayback Machine .
  8. Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Articol introductiv la carte: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. a 3-a ed. revizuit si suplimentare Sankt Petersburg: BHV-Peterburg, 2009. 512 p. S. 13.
  9. Discutând termenul: data mining / Technical Translation School Arhivat 2 februarie 2014 la Wayback Machine .
  10. Millner, Khan, 2022 , Moving to Big Data, p. 77-78.

Literatură

  • Paklin N. B., Oreshkov V. I. Analiza afacerilor: de la date la cunoștințe (+ CD). - Sankt Petersburg. : Ed. Petru, 2009. - 624 p.
  • Duke V., Samoylenko A. Data Mining: curs de formare (+CD). - Sankt Petersburg. : Ed. Petru, 2001. - 368 p.
  • Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. RECUNOAŞTERE. Metode matematice. Sistem software. Aplicații practice. - M .: Ed. „Faza”, 2006. - 176 p. — ISBN 5-7036-0108-8 .
  • Chubukova I. A. Data Mining: un tutorial . - M. : Internet University of Information Technologies: BINOM: Knowledge Laboratory, 2006. - 382 p. — ISBN 5-9556-0064-7 .
  • Sitnik V. F., Krasnyuk M. T. Analiza intelectuală a datelor (exploatarea datelor): Navch. ajutor. - K .: KNEU, 2007. - 376 p.
  • Ian H. Witten, Eibe Frank și Mark A. Hall. Data Mining: instrumente și tehnici practice de învățare automată . - editia a 3-a. - Morgan Kaufmann, 2011. - P.  664 . — ISBN 9780123748560 .
  • Dave Millner, Nadeem Khan. Analiza resurselor umane. Introducere în People Analytics: Un ghid practic pentru resursele umane bazate pe date. — M .: Editura Alpina , 2022. — 384 p. — ISBN 978-5-9614-7831-0 .
  • Orlov A.I. Inteligența artificială: metode statistice pentru analiza datelor: manual. - M .: AI Pi Ar Media, 2022. - 843 p. — ISBN 978-5-4497-1470-1 [1]
  • Orlov A.I., Lutsenko E.V. Analiza datelor, informațiilor și cunoștințelor în matematica sistemică a intervalelor fuzzy: monografie științifică. - Krasnodar: KubGAU, 2022. - 405 p. [2]

Link -uri