Miningul de date ( rusesc data mining, data mining, data mining ) este o denumire colectivă folosită pentru a face referire la un set de metode de detectare a cunoștințelor necunoscute anterior, netriviale, practic utile și accesibile în date , necesare pentru luarea deciziilor în diverse domenii ale activitate umana. Termenul a fost introdus de Grigory Pyatetsky-Shapiro în 1989 [1] [2] [3] .
Expresia engleză „ mining de date ” nu are încă o traducere bine stabilită în rusă. La transmiterea în limba rusă, se folosesc următoarele expresii [4] : cernerea informațiilor , extragerea datelor, extragerea datelor , precum și extragerea datelor [5] [6] [7] . Mai completă și mai precisă este sintagma „ descoperirea cunoștințelor în baze de date ” ( Descoperirea cunoștințelor engleze în baze de date , KDD).
La baza metodelor de data mining se află tot felul de metode de clasificare, modelare și prognoză bazate pe utilizarea arborilor de decizie , a rețelelor neuronale artificiale , a algoritmilor genetici , a programarii evolutive , a memoriei asociative , a logicii fuzzy . Metodele de extragere a datelor includ adesea metode statistice ( analiza descriptivă, analiza de corelație și regresie, analiza factorială , analiza varianței , analiza componentelor , analiza discriminantă , analiza serii de timp , analiza supraviețuirii , analiza relațiilor ). Astfel de metode, totuși, presupun câteva idei a priori despre datele analizate, ceea ce este oarecum în contradicție cu obiectivele extragerii de date (descoperirea cunoștințelor necunoscute anterior, netriviale și practic utile).
Unul dintre cele mai importante scopuri ale metodelor de data mining este vizualizarea rezultatelor calculelor (vizualizarea), ceea ce permite utilizarea instrumentelor de data mining de către persoane care nu au pregătire matematică specială.
Aplicarea metodelor statistice de analiză a datelor necesită o bună cunoaștere a teoriei probabilităților și a statisticii matematice .
Metodele de extragere a datelor (sau, ceea ce este la fel, descoperirea cunoștințelor în date, pe scurt KDD) se află la intersecția bazelor de date , statisticii și inteligența artificială [8] .
Domeniul data mining a început cu un seminar susținut de Grigory Pyatetsky-Shapiro în 1989 [1] .
Anterior, în timp ce lucra la GTE Labs, Grigory Pyatetsky-Shapiro a devenit interesat de întrebarea: este posibil să găsim automat anumite reguli pentru a accelera unele interogări către baze de date mari. În același timp, au fost propuși doi termeni - data mining („data mining” [9] ) și descoperirea cunoștințelor în date (care ar trebui tradusă prin „descoperirea cunoștințelor în baze de date”).
În 1993, a fost lansată prima listă de corespondență Knowledge Discovery Nuggets, iar în 1994, a fost creat unul dintre primele site-uri de data mining.
Inițial, sarcina este stabilită după cum urmează:
Este necesar să se dezvolte metode de descoperire a cunoștințelor ascunse în volume mari de date „brute” inițiale. În condițiile actuale ale concurenței globale, modelele (cunoștințele) găsite pot fi o sursă de avantaj competitiv suplimentar.
Ce înseamnă „cunoaștere ascunsă”? Trebuie să fie cunoștințe despre:
Aceste cerințe determină în mare măsură esența metodelor de extragere a datelor și în ce formă și în ce proporție sistemele de gestionare a bazelor de date , metodele de analiză statistică și metodele de inteligență artificială sunt utilizate în tehnologia de extragere a datelor.
Exploatarea datelor și bazele de dateMetodele de data mining pot fi aplicate atât pentru lucrul cu date mari, cât și pentru prelucrarea unor cantități relativ mici de date (obținute, de exemplu, din rezultatele experimentelor individuale sau la analiza datelor despre activitățile companiei) . Ca criteriu pentru o cantitate suficientă de date, sunt luate în considerare atât domeniul de studiu, cât și algoritmul de analiză aplicat. .
Dezvoltarea tehnologiilor de baze de date a dus mai întâi la crearea unui limbaj specializat - limbajul de interogare a bazelor de date. Pentru bazele de date relaționale , acesta este limbajul SQL , care a oferit oportunități ample pentru crearea, modificarea și preluarea datelor stocate. Apoi a fost nevoie de a obține informații analitice (de exemplu, informații despre activitățile unei întreprinderi pentru o anumită perioadă), apoi s-a dovedit că bazele de date relaționale tradiționale, bine adaptate, de exemplu, pentru păstrarea înregistrărilor operaționale la o întreprindere, sunt slab adaptate pentru analiză. Aceasta, la rândul său, a dus la crearea așa-numitului. „ magazine de date ”, însăși structura cărora este cel mai bun mod de a efectua o analiză matematică cuprinzătoare.
Exploatarea datelor și inteligența artificialăCunoștințele obținute prin metodele de data mining sunt de obicei reprezentate sub formă de modele (patterns) . Acestea sunt:
Algoritmii de căutare a unor astfel de modele se află la intersecția zonelor: Inteligență artificială, Statistică matematică, Programare matematică, Vizualizare, OLAP .
Exploatarea datelor și afaceriPotrivit IBM , procesarea „big data” este „capacitatea de a utiliza informațiile într-un mod nou pentru a genera idei utile sau pentru a crea bunuri și servicii de mare valoare” Această definiție tratează datele mari ca pe un tip de analiză , deoarece lucrul cu acestea. are ca scop extragerea de informații utile care pot oferi un avantaj competitiv [10] .
Sarcinile rezolvate prin metodele de extragere a datelor sunt de obicei împărțite în descriptive ( engleză descriptive ) și predictive ( engleză predictivă ).
În sarcinile descriptive, cel mai important lucru este de a oferi o descriere vizuală a tiparelor ascunse existente, în timp ce în sarcinile predictive, problema predicției pentru acele cazuri pentru care încă nu există date este în prim plan.
Sarcinile descriptive includ:
Sarcinile predictive includ:
Problemele de clasificare se caracterizează prin „ învățare supravegheată ”, în care construcția (antrenamentul) modelului se realizează pe un eșantion care conține vectori de intrare și de ieșire.
Pentru problemele de grupare și asociere, se folosește „ învățare nesupravegheată ”, în care modelul este construit pe un eșantion care nu are un parametru de ieșire. Valoarea parametrului de ieșire („se referă la un cluster...”, „pare ca un vector...”) este selectată automat în procesul de învățare.
Problemele de reducere a descrierii sunt caracterizate prin absența divizării în vectori de intrare și de ieșire . Începând cu lucrarea clasică a lui C. Pearson privind analiza componentelor principale , accentul se pune pe aproximarea datelor .
Un număr de etape de rezolvare a problemelor folosind metode de data mining:
Înainte de a utiliza algoritmi de data mining, este necesar să pregătiți un set de date analizate. Deoarece IAD poate detecta numai modele care sunt prezente în date, datele inițiale, pe de o parte, trebuie să aibă un volum suficient pentru ca aceste modele să fie prezente în ele și, pe de altă parte, să fie suficient de compacte pentru ca analiza să ia un timp acceptabil. Cel mai adesea, depozitele de date sau magazinele de date acționează ca date sursă . Este necesară pregătirea pentru a analiza datele multidimensionale înainte de grupare sau extragere de date.
Datele sunt apoi filtrate. Filtrarea elimină mostrele cu zgomot și date lipsă.
Datele filtrate sunt reduse la seturi de caracteristici (sau vectori dacă algoritmul poate funcționa numai cu vectori cu dimensiuni fixe), un set de caracteristici per observație. Setul de caracteristici este format în conformitate cu ipotezele despre care caracteristici ale datelor brute au o putere predictivă mare pe baza puterii de calcul necesare procesării. De exemplu, o imagine de față alb-negru de 100×100 pixeli conține 10.000 de biți de date brute. Ele pot fi convertite într-un vector caracteristic prin detectarea ochilor și gurii în imagine. Ca urmare, are loc o reducere a cantității de date de la 10 mii de biți la o listă de coduri de poziție, reducând semnificativ cantitatea de date analizate și, prin urmare, timpul de analiză.
O serie de algoritmi sunt capabili să proceseze datele lipsă care au putere de predicție (de exemplu, absența unui anumit tip de achiziție de către un client). De exemplu, când se utilizează metoda regulilor de asociere , nu sunt procesați vectorii de caracteristici, ci seturi de dimensiuni variabile.
Alegerea funcției obiectiv va depinde de care este scopul analizei; alegerea funcției „corecte” este fundamentală pentru data mining de succes.
Observațiile sunt împărțite în două categorii - set de antrenament și set de test. Setul de antrenament este folosit pentru a „antrena” algoritmul de extragere a datelor, iar setul de testare este folosit pentru a testa modelele găsite.
![]() | |
---|---|
În cataloagele bibliografice |
|
Ingineria cunoașterii | |
---|---|
Concepte generale | |
Modele rigide | |
Metode soft | |
Aplicații | |
Magazin de date | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Categorie |
Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|