Extragerea datelor

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 7 mai 2022; verificările necesită 6 modificări .

Miningul de date ( rusesc data mining, data mining, data mining ) este o denumire colectivă folosită pentru a face referire la un set de metode de detectare a cunoștințelor necunoscute anterior, netriviale, practic utile și accesibile în date , necesare pentru luarea deciziilor în diverse domenii ale activitate umana. Termenul a fost introdus de Grigory Pyatetsky-Shapiro în 1989 [1] [2] [3] .

Expresia engleză „ mining de date ” nu are încă o traducere bine stabilită în rusă. La transmiterea în limba rusă, se folosesc următoarele expresii [4] : cernerea informațiilor , extragerea datelor, extragerea datelor , precum și extragerea datelor [5] [6] [7] . Mai completă și mai precisă este sintagma „ descoperirea cunoștințelor în baze de date ” ( Descoperirea cunoștințelor engleze în baze de date , KDD).

La baza metodelor de data mining se află tot felul de metode de clasificare, modelare și prognoză bazate pe utilizarea arborilor de decizie , a rețelelor neuronale artificiale , a algoritmilor genetici , a programarii evolutive , a memoriei asociative , a logicii fuzzy . Metodele de extragere a datelor includ adesea metode statistice ( analiza descriptivă, analiza de corelație și regresie, analiza factorială , analiza varianței , analiza componentelor , analiza discriminantă , analiza serii de timp , analiza supraviețuirii , analiza relațiilor ). Astfel de metode, totuși, presupun câteva idei a priori despre datele analizate, ceea ce este oarecum în contradicție cu obiectivele extragerii de date (descoperirea cunoștințelor necunoscute anterior, netriviale și practic utile).

Unul dintre cele mai importante scopuri ale metodelor de data mining este vizualizarea rezultatelor calculelor (vizualizarea), ceea ce permite utilizarea instrumentelor de data mining de către persoane care nu au pregătire matematică specială.

Aplicarea metodelor statistice de analiză a datelor necesită o bună cunoaștere a teoriei probabilităților și a statisticii matematice .

Introducere

Metodele de extragere a datelor (sau, ceea ce este la fel, descoperirea cunoștințelor în date, pe scurt KDD) se află la intersecția bazelor de date , statisticii și inteligența artificială [8] .

Digresiune istorică

Domeniul data mining a început cu un seminar susținut de Grigory Pyatetsky-Shapiro în 1989 [1] .

Anterior, în timp ce lucra la GTE Labs, Grigory Pyatetsky-Shapiro a devenit interesat de întrebarea: este posibil să găsim automat anumite reguli pentru a accelera unele interogări către baze de date mari. În același timp, au fost propuși doi termeni - data mining („data mining” [9] ) și descoperirea cunoștințelor în date (care ar trebui tradusă prin „descoperirea cunoștințelor în baze de date”).

În 1993, a fost lansată prima listă de corespondență Knowledge Discovery Nuggets, iar în 1994, a fost creat unul dintre primele site-uri de data mining.

Enunțul problemei

Inițial, sarcina este stabilită după cum urmează:

există o bază de date destul de mare;
se presupune că există unele „cunoștințe ascunse” în baza de date.

Este necesar să se dezvolte metode de descoperire a cunoștințelor ascunse în volume mari de date „brute” inițiale. În condițiile actuale ale concurenței globale, modelele (cunoștințele) găsite pot fi o sursă de avantaj competitiv suplimentar.

Ce înseamnă „cunoaștere ascunsă”? Trebuie să fie cunoștințe despre:

necunoscut anterior - adică astfel de cunoștințe care ar trebui să fie noi (și care nu confirmă nicio informație primită anterior);
non-triviale - adică cele care nu pot fi văzute pur și simplu (cu analiza vizuală directă a datelor sau la calcularea unor caracteristici statistice simple);
practic utile - adică astfel de cunoștințe care sunt de valoare pentru cercetător sau consumator;
accesibil pentru interpretare - adică astfel de cunoștințe care sunt ușor de prezentat într-o formă vizuală pentru utilizator și ușor de explicat din punct de vedere al domeniului subiectului.

Aceste cerințe determină în mare măsură esența metodelor de extragere a datelor și în ce formă și în ce proporție sistemele de gestionare a bazelor de date , metodele de analiză statistică și metodele de inteligență artificială sunt utilizate în tehnologia de extragere a datelor.

Exploatarea datelor și bazele de date

Metodele de data mining pot fi aplicate atât pentru lucrul cu date mari, cât și pentru prelucrarea unor cantități relativ mici de date (obținute, de exemplu, din rezultatele experimentelor individuale sau la analiza datelor despre activitățile companiei) . Ca criteriu pentru o cantitate suficientă de date, sunt luate în considerare atât domeniul de studiu, cât și algoritmul de analiză aplicat. .

Dezvoltarea tehnologiilor de baze de date a dus mai întâi la crearea unui limbaj specializat - limbajul de interogare a bazelor de date. Pentru bazele de date relaționale , acesta este limbajul SQL , care a oferit oportunități ample pentru crearea, modificarea și preluarea datelor stocate. Apoi a fost nevoie de a obține informații analitice (de exemplu, informații despre activitățile unei întreprinderi pentru o anumită perioadă), apoi s-a dovedit că bazele de date relaționale tradiționale, bine adaptate, de exemplu, pentru păstrarea înregistrărilor operaționale la o întreprindere, sunt slab adaptate pentru analiză. Aceasta, la rândul său, a dus la crearea așa-numitului. „ magazine de date ”, însăși structura cărora este cel mai bun mod de a efectua o analiză matematică cuprinzătoare.

Exploatarea datelor și inteligența artificială

Cunoștințele obținute prin metodele de data mining sunt de obicei reprezentate sub formă de modele (patterns) . Acestea sunt:

Algoritmii de căutare a unor astfel de modele se află la intersecția zonelor: Inteligență artificială, Statistică matematică, Programare matematică, Vizualizare, OLAP .

Exploatarea datelor și afaceri

Potrivit IBM , procesarea „big data” este „capacitatea de a utiliza informațiile într-un mod nou pentru a genera idei utile sau pentru a crea bunuri și servicii de mare valoare” Această definiție tratează datele mari ca pe un tip de analiză , deoarece lucrul cu acestea. are ca scop extragerea de informații utile care pot oferi un avantaj competitiv [10] .

Sarcini

Sarcinile rezolvate prin metodele de extragere a datelor sunt de obicei împărțite în descriptive ( engleză descriptive ) și predictive ( engleză predictivă ).

În sarcinile descriptive, cel mai important lucru este de a oferi o descriere vizuală a tiparelor ascunse existente, în timp ce în sarcinile predictive, problema predicției pentru acele cazuri pentru care încă nu există date este în prim plan.

Sarcinile descriptive includ:

căutarea regulilor sau modelelor de asociere (eșantioane);
grupare de obiecte, analiza cluster;
construirea unui model de regresie.

Sarcinile predictive includ:

clasificarea obiectelor (pentru clase predefinite);
analiza de regresie , analiza serii de timp .

Algoritmi de învățare

Problemele de clasificare se caracterizează prin „ învățare supravegheată ”, în care construcția (antrenamentul) modelului se realizează pe un eșantion care conține vectori de intrare și de ieșire.

Pentru problemele de grupare și asociere, se folosește „ învățare nesupravegheată ”, în care modelul este construit pe un eșantion care nu are un parametru de ieșire. Valoarea parametrului de ieșire („se referă la un cluster...”, „pare ca un vector...”) este selectată automat în procesul de învățare.

Problemele de reducere a descrierii sunt caracterizate prin absența divizării în vectori de intrare și de ieșire . Începând cu lucrarea clasică a lui C. Pearson privind analiza componentelor principale , accentul se pune pe aproximarea datelor .

Etapele învățării

Un număr de etape de rezolvare a problemelor folosind metode de data mining:

Enunțarea problemei analizei;
Colectare de date;
Pregătirea datelor (filtrare, adăugare, codificare);
Selecția modelului (algoritm de analiză a datelor);
Selectarea parametrilor modelului și a algoritmului de învățare;
Antrenamentul modelului (căutare automată a altor parametri de model);
Analiza calității educației, dacă analiza este nesatisfăcătoare - treceți la paragraful 5 sau paragraful 4;
Analiza tiparelor identificate, dacă analiza este nesatisfăcătoare - treceți la pasul 1, 4 sau 5.

Pregătirea datelor

Înainte de a utiliza algoritmi de data mining, este necesar să pregătiți un set de date analizate. Deoarece IAD poate detecta numai modele care sunt prezente în date, datele inițiale, pe de o parte, trebuie să aibă un volum suficient pentru ca aceste modele să fie prezente în ele și, pe de altă parte, să fie suficient de compacte pentru ca analiza să ia un timp acceptabil. Cel mai adesea, depozitele de date sau magazinele de date acționează ca date sursă . Este necesară pregătirea pentru a analiza datele multidimensionale înainte de grupare sau extragere de date.

Datele sunt apoi filtrate. Filtrarea elimină mostrele cu zgomot și date lipsă.

Datele filtrate sunt reduse la seturi de caracteristici (sau vectori dacă algoritmul poate funcționa numai cu vectori cu dimensiuni fixe), un set de caracteristici per observație. Setul de caracteristici este format în conformitate cu ipotezele despre care caracteristici ale datelor brute au o putere predictivă mare pe baza puterii de calcul necesare procesării. De exemplu, o imagine de față alb-negru de 100×100 pixeli conține 10.000 de biți de date brute. Ele pot fi convertite într-un vector caracteristic prin detectarea ochilor și gurii în imagine. Ca urmare, are loc o reducere a cantității de date de la 10 mii de biți la o listă de coduri de poziție, reducând semnificativ cantitatea de date analizate și, prin urmare, timpul de analiză.

O serie de algoritmi sunt capabili să proceseze datele lipsă care au putere de predicție (de exemplu, absența unui anumit tip de achiziție de către un client). De exemplu, când se utilizează metoda regulilor de asociere , nu sunt procesați vectorii de caracteristici, ci seturi de dimensiuni variabile.

Alegerea funcției obiectiv va depinde de care este scopul analizei; alegerea funcției „corecte” este fundamentală pentru data mining de succes.

Observațiile sunt împărțite în două categorii - set de antrenament și set de test. Setul de antrenament este folosit pentru a „antrena” algoritmul de extragere a datelor, iar setul de testare este folosit pentru a testa modelele găsite.

Vezi și

web mining

Note

↑ 1 2 Vezi interviul său Arhivat 16 decembrie 2010 la Wayback Machine , acordat de el revistei Computerra în 2007.
↑ V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Aplicarea tehnologiilor de extragere a datelor în domeniul științelor naturale, tehnic și umanitar.
↑ O. S. Kovalenko, Review of problems and perspectives for data analysis (link inaccesibil) .
↑ A. A. Ezhov, S. A. Shumsky, Lectură: Extragerea cunoștințelor utilizând rețelele neuronale Arhivat 7 aprilie 2011 la Wayback Machine .
↑ Microsoft SQL Server 2008 R2: A New Approach to Information Management Arhivat 15 iulie 2014.
↑ Oracle Data Mining: Present and Future Arhivat 8 martie 2012 la Wayback Machine .
↑ Stepanov R.G. Data Mining Technology: Data Mining Archival copie din 11 iunie 2017 la Wayback Machine .
↑ Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Articol introductiv la carte: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. a 3-a ed. revizuit si suplimentare Sankt Petersburg: BHV-Peterburg, 2009. 512 p. S. 13.
↑ Discutând termenul: data mining / Technical Translation School Arhivat 2 februarie 2014 la Wayback Machine .
↑ Millner, Khan, 2022 , Moving to Big Data, p. 77-78.

Literatură

Paklin N. B., Oreshkov V. I. Analiza afacerilor: de la date la cunoștințe (+ CD). - Sankt Petersburg. : Ed. Petru, 2009. - 624 p.

Duke V., Samoylenko A. Data Mining: curs de formare (+CD). - Sankt Petersburg. : Ed. Petru, 2001. - 368 p.

Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. RECUNOAŞTERE. Metode matematice. Sistem software. Aplicații practice. - M .: Ed. „Faza”, 2006. - 176 p. — ISBN 5-7036-0108-8 .

Zinoviev A. Yu. Vizualizarea datelor multidimensionale . - Krasnoyarsk: Ed. Universitatea Tehnică de Stat din Krasnoyarsk, 2000. - 180 p.

Chubukova I. A. Data Mining: un tutorial . - M. : Internet University of Information Technologies: BINOM: Knowledge Laboratory, 2006. - 382 p. — ISBN 5-9556-0064-7 .
Sitnik V. F., Krasnyuk M. T. Analiza intelectuală a datelor (exploatarea datelor): Navch. ajutor. - K .: KNEU, 2007. - 376 p.
Ian H. Witten, Eibe Frank și Mark A. Hall. Data Mining: instrumente și tehnici practice de învățare automată . - editia a 3-a. - Morgan Kaufmann, 2011. - P. 664 . — ISBN 9780123748560 .
Dave Millner, Nadeem Khan. Analiza resurselor umane. Introducere în People Analytics: Un ghid practic pentru resursele umane bazate pe date. — M .: Editura Alpina , 2022. — 384 p. — ISBN 978-5-9614-7831-0 .

Orlov A.I. Inteligența artificială: metode statistice pentru analiza datelor: manual. - M .: AI Pi Ar Media, 2022. - 843 p. — ISBN 978-5-4497-1470-1 [1]

Orlov A.I., Lutsenko E.V. Analiza datelor, informațiilor și cunoștințelor în matematica sistemică a intervalelor fuzzy: monografie științifică. - Krasnodar: KubGAU, 2022. - 405 p. [2]

Link -uri

Software de extragere a datelor la Curlie Link Directory (dmoz)

Dicționare și enciclopedii	Mare catalană mare chinezesc mare chinezesc Britannica (online)
În cataloagele bibliografice	GND : 4428654-5 J9U : 987007556562405171 LCCN : sh97002073 NDL : 00948240 NKC : ph165954

Ingineria cunoașterii
Concepte generale	Date metadate Cunoştinţe metacunoaștere Reprezentarea cunoștințelor Bază de cunoștințe Ontologie web semantic
Modele rigide	Produse Rețele semantice Rame Model logic
Metode soft	Retea neurala modelare evolutivă logica fuzzy
Aplicații	Sistem expert Exploatarea datelor Extragerea informațiilor Interlocutori virtuali Sisteme inteligente hibride
Inteligenţă artificială Învățare automată procesarea limbajului natural

Magazin de date

Creați un depozit de date
Concepte	Bază de date Dimensiune ( Model de măsurare Fapt OLAP Schema stelelor Schema de fulgi de nea
Opțiuni	model de ancoră Masa de masura de date HOLAP MOLAP ROLAP Stocare operațională
Elemente	Dicționar de date metadate data mart a șasea formă normală Cheie surogat
Date	Tabel de fapte fapt timpuriu Măsură (
Măsurare	Masa de masura Dimensiunile se schimbă încet Dimensiune degenerată
umplere	ETL Extragerea Transformarea

Utilizarea depozitului de date
Concepte	business intelligence Bord extragerea datelor DSS cub OLAP
Limbi	Extensii de MDX XMLA
Instrumente	Instrumente de Business Intelligence Generator de rapoarte Foaie de calcul

subiecte asemănătoare
oameni	Bill Inmon Ralph Kimball
Produse	Comparația serverelor OLAP

Categorie

Învățare automată și extragerea datelor
Sarcini	Problema de clasificare Învățați fără profesor Învățare asistată de profesor Analiza regresiei AutoML Regulile de asociere Extragerea caracteristicilor Antrenamentul trăsăturilor Antrenament de clasare Derivarea gramaticală Învățare online
Învățarea cu un profesor	metoda k-cel mai apropiat vecin Clasificator naiv Bayes arborele de decizie Suport mașină vectorială Regresie liniara Regresie logistică perceptron Ansambluri de modele Bagare stimularea pădure la întâmplare Metoda vectorială relevantă
analiza grupului	metoda k-means Metoda de grupare fuzzy Gruparea ierarhică algoritmul EM MESTEACĂN VINDECA DBSCAN OPTICA Schimbare medie
Reducerea dimensionalității	Analiza factorilor Metoda componentei principale CCA ICA LDA Expansiunea nenegativă a matricei t-SNE
Prognoza structurală	Modelul probabilistic grafic Rețeaua bayesiană Modelul Markov ascuns CRF
Detectarea anomaliilor	metoda k-cel mai apropiat vecin Nivelul de emisie local
Modele grafice probabilistice	Rețeaua bayesiană Rețeaua Markov Modelul Markov ascuns
Rețele neuronale	Mașină Boltzmann limitată hartă de auto-organizare Funcția de activare Sigmoid softmax Funcția de bază radială Metoda de propagare înapoi Invatare profunda Perceptron multistrat Rețea neuronală recurentă memorie pe termen lung și scurt Bloc recurent controlat Rețeaua neuronală convoluțională U-Net Autoencoder
Consolidarea învățării	procesul Markov Ecuația Bellman Algoritmul lacom Q-learning SARSA Diferența temporală (TD)
Teorie	Teoria Vapnik-Chervonenkis Dilema părtinire-dispersie Teoria învățării computaționale Minimizarea riscului empiric Occam învață Învățarea PAC Teoria învăţării statistice
Reviste și conferințe	NeurIPS ICML ML JMLR ArXiv:cs.LG