Datele nestructurate sunt date care nu corespund unui model de date predeterminat și, de regulă, sunt prezentate sub formă de text cu date, numere, fapte aflate în el într-o formă arbitrară [1] [2] . Astfel de date sunt greu de analizat, mai ales cu programele tradiționale concepute să funcționeze cu date structurate ( adnotate sau stocate în baze de date ).
Merrill Lynch a estimat în 1998 că aproximativ 80-90% din toate informațiile de afaceri potențial utile au fost prezentate în formă nestructurată [1] , dar acest raport nu se baza pe statistici sau cercetări cantitative, ci era o presupunere [2] . Computerworld estimează volumul de date nestructurate din organizații la 70-80% din toate datele [3] .
Cele mai vechi cercetări în business intelligence nu s-au concentrat pe date numerice, ci pe date textuale nestructurate. Încă din 1958, cercetătorii din tehnologia informației, precum H. P. Lun, explorau modalități de extragere și clasificare a datelor în text nestructurat. [3] Cu toate acestea, abia de la începutul anilor 2000 tehnologia disponibilă a ajuns din urmă cu interesul cercetării. În 2004, Institutul SAS a dezvoltat SAS Text Miner, care utilizează descompunerea valorilor singulare pentru a factoriza un spațiu de text cu dimensiuni mari în subspații de dimensiuni inferioare pentru a simplifica considerabil analiza mașinii [4] . Progresele în matematică și tehnologiile de procesare a textului au stimulat cercetările organizațiilor comerciale în domenii precum analiza sentimentelor textului (analiza sentimentelor), colectarea și analiza opiniilor consumatorilor, automatizarea call-centerului [5] . Apariția tehnologiilor de date mari la sfârșitul anilor 2000 a stimulat un interes sporit pentru programele de analiză a datelor nestructurate în domenii moderne precum prognoza și analiza cauzelor principale [6] .
Termenul „date nestructurate” poate fi considerat imprecis din mai multe motive:
Tehnici precum data mining, procesarea limbajului natural și text mining oferă metode pentru găsirea tiparelor pentru a interpreta într-un fel informațiile nestructurate.
Tehnicile de structurare a textului includ de obicei etichetarea manuală (metadate) sau marcarea unei părți din vorbire pentru a structura textul în continuare. Arhitectura de management al informațiilor nestructurate (UIMA) oferă un cadru comun pentru procesarea acestor informații pentru a extrage valori și a crea date structurate din informațiile nestructurate [4] . Software-ul care creează o structură de date care poate fi citită de mașină folosește structurile lingvistice, auditive și vizuale care există în toate formele de comunicare umană [5] . De exemplu, algoritmii speciali pot deduce structura din text analizând morfologia , sintaxa propoziției și așa mai departe. Informațiile nestructurate pot fi apoi marcate pentru dezambiguizare, iar tehnicile de notare a relevanței sunt folosite pentru a îmbunătăți căutarea.
Exemplele de „date nestructurate” includ cărți, jurnale, documente, metadate, înregistrări medicale, audio, video, date analogice, imagini și fișiere bazate pe text nestructurat: mesaje de e-mail, pagini web, documente create cu ajutorul procesoarelor de text . Informațiile nestructurate pot fi stocate sub formă de obiecte structurate (de exemplu, sub formă de fișiere sau documente) care au o structură. În acest caz, combinația de date structurate și nestructurate în agregat este numită și „date nestructurate” [6] . De exemplu, paginile web HTML au deja markup, dar este utilizabil numai pentru afișare. Nu conține informații despre semnificațiile sau funcțiile anumitor elemente de marcare într-o formă adecvată procesării automate. Marcajul XHTML este mai ușor de gestionat automat, dar de obicei nu conține semnificațiile semantice ale expresiilor.
Deoarece datele nestructurate sunt de obicei stocate sub formă de documente electronice , programele de analiză a conținutului sau de gestionare a documentelor preferă să clasifice documentele întregi decât să manipuleze în documente. Astfel, programele de prelucrare a acestui tip de date sunt de obicei instrumente de creare a unor colecții de documente cu informații nestructurate. Cu toate acestea, astăzi există și soluții care funcționează cu elemente atomice mai mici decât întregul document [7] .
Motoarele de căutare au devenit unul dintre instrumentele populare pentru indexarea și căutarea datelor nestructurate.
Dicționare și enciclopedii |
---|