Date nestructurate

Datele nestructurate  sunt date care nu corespund unui model de date predeterminat și, de regulă, sunt prezentate sub formă de text cu date, numere, fapte aflate în el într-o formă arbitrară [1] [2] . Astfel de date sunt greu de analizat, mai ales cu programele tradiționale concepute să funcționeze cu date structurate ( adnotate sau stocate în baze de date ).

Merrill Lynch a estimat în 1998 că aproximativ 80-90% din toate informațiile de afaceri potențial utile au fost prezentate în formă nestructurată [1] , dar acest raport nu se baza pe statistici sau cercetări cantitative, ci era o presupunere [2] . Computerworld estimează volumul de date nestructurate din organizații la 70-80% din toate datele [3] .

Istorie

Cele mai vechi cercetări în business intelligence nu s-au concentrat pe date numerice, ci pe date textuale nestructurate. Încă din 1958, cercetătorii din tehnologia informației, precum H. P. Lun, explorau modalități de extragere și clasificare a datelor în text nestructurat. [3] Cu toate acestea, abia de la începutul anilor 2000 tehnologia disponibilă a ajuns din urmă cu interesul cercetării. În 2004, Institutul SAS a dezvoltat SAS Text Miner, care utilizează descompunerea valorilor singulare pentru a factoriza un spațiu de text cu dimensiuni mari în subspații de dimensiuni inferioare pentru a simplifica considerabil analiza mașinii [4] . Progresele în matematică și tehnologiile de procesare a textului au stimulat cercetările organizațiilor comerciale în domenii precum analiza sentimentelor textului (analiza sentimentelor), colectarea și analiza opiniilor consumatorilor, automatizarea call-centerului [5] . Apariția tehnologiilor de date mari la sfârșitul anilor 2000 a stimulat un interes sporit pentru programele de analiză a datelor nestructurate în domenii moderne precum prognoza și analiza cauzelor principale [6] .

Dificultăți de terminologie

Termenul „date nestructurate” poate fi considerat imprecis din mai multe motive:

Lucrul cu date nestructurate

Tehnici precum data mining, procesarea limbajului natural și text mining oferă metode pentru găsirea tiparelor pentru a interpreta într-un fel informațiile nestructurate.

Tehnicile de structurare a textului includ de obicei etichetarea manuală (metadate) sau marcarea unei părți din vorbire pentru a structura textul în continuare. Arhitectura de management al informațiilor nestructurate (UIMA) oferă un cadru comun pentru procesarea acestor informații pentru a extrage valori și a crea date structurate din informațiile nestructurate [4] . Software-ul care creează o structură de date care poate fi citită de mașină folosește structurile lingvistice, auditive și vizuale care există în toate formele de comunicare umană [5] . De exemplu, algoritmii speciali pot deduce structura din text analizând morfologia , sintaxa propoziției și așa mai departe. Informațiile nestructurate pot fi apoi marcate pentru dezambiguizare, iar tehnicile de notare a relevanței sunt folosite pentru a îmbunătăți căutarea.

Exemplele de „date nestructurate” includ cărți, jurnale, documente, metadate, înregistrări medicale, audio, video, date analogice, imagini și fișiere bazate pe text nestructurat: mesaje de e-mail, pagini web, documente create cu ajutorul procesoarelor de text . Informațiile nestructurate pot fi stocate sub formă de obiecte structurate (de exemplu, sub formă de fișiere sau documente) care au o structură. În acest caz, combinația de date structurate și nestructurate în agregat este numită și „date nestructurate” [6] . De exemplu, paginile web HTML au deja markup, dar este utilizabil numai pentru afișare. Nu conține informații despre semnificațiile sau funcțiile anumitor elemente de marcare într-o formă adecvată procesării automate. Marcajul XHTML este mai ușor de gestionat automat, dar de obicei nu conține semnificațiile semantice ale expresiilor.

Deoarece datele nestructurate sunt de obicei stocate sub formă de documente electronice , programele de analiză a conținutului sau de gestionare a documentelor preferă să clasifice documentele întregi decât să manipuleze în documente. Astfel, programele de prelucrare a acestui tip de date sunt de obicei instrumente de creare a unor colecții de documente cu informații nestructurate. Cu toate acestea, astăzi există și soluții care funcționează cu elemente atomice mai mici decât întregul document [7] .

Motoarele de căutare au devenit unul dintre instrumentele populare pentru indexarea și căutarea datelor nestructurate.

Note

  1. Date nestructurate Arhivate 21 septembrie 2020 la Wayback Machine // geeksforgeeks.org
  2. [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Arhivat 20 octombrie 2017 la Wayback Machine Unstructured data] // PC Magazine Encyclopedia
  3. Grimes, Seth O scurtă istorie a analizei textului . B Rețeaua ochilor . Preluat la 24 iunie 2016. Arhivat din original la 8 decembrie 2017.
  4. Albright, Russ Taming Text cu SVD . S.A.S. _ Preluat la 24 iunie 2016. Arhivat din original la 21 septembrie 2017.
  5. Desai, Manish Applications of Text Analytics . Analiza afacerii mele @ Blogspot . Preluat la 24 iunie 2016. Arhivat din original la 13 octombrie 2016.
  6. Chakraborty, Goutam Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining . S.A.S. _ Preluat la 24 iunie 2016. Arhivat din original la 13 ianuarie 2017.
  7. Datagrav: Un cadru pentru partajarea cunoștințelor utilizând medii de colaborare cu transcluzie | Sergey Kochuguev - Academia.edu . Preluat la 21 septembrie 2016. Arhivat din original la 15 decembrie 2019.

Link -uri