Date nestructurate

Datele nestructurate sunt date care nu corespund unui model de date predeterminat și, de regulă, sunt prezentate sub formă de text cu date, numere, fapte aflate în el într-o formă arbitrară [1] [2] . Astfel de date sunt greu de analizat, mai ales cu programele tradiționale concepute să funcționeze cu date structurate ( adnotate sau stocate în baze de date ).

Merrill Lynch a estimat în 1998 că aproximativ 80-90% din toate informațiile de afaceri potențial utile au fost prezentate în formă nestructurată [1] , dar acest raport nu se baza pe statistici sau cercetări cantitative, ci era o presupunere [2] . Computerworld estimează volumul de date nestructurate din organizații la 70-80% din toate datele [3] .

Istorie

Cele mai vechi cercetări în business intelligence nu s-au concentrat pe date numerice, ci pe date textuale nestructurate. Încă din 1958, cercetătorii din tehnologia informației, precum H. P. Lun, explorau modalități de extragere și clasificare a datelor în text nestructurat. [3] Cu toate acestea, abia de la începutul anilor 2000 tehnologia disponibilă a ajuns din urmă cu interesul cercetării. În 2004, Institutul SAS a dezvoltat SAS Text Miner, care utilizează descompunerea valorilor singulare pentru a factoriza un spațiu de text cu dimensiuni mari în subspații de dimensiuni inferioare pentru a simplifica considerabil analiza mașinii [4] . Progresele în matematică și tehnologiile de procesare a textului au stimulat cercetările organizațiilor comerciale în domenii precum analiza sentimentelor textului (analiza sentimentelor), colectarea și analiza opiniilor consumatorilor, automatizarea call-centerului [5] . Apariția tehnologiilor de date mari la sfârșitul anilor 2000 a stimulat un interes sporit pentru programele de analiză a datelor nestructurate în domenii moderne precum prognoza și analiza cauzelor principale [6] .

Dificultăți de terminologie

Termenul „date nestructurate” poate fi considerat imprecis din mai multe motive:

structura, chiar dacă nu este definită formal, poate fi implicată;
datele care au o structură de o anumită formă pot fi încă caracterizate ca nestructurate dacă structura lor nu este destinată procesării automate;
informația nestructurată poate avea o anumită structură (o astfel de informație se numește semistructurată) sau chiar poate fi bine structurată, dar în moduri care nu sunt evidente fără acordul prealabil.

Lucrul cu date nestructurate

Tehnici precum data mining, procesarea limbajului natural și text mining oferă metode pentru găsirea tiparelor pentru a interpreta într-un fel informațiile nestructurate.

Tehnicile de structurare a textului includ de obicei etichetarea manuală (metadate) sau marcarea unei părți din vorbire pentru a structura textul în continuare. Arhitectura de management al informațiilor nestructurate (UIMA) oferă un cadru comun pentru procesarea acestor informații pentru a extrage valori și a crea date structurate din informațiile nestructurate [4] . Software-ul care creează o structură de date care poate fi citită de mașină folosește structurile lingvistice, auditive și vizuale care există în toate formele de comunicare umană [5] . De exemplu, algoritmii speciali pot deduce structura din text analizând morfologia , sintaxa propoziției și așa mai departe. Informațiile nestructurate pot fi apoi marcate pentru dezambiguizare, iar tehnicile de notare a relevanței sunt folosite pentru a îmbunătăți căutarea.

Exemplele de „date nestructurate” includ cărți, jurnale, documente, metadate, înregistrări medicale, audio, video, date analogice, imagini și fișiere bazate pe text nestructurat: mesaje de e-mail, pagini web, documente create cu ajutorul procesoarelor de text . Informațiile nestructurate pot fi stocate sub formă de obiecte structurate (de exemplu, sub formă de fișiere sau documente) care au o structură. În acest caz, combinația de date structurate și nestructurate în agregat este numită și „date nestructurate” [6] . De exemplu, paginile web HTML au deja markup, dar este utilizabil numai pentru afișare. Nu conține informații despre semnificațiile sau funcțiile anumitor elemente de marcare într-o formă adecvată procesării automate. Marcajul XHTML este mai ușor de gestionat automat, dar de obicei nu conține semnificațiile semantice ale expresiilor.

Deoarece datele nestructurate sunt de obicei stocate sub formă de documente electronice , programele de analiză a conținutului sau de gestionare a documentelor preferă să clasifice documentele întregi decât să manipuleze în documente. Astfel, programele de prelucrare a acestui tip de date sunt de obicei instrumente de creare a unor colecții de documente cu informații nestructurate. Cu toate acestea, astăzi există și soluții care funcționează cu elemente atomice mai mici decât întregul document [7] .

Motoarele de căutare au devenit unul dintre instrumentele populare pentru indexarea și căutarea datelor nestructurate.

Note

↑ Date nestructurate Arhivate 21 septembrie 2020 la Wayback Machine // geeksforgeeks.org
↑ [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Arhivat 20 octombrie 2017 la Wayback Machine Unstructured data] // PC Magazine Encyclopedia
↑ Grimes, Seth O scurtă istorie a analizei textului . B Rețeaua ochilor . Preluat la 24 iunie 2016. Arhivat din original la 8 decembrie 2017. (nedefinit)
↑ Albright, Russ Taming Text cu SVD . S.A.S. _ Preluat la 24 iunie 2016. Arhivat din original la 21 septembrie 2017. (nedefinit)
↑ Desai, Manish Applications of Text Analytics . Analiza afacerii mele @ Blogspot . Preluat la 24 iunie 2016. Arhivat din original la 13 octombrie 2016. (nedefinit)
↑ Chakraborty, Goutam Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining . S.A.S. _ Preluat la 24 iunie 2016. Arhivat din original la 13 ianuarie 2017. (nedefinit)
↑ Datagrav: Un cadru pentru partajarea cunoștințelor utilizând medii de colaborare cu transcluzie | Sergey Kochuguev - Academia.edu . Preluat la 21 septembrie 2016. Arhivat din original la 15 decembrie 2019. (nedefinit)

Link -uri

Artak Hovhannisyan . Date nestructurate 2.0 Arhivat pe 11 decembrie 2016 la Wayback Machine // Open Systems. DBMS, 2012, nr. 04
Leonid Chernyak . Analiza datelor nestructurate Arhivate pe 16 ianuarie 2017 la Wayback Machine // Open Systems. DBMS, 2012, nr. 06
Anton Ivanov . Analiza cuprinzătoare a datelor nestructurate Arhivat 15 noiembrie 2016 la Wayback Machine // Open Systems. DBMS, 2013, Nr. 06
Artem Grișkovski . Procesarea integrată a datelor nestructurată Arhivată pe 11 decembrie 2016 la Wayback Machine // Open Systems. DBMS, 2013, Nr. 06
Structură, modele și semnificație: Datele „nestructurate” sunt doar nemodelate? Arhivat la 11 februarie 2009 la Wayback Machine , Intelligent Enterprise , 1 martie 2005.
Structuring Unstructured Data Arhivat 30 noiembrie 2016 la Wayback Machine , Forbes , 5 aprilie 2007.
Christopher C. Shilakes și Julie Tylman, „Enterprise Information Portals” , Merrill Lynch , 16 noiembrie 1998.
Holzinger, Andreas; Stocker, Christof; Ofner, Bernard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer. Combinarea HCI, procesarea limbajului natural și descoperirea cunoștințelor – potențialul IBM Content Analytics ca tehnologie de asistență în domeniul biomedical // Interacțiunea om-calculator și descoperirea cunoștințelor în date complexe, nestructurate, mari (engleză) / Holzinger, Andreas; Pasi, Gabriella. - Springer, 2013. - P. 13-24 . — (Note de curs în Informatică). - ISBN 978-3-642-39146-0 . - doi : 10.1007/978-3-642-39146-0_2 .
Date nestructurate și regula 80 la sută Arhivate la 12 septembrie 2014 la Wayback Machine , Seth Grimes, Clarabridge Bridgepoints, 2008 Q3.
Provocarea de astăzi în guvern: Ce să faceți cu informațiile nestructurate și de ce să nu faceți nimic nu este o opțiune, Noel Yuhanna, analist principal, Forrester Research , noiembrie 2010
Noul studiu al universului digital dezvăluie decalajul de date mari: mai puțin de 1 % din datele lumii sunt analizate; Mai puțin de 20% este protejat Arhivat 18 aprilie 2016 la Wayback Machine , Comunicat de presă EMC , decembrie 2012.
Prelucrarea/pregătirea datelor semi-și nestructurate în IRI CoSort Arhivat 16 octombrie 2016 la Wayback Machine , mai 2014.

Dicționare și enciclopedii	mare chinezesc Britannica (online)