Date mare

Big data ( în engleză  big data , [ ˈbɪɡ ˈdeɪtə ]) este o desemnare a datelor structurate și nestructurate de volume uriașe și o varietate semnificativă, procesate eficient de instrumente software scalabile orizontal care au apărut la sfârșitul anilor 2000 și sunt alternative la sistemele tradiționale de gestionare a bazelor de date și soluții de clasă business Inteligență [1] [2] [3] .

Într-un sens larg, despre „big data” se vorbește despre un fenomen socio-economic asociat cu apariția capacităților tehnologice de a analiza cantități uriașe de date, în unele zone problematice – întregul volum global de date, și consecințele transformaționale care decurg din acestea . 4] .

Ca caracteristici definitorii pentru big data, se disting în mod tradițional „trei V”: volum (volumul englezesc ,  în sensul mărimii volumului fizic), viteza ( viteza în sensul atât al ratei de creștere, cât și al necesității de viteză mare). prelucrarea și obținerea rezultatelor), diversitate ( varietate , în sensul posibilității de prelucrare simultană a diverselor tipuri de date structurate și semistructurate) [5] [6] ; ulterior au apărut diverse variații și interpretări ale acestei caracteristici .

Din punctul de vedere al tehnologiei informației , setul de abordări și instrumente a inclus inițial procesarea în masă-paralelă a datelor structurate pe termen nedefinit, în primul rând sisteme de gestionare a bazelor de date din categoria NoSQL , algoritmi MapReduce și cadrele software și bibliotecile proiectului Hadoop care le implementează. [7] . În viitor, o varietate de soluții de tehnologie a informației au început să fie atribuite seriei de tehnologii de date mari, oferind într-o măsură sau alta capacități similare în ceea ce privește caracteristicile de procesare a matricelor de date extra-large.

Istorie

Introducerea pe scară largă a termenului „big data” este asociată cu Clifford Lynch , editor al revistei Nature , care a pregătit un număr special pentru 3 septembrie 2008 cu tema „Cum pot tehnologiile care deschid oportunități de lucru cu big data să afecteze viitorul științei?" , care a adunat materiale privind fenomenul de creștere explozivă a volumului și varietatea datelor prelucrate și perspectivele tehnologice în paradigma unui probabil salt „de la cantitate la calitate”; termenul a fost propus prin analogie cu metaforele „big oil” , „big minereu” comune în mediul de afaceri de limbă engleză [9] [10] .

În ciuda faptului că termenul a fost introdus în mediul academic și, în primul rând, a fost analizată problema creșterii și diversității datelor științifice, din 2009 termenul a fost răspândit pe scară largă în presa de afaceri, iar până în 2010 a apărut primele produse și soluții[ expresie simplificată ] care se referă exclusiv și direct la problema procesării datelor mari. Până în 2011, majoritatea celor mai mari furnizori de tehnologie a informației pentru organizații în strategiile lor de afaceri folosesc conceptul de date mari, inclusiv IBM [11] , Oracle [12] , Microsoft [13] , Hewlett-Packard [14] , EMC [15] , iar principalii analiști ai pieței tehnologiei informației consacră cercetări dedicate conceptului [5] [16] [17] [18] .

În 2011, Gartner a clasat Big Data drept tendința numărul doi în infrastructura IT (după virtualizare și mai semnificativă decât economisirea și monitorizarea energiei ) [19] . În același timp, s-a prezis că introducerea tehnologiilor de date mari ar avea cel mai mare impact asupra tehnologiei informației în producție , sănătate , comerț , administrație publică , precum și în zonele și industriile în care se înregistrează mișcările individuale de resurse [20] .

Din 2013, big data ca disciplină academică a fost studiată în programele universitare emergente în știința datelor [21] și știința și inginerie computațională [22] .

În 2015, Gartner a exclus Big Data din ciclul de maturitate a noilor tehnologii și a încetat să mai lanseze un ciclu separat de maturitate a tehnologiei Big Data, care a fost lansat în 2011-2014, invocând tranziția de la hype la utilizarea practică. Tehnologiile care au apărut în ciclul de maturitate dedicat, în cea mai mare parte, s-au mutat în cicluri speciale în analiză avansată și știința datelor, BI și analiza datelor, managementul informațiilor întreprinderii, calculul rezidențial , infrastructura informațională [23] .

VVV

Setul de caracteristici VVV ( volum, viteză, varietate ) a fost dezvoltat inițial de Meta Group în 2001, în afara contextului ideilor de date mari ca o anumită serie de metode și instrumente de tehnologie a informației, în legătură cu popularitatea tot mai mare a conceptului de depozit central de date pentru organizații, sa remarcat echivalența problemelor de management al datelor în toate cele trei aspecte [24] . Ulterior, au apărut interpretări cu „patru V” ( a fost adăugată veridicitate - fiabilitate, folosită în  materialele promoționale IBM [25] ), „cinci V-uri” (în această versiune s-a adăugat viabilitate - viabilitate  și valoare  - valoare [26] ), și chiar „familia V” (pe lângă toate, au adăugat și variabilitate  și vizualizare [27] ). IDC interpretează „al patrulea V” ca o valoare în ceea ce privește importanța fezabilității economice a prelucrării volumelor adecvate în condiții adecvate, ceea ce se reflectă și în definiția IDC a datelor mari [28] . În toate cazurile, aceste semne subliniază că caracteristica definitorie a datelor mari nu este doar volumul lor fizic, ci și alte categorii care sunt esențiale pentru înțelegerea complexității sarcinii de prelucrare și analiză a datelor.

Surse

Internetul lucrurilor și social media sunt recunoscute ca surse clasice de big data , de asemenea, se crede că big data pot proveni din informațiile interne ale întreprinderilor și organizațiilor (generate în medii informaționale, dar nu stocate sau analizate anterior), din domenii de medicină și bioinformatică , din observații astronomice [ 29 ] .

Exemple de surse de date mari sunt [30] [31] datele primite continuu de la dispozitivele de măsurare, evenimentele de la RFID , fluxurile de mesaje din rețelele sociale , datele meteorologice, datele de teledetecție ale Pământului , fluxurile de date despre locația abonaților rețelelor celulare. , dispozitive înregistrări audio și video . Este de așteptat ca dezvoltarea și începutul utilizării pe scară largă a acestor surse să inițieze pătrunderea tehnologiilor big data atât în ​​activitățile de cercetare, cât și în sectorul comercial și administrația publică.

Metode de analiză

Metode și tehnici de analiză aplicabile datelor mari evidențiate în raportul McKinsey [32] :

Tehnologie

Cel mai adesea, scalabilitatea orizontală este indicată ca principiu de bază al procesării datelor mari, care asigură prelucrarea datelor distribuite pe sute și mii de noduri de calcul fără degradarea performanței; în special, acest principiu este inclus în definiția NIST a datelor mari [33] . Totodată, McKinsey, pe lângă tehnologiile NoSQL, MapReduce, Hadoop, R considerate de majoritatea analiștilor, include și tehnologii de Business Intelligence și sisteme de management al bazelor de date relaționale cu suport pentru limbajul SQL [34] în contextul aplicabilității pentru prelucrare. date mari .

NoSQL

MapReduce

Hadoop

R

Soluții hardware

Există o serie de sisteme hardware și software care oferă soluții preconfigurate pentru procesarea datelor mari: dispozitivul Aster MapReduce ( corporații Teradata ), dispozitivul Oracle Big Data , aparatul Greenplum ( corporația EMC , bazată pe soluțiile companiei achiziționate Greenplum ). Aceste suite sunt livrate ca dulapuri pentru centre de date gata de instalat , care conțin un cluster de servere și software de control pentru procesare masivă în paralel.

Soluții hardware pentru calcularea rezidențială , în primul rând pentru baze de date în memorie și analiză în memorie , în special, oferite de sistemele hardware și software Hana (soluția hardware și software preconfigurată de la SAP ) și Exalytics ( complexul Oracle bazat pe relaționalul Timesten). sistem și Essbase multidimensionale ), sunt uneori denumite soluții de date mari [35] [36] , în ciuda faptului că o astfel de procesare nu este inițial masiv paralelă, iar cantitatea de RAM a unui nod este limitată la câțiva teraocteți .

În plus, uneori, sistemele hardware și software bazate pe sisteme tradiționale de gestionare a bazelor de date relaționale  - Netezza , Teradata , Exadata - sunt uneori denumite soluții pentru big data , deoarece sunt capabile să proceseze eficient terabytes și exabytes de informații structurate, rezolvând problemele de căutare rapidă și procesare analitică a unor volume uriașe de date structurate. Se observă că primele soluții hardware-software masiv paralele pentru procesarea unor cantități foarte mari de date au fost mașinile Britton Lee , lansate pentru prima dată în 1983 , și Teradata (a început să fie produsă în 1984 , mai mult, în 1990 Teradata a absorbit Britton Lee ). ) [37] .

Soluțiile hardware DAS  - sisteme de stocare a datelor atașate direct la noduri - în condițiile independenței nodurilor de procesare din arhitectura SN sunt uneori denumite și tehnologii de date mari. Odată cu apariția conceptului de date mari se asociază creșterea interesului pentru soluțiile DAS la începutul anilor 2010 , după ce acestea au fost înlocuite în anii 2000 de soluțiile de rețea din clasele NAS și SAN [38] .

Note

  1. Primesberger, 2011 , „Datele mari se referă la volumul, varietatea și viteza datelor structurate și nestructurate care se revarsă prin rețele în procesoare și dispozitive de stocare, împreună cu conversia acestor date în consiliere de afaceri pentru întreprinderi”.
  2. PwC, 2010 , Termenul „big data” se referă la seturi de date cu o posibilă creștere exponențială care sunt prea mari, prea neformatate sau prea nestructurate pentru a fi analizate prin metode tradiționale., p. 42.
  3. McKinsey, 2011 , „Big data” se referă la seturi de date a căror dimensiune depășește capacitatea instrumentelor tipice de software pentru baze de date de a captura, stoca, gestiona și analiza, p. unu.
  4. Mayer-Schoenberger, 2014 .
  5. 12 Gartner , 2011 .
  6. Kanarakus, Chris. Mașină de date mari . Rețele , Nr. 04, 2011 . Open Systems (1 noiembrie 2011). - „... date mari ca „trei V”: volum („volum” - petaocteți de date stocate), viteza („viteză” - achiziție de date, transformare, încărcare, analiză și sondare în timp real) și varietate („varietate” ” - prelucrarea datelor structurate și semistructurate de diverse tipuri). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  7. PwC, 2010 , Până la începutul lui 2010, Hadoop, MapReduce și tehnologiile open source asociate acestora au condus la un fenomen cu totul nou, pe care O'Reilly Media, The Economist și alții l-au numit big data, p. 42.
  8. Capacitatea tehnologică a lumii de a stoca, comunica și calcula informații . MartinHilbert.net . Consultat la 13 aprilie 2016. Arhivat din original pe 14 aprilie 2016.
  9. Chernyak, 2011 , Big Data este unul dintre puținele titluri care au o dată de naștere complet sigură - 3 septembrie 2008, când a fost publicat un număr special al celei mai vechi reviste științifice britanice Nature, dedicat găsirii unui răspuns la întrebarea „ Cum pot tehnologiile care deschid capacitatea de a lucra cu cantități mari de date? […] Dându-și seama de amploarea schimbărilor viitoare, editorul Nature Clifford Lynch a propus un nume special pentru noua paradigmă Big Data, aleasă de el prin analogie cu metafore precum Big Oil, Big Ore etc., reflectând nu atât cantitatea. de ceva, cât de mult trecerea cantității în calitate.
  10. Un exemplu de utilizare a metaforei Big Oil  (engleză) , cf. de asemenea povestea „Big Ore” , filmul „Big Oil”
  11. Dubova, Natalya. Marea conferință despre Big Data . Open Systems (3 noiembrie 2011). „Forumul IBM Information on Demand, care a reunit peste 10.000 de participanți, sa concentrat pe analiza Big Data.” Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  12. Henschen, Doug. Oracle lansează baza de date NoSQL , avansează planuri de date mari  . Săptămâna Informației (24 octombrie 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  13. Finley, Klint. Steve Ballmer despre viitorul Big Data al Microsoft și multe altele în Breviarul de Business Intelligence din această săptămână  . ReadWriteWeb (17 iulie 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  14. Shah, Agam. HP schimbă computerele personale în Big Data . Sisteme deschise (19 august 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  15. ↑ EMC încearcă să unifice Big Data Analytics  . Săptămâna Informației (21 septembrie 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  16. Woo, Benjamin și colab. Taxonomia mondială a datelor Big Data  a IDC . International Data Corporation (1 octombrie 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  17. Evelson, Boris și Hopkins, Brian. Cum folosesc clienții Forrester Big  Data . Forrester Research (20 septembrie 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  18. McKinsey, 2011 .
  19. Thibodeau, Patrick. Top 10 provocări IT ale Gartner includ ieșirea din baby boomers, Big Data  . Computerworld (18 octombrie 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  20. Chernyak, 2011 , Potrivit experților, precum Institutul McKinsey, sub influența Big Data, sfera producției, asistenței medicale, comerțului, administrării și monitorizării mișcărilor individuale va suferi cea mai mare transformare.
  21. Master în  Știința Datelor . Scoala de calcul . Universitatea Dundee (1 ianuarie 2013). „Un om de știință de date este o persoană care excelează în manipularea și analiza datelor, în special a seturilor mari de date care nu se potrivesc cu ușurință în structurile tabelare (așa-numitele „Big Data”).” Data accesului: 18 ianuarie 2013. Arhivat din original la 22 ianuarie 2013.
  22. Master în științe. Primul program de diplomă de la Harvard în știință și inginerie computațională este un an intensiv de cursuri care duc la Masterul în  știință . Institutul pentru Științe Computaționale Aplicate . Universitatea Harvard (1 ianuarie 2013). — „“... Multe dintre întrebările definitorii ale acestei ere în știință și tehnologie vor fi centrate pe „datele mari” și învățarea automată. Acest program de master îi va pregăti pe studenți să răspundă la aceste întrebări…””. Data accesului: 18 ianuarie 2013. Arhivat din original la 22 ianuarie 2013.
  23. Simon Sharwood. Uitați de hype-ul Big Data , spune Gartner în timp ce își poate face ciclul de hype  . Registrul (21 august 2015). Consultat la 19 februarie 2017. Arhivat din original pe 20 februarie 2017.
  24. Doug Laney. Gestionarea datelor 3D : controlul volumului, vitezei și varietății datelor  . Meta Group (6 februarie 2001). Data accesului: 19 februarie 2017. Arhivat din original pe 23 iulie 2013.
  25. Cele patru V-uri ale Big  Data . IBM (2011). Data accesului: 19 februarie 2017. Arhivat din original pe 16 iunie 2016.
  26. Neil Biehn. V-urile lipsă în Big Data: viabilitate și  valoare . Cablat (1 mai 2013). Consultat la 19 februarie 2017. Arhivat din original pe 20 februarie 2017.
  27. Eileen McNulty. Înțelegerea Big Data: Cele șapte  V . Dataconomy (22 mai 2014). Consultat la 19 februarie 2017. Arhivat din original pe 20 februarie 2017.
  28. Chen și colab., 2014 , „tehnologiile de date mari descriu o nouă generație de tehnologii și arhitecturi, concepute pentru a extrage în mod economic valoare din volume foarte mari ale unei game largi de date, permițând capturarea, descoperirea și/sau la mare viteză. analiză”, p. patru.
  29. Chen și colab., 2014 , p. 19-23.
  30. McKinsey, 2011 , pp. 7-8.
  31. Chernyak, 2011 .
  32. McKinsey, 2011 , pp. 27-31.
  33. Chen et al., 2014 , „Datele mari înseamnă datele a căror volum de date, viteza de achiziție sau reprezentarea datelor limitează capacitatea de a utiliza metode tradiționale relaționale pentru a efectua analize eficiente sau datele care pot fi procesate eficient cu orizontale importante. tehnologii zoom”, p. patru.
  34. McKinsey, 2011 , pp. 31-33.
  35. Chernyak, 2011 , Următorul pas ar putea fi tehnologia SAP HANA (High Performance Analytic Appliance), a cărei esență este plasarea datelor pentru analiză în RAM.
  36. Darrow, Barb. Oracle lansează Exalytics, un dispozitiv pentru big  data . GigaOM (2 octombrie 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.
  37. Chernyak, 2011 , ... Britton-Lee a fost primul care a creat un „motor de baze de date” în 1983, bazat pe configurația multiprocesor a familiei de procesoare Zilog Z80. Ulterior, Britton-Lee a fost cumpărată de Teradata, care din 1984 produce computere cu arhitectură MPP pentru sisteme de suport decizional și depozite de date.
  38. Leonid Chernyak. Big Data reînvie DAS . „Computerworld Russia”, nr. 14, 2011 . Open Systems (5 mai 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 3 septembrie 2012.

Literatură

Link -uri