Știința datelor ( engleză data science ; uneori datalogy - datalogy [1] ) este o secțiune a informaticii care studiază problemele analizării , procesării și prezentării datelor în formă digitală. Combină metode de prelucrare a datelor în condiții de volume mari și un nivel ridicat de paralelism, metode statistice , metode de data mining și aplicații de inteligență artificială pentru lucrul cu date, precum și metode de proiectare și dezvoltare a bazelor de date .
Considerată ca disciplină academică [2] , iar încă de la începutul anilor 2010, în mare parte datorită popularizării conceptului de „ big data ” [3] , - și ca domeniu practic de activitate interprofesională, de altfel, specializarea of a scientistdata [4] [5] .
Începutul formării unei discipline dedicate este considerat a fi 1966 , când a fost înființat Comitetul pentru Date pentru Știință și Tehnologie (CODATA) [6] , iar prima introducere a termenului de știință a datelor se referă la cartea lui Peter Naur în 1974, în care a definit în mod explicit știința datelor ca o disciplină, studiind ciclul de viață al datelor digitale - de la apariție până la transformare pentru prezentare în alte domenii ale cunoașterii [7] (există o opinie că Naur a folosit termenul „știința datelor” în sfârşitul anilor 1960 [8] ).
Cu toate acestea, abia în anii 1990 termenul care denotă disciplină a devenit utilizat pe scară largă [9] [6] , și abia la începutul anilor 2000 a devenit general acceptat, în primul rând datorită unui articol al statisticianului Bell Labs William Cleveland (din 2012). profesor de statistică la Universitatea Purdue ), în care a publicat un plan de dezvoltare a aspectelor tehnice ale cercetării statistice și a identificat știința datelor ca o disciplină academică separată în care ar trebui concentrate aceste aspecte tehnice [10] [11] .
În 2002, Comitetul pentru Date pentru Știință și Tehnologie a lansat publicația CODATA Data Science Journal, care conține numele disciplinei în titlu, iar în ianuarie 2003, primul număr al The Journal of Data Science al Universității Columbia a fost publicat .
O altă creștere a interesului larg răspândit pentru știința datelor se referă la apariția paradigmei „ big data ”, care se concentrează pe noi posibilități tehnologice de prelucrare a datelor de volume mari și diversitate, inclusiv prin aplicarea metodelor dezvoltate în anii 2000 în știința datelor. Din 2011, O'Reilly ține o serie de conferințe majore de știință a datelor - Strata [12] , EMC organizează un summit anual de știință a datelor din 2011 [13] . McKinsey în 2011 a prezis o cerere în Statele Unite ale Americii pentru 440-490 de mii de specialiști noi cu „abilități analitice profunde în lucrul cu big data” până în 2018 și un deficit de 50% - 60% la astfel de specialiști, menținând în același timp tendințele educaționale [14] , în În legătură cu această prognoză, interesul pentru crearea de programe a fost alimentat în mare măsură [15] .
În 2012, profesia de data scientist este remarcată în mod repetat drept una dintre cele mai atractive ( ing. sexy ) și promițătoare din lumea modernă, susținându-se că astfel de specialiști vor juca un rol cheie în organizații, datorită oportunităților de a obține avantaje competitive. prin analiză, procesare rapidă și extracție de modele în date, în primul rând în industriile tehnologice [16] [5] .
Din anul universitar 2013, Universitatea Dundee , Universitatea Auckland , Universitatea din California de Sud au lansat programe de master în știința datelor, iar școala de afaceri a Imperial College London a lansat un program de pregătire a „Masterilor în știință în Data Science and Management" ( ing. MSc Data Science & Management ) [17] . În același an, Universitatea din Washington , Universitatea din California din Berkeley și Universitatea din New York au primit un grant de 37,8 milioane de dolari pentru a promova știința datelor, care, pe parcursul a cinci ani, va, printre altele, să construiască programe și să creeze oportunități pentru un academic. carieră în domeniu [18] .
Scopul practic principal al activității profesionale în știința datelor este de a descoperi modele în date [19] , extragerea cunoștințelor din date într-o formă generalizată [20] . Pentru a explica abilitățile necesare activităților din acest domeniu, este adesea folosită diagrama Venn [21] , în care abilitățile cerute de un specialist sunt reflectate la intersecția domeniilor de experiență generală în materie ( expertiza materială în limba engleză ), experiență practică în informare . tehnologie ( abilități de hacking ) și cunoștințe statistici matematice [22] .
Ca trăsătură epistemologică a disciplinei, este indicată prioritatea aplicabilității practice a rezultatelor, adică succesul predicțiilor, față de cauzalitatea acestora, în timp ce în domeniile de cercetare tradiționale este esențială explicarea naturii fenomenului [23] . În comparație cu statistica clasică , pe metodele pe care se bazează în mare măsură știința datelor, ea implică studiul unor rețele eterogene super-mari de informații digitale și o legătură inextricabilă cu tehnologiile informaționale care asigură prelucrarea acestora [24] . În comparație cu activitățile din domeniul proiectării și lucrului cu baze de date, în care se presupune că proiectarea preliminară a unui model de date care reflectă relația dintre domeniul de studiu și studiul ulterioar al datelor încărcate cu metode (aritmetice) relativ simple, știința datelor presupune că se bazează pe aparatul de statistică matematică, inteligență artificială, învățare automată, adesea fără a încărca mai întâi datele în model. În comparație cu profesia de analist, al cărei scop principal este de a descrie fenomene bazate pe date acumulate cu instrumente de utilizator relativ simple (cum ar fi foi de calcul sau instrumente de clasă de Business Intelligence ), profilul unui data scientist necesită mai puțină concentrare pe conținutul domeniilor subiectului, dar necesită cunoștințe mai profunde în statistică matematică, învățare automată, programare și, în general, un nivel de învățământ superior ( masteri , candidați la științe , doctorat în comparație cu licențiați și specialiști ) [25] .
Cursul Introduction to Data Science de la Universitatea din Washington , publicat pe Coursera , are următoarele secțiuni [26] :
Blocul Data Science al programului de master în Data Science și Management de la Imperial College London include un curs pregătitor pentru Statistică Avansată . Următoarele discipline sunt incluse direct în cursul de știința datelor:
După cursurile de știință a datelor și de bazele managementului, programul oferă un curs aplicat, împărțit în două fluxuri, managementul riscului , managementul activelor și instrumentele financiare derivate sunt incluse în fluxul financiar și tehnologic, iar procesarea seturilor de date mari este inclusă în consultanță . stream , analiză de rețea, analiză econometrică , aplicații în servicii și consultanță, energie , sănătate , politică . [17]
Programul de la Universitatea din Dundee pune accent pe „ datele mari ”, în primul rând spre deosebire de „prelucrarea foilor de calcul”, și se concentrează pe extragerea datelor , modelarea bazelor de date și stocare , statistici , iar limbajele SQL , MDX , R , Erlang , Java sunt studiate în cadrul programul , instrumentele Hadoop și NoSQL [27] .