Știința datelor

Știința datelor ( engleză  data science ; uneori datalogy  - datalogy [1] ) este o secțiune a informaticii care studiază problemele analizării , procesării și prezentării datelor în formă digitală. Combină metode de prelucrare a datelor în condiții de volume mari și un nivel ridicat de paralelism, metode statistice , metode de data mining și aplicații de inteligență artificială pentru lucrul cu date, precum și metode de proiectare și dezvoltare a bazelor de date .

Considerată ca disciplină academică [2] , iar încă de la începutul anilor 2010, în mare parte datorită popularizării conceptului de „ big data[3] , - și ca domeniu practic de activitate interprofesională, de altfel, specializarea of  a scientistdata  [4] [5] .

Istorie

Începutul formării unei discipline dedicate este considerat a fi 1966 , când a fost înființat Comitetul pentru Date pentru Știință și Tehnologie (CODATA) [6] , iar prima introducere a termenului de știință a datelor se referă la cartea lui Peter Naur în 1974, în care a definit în mod explicit știința datelor ca o disciplină, studiind ciclul de viață al datelor digitale - de la apariție până la transformare pentru prezentare în alte domenii ale cunoașterii [7] (există o opinie că Naur a folosit termenul „știința datelor” în sfârşitul anilor 1960 [8] ).

Cu toate acestea, abia în anii 1990 termenul care denotă disciplină a devenit utilizat pe scară largă [9] [6] , și abia la începutul anilor 2000 a devenit general acceptat, în primul rând datorită unui articol al statisticianului Bell Labs William Cleveland (din 2012). profesor de statistică la Universitatea Purdue ), în care a publicat un plan de dezvoltare a aspectelor tehnice ale cercetării statistice și a identificat știința datelor ca o disciplină academică separată în care ar trebui concentrate aceste aspecte tehnice [10] [11] .

În 2002, Comitetul pentru Date pentru Știință și Tehnologie a lansat publicația CODATA Data Science Journal, care conține numele disciplinei în titlu, iar în ianuarie 2003, primul număr al The Journal of Data Science al Universității Columbia a fost publicat .

O altă creștere a interesului larg răspândit pentru știința datelor se referă la apariția paradigmei „ big data ”, care se concentrează pe noi posibilități tehnologice de prelucrare a datelor de volume mari și diversitate, inclusiv prin aplicarea metodelor dezvoltate în anii 2000 în știința datelor. Din 2011, O'Reilly ține o serie de conferințe majore de știință a datelor - Strata [12] , EMC organizează un summit anual de știință a datelor din 2011 [13] . McKinsey în 2011 a prezis o cerere în Statele Unite ale Americii pentru 440-490 de mii de specialiști noi cu „abilități analitice profunde în lucrul cu big data” până în 2018 și un deficit de 50% - 60% la astfel de specialiști, menținând în același timp tendințele educaționale [14] , în În legătură cu această prognoză, interesul pentru crearea de programe a fost alimentat în mare măsură [15] .

În 2012, profesia de data scientist este remarcată în mod repetat drept una dintre cele mai atractive ( ing.  sexy ) și promițătoare din lumea modernă, susținându-se că astfel de specialiști vor juca un rol cheie în organizații, datorită oportunităților de a obține avantaje competitive. prin analiză, procesare rapidă și extracție de modele în date, în primul rând în industriile tehnologice [16] [5] .

Din anul universitar 2013, Universitatea Dundee , Universitatea Auckland , Universitatea din California de Sud au lansat programe de master în știința datelor, iar școala de afaceri a Imperial College London a lansat un program de  pregătire a „Masterilor în știință în Data Science and Management" ( ing.  MSc Data Science & Management ) [17] . În același an, Universitatea din Washington , Universitatea din California din Berkeley și Universitatea din New York au primit un grant de 37,8 milioane de dolari pentru a promova știința datelor, care, pe parcursul a cinci ani, va, printre altele, să construiască programe și să creeze oportunități pentru un academic. carieră în domeniu [18] .

Cuprins

Scopul practic principal al activității profesionale în știința datelor este de a descoperi modele în date [19] , extragerea cunoștințelor din date într-o formă generalizată [20] . Pentru a explica abilitățile necesare activităților din acest domeniu, este adesea folosită diagrama Venn [21] , în care abilitățile cerute de un specialist sunt reflectate la intersecția domeniilor de experiență generală în materie ( expertiza materială în limba engleză  ), experiență practică în informare . tehnologie ( abilități de hacking ) și cunoștințe statistici matematice [22] .

Ca trăsătură epistemologică a disciplinei, este indicată prioritatea aplicabilității practice a rezultatelor, adică succesul predicțiilor, față de cauzalitatea acestora, în timp ce în domeniile de cercetare tradiționale este esențială explicarea naturii fenomenului [23] . În comparație cu statistica clasică , pe metodele pe care se bazează în mare măsură știința datelor, ea implică studiul unor rețele eterogene super-mari de informații digitale și o legătură inextricabilă cu tehnologiile informaționale care asigură prelucrarea acestora [24] . În comparație cu activitățile din domeniul proiectării și lucrului cu baze de date, în care se presupune că proiectarea preliminară a unui model de date care reflectă relația dintre domeniul de studiu și studiul ulterioar al datelor încărcate cu metode (aritmetice) relativ simple, știința datelor presupune că se bazează pe aparatul de statistică matematică, inteligență artificială, învățare automată, adesea fără a încărca mai întâi datele în model. În comparație cu profesia de analist, al cărei scop principal este de a descrie fenomene bazate pe date acumulate cu instrumente de utilizator relativ simple (cum ar fi foi de calcul sau instrumente de clasă de Business Intelligence ), profilul unui data scientist necesită mai puțină concentrare pe conținutul domeniilor subiectului, dar necesită cunoștințe mai profunde în statistică matematică, învățare automată, programare și, în general, un nivel de învățământ superior ( masteri , candidați la științe , doctorat în comparație cu licențiați și specialiști ) [25] .

Programe academice

Cursul Introduction to Data Science de la Universitatea din Washington , publicat pe Coursera , are următoarele secțiuni [26] :

Blocul Data Science al programului de master în Data Science și Management de la Imperial College London include un curs pregătitor pentru Statistică Avansată .  Următoarele discipline sunt incluse direct în cursul de știința datelor:

După cursurile de știință a datelor și de bazele managementului, programul oferă un curs aplicat, împărțit în două fluxuri, managementul riscului , managementul activelor și instrumentele financiare derivate sunt incluse în fluxul financiar și tehnologic, iar  procesarea seturilor de date mari este inclusă în consultanță . stream , analiză de rețea, analiză econometrică , aplicații în servicii și consultanță, energie , sănătate , politică . [17] 

Programul de la Universitatea din Dundee pune accent pe „ datele mari ”, în primul rând spre deosebire de „prelucrarea foilor de calcul”, și se concentrează pe extragerea datelor , modelarea bazelor de date și stocare , statistici , iar limbajele SQL , MDX , R , Erlang , Java sunt studiate în cadrul programul , instrumentele Hadoop și NoSQL [27] .

Note

  1. Press, 2012 , Termenul „data science” (împreună cu „Datalogy”)….
  2. ^ Smith, 2006 .
  3. Dhar, 2013 .
  4. Davenport, 2012 .
  5. 1 2 Press, 2012 .
  6. 12 Smith , 2006 , p. 164.
  7. Naur, 1974 , „Data science este știința de a trata datele, odată ce acestea au fost stabilite, în timp ce relația datelor cu ceea ce reprezintă acestea este delegată altor domenii și științe”.
  8. Press, 2012 , Termenul „știința datelor” (împreună cu „Datalogy”) a fost sugerat pentru prima dată de Peter Naur la sfârșitul anilor 1960.
  9. Zhuravleva, 2012 , „Conform lui F. D. Smith, știința datelor nu a avut un nume până în 1990, dar a început să se dezvolte din 1966, când a fost înființat comitetul interdisciplinar al Consiliului Internațional al Științei privind datele pentru știință și tehnologie.”
  10. Cleveland, 2001 .
  11. Press, 2012 , Termenul „știința datelor” … a fost propus de William S. Cleveland în 2001 ca o nouă disciplină academică, extinzând domeniul statisticii pentru a încorpora „progresele în calculul cu date”.
  12. ↑ Arhiva conferințelor trecute O'Reilly  . O'Reilly Media (2012). Consultat la 2 ianuarie 2013. Arhivat din original pe 26 ianuarie 2013.
  13. Simon Piff. Note de la Data Science Summit: Making Sense of Big Data  (în engleză)  (link nu este disponibil) . Documentul dintr-o privire . IDC (1 iulie 2012). Data accesului: 8 decembrie 2012. Arhivat din original pe 26 ianuarie 2013.
  14. Manyika, James și colab. Big data: următoarea frontieră pentru inovare, concurență și productivitate  (engleză) (PDF). McKinsey Global Institute, iunie 2011 . McKinsey (9 august 2011). Consultat la 12 noiembrie 2011. Arhivat din original la 11 decembrie 2012.
  15. Steven Overly. Pe măsură ce cererea de analiști de date mari crește, școlile se grăbesc să absolve studenți cu abilitățile necesare  (engleză) . Washington Post (16 septembrie 2013). — „Acea cerere a fost precizată într-un raport din iunie 2011 al McKinsey Global Institute”. Consultat la 31 decembrie 2013. Arhivat din original la 13 martie 2016.
  16. Davenport, 2012 , „Goldman este un bun exemplu de nou jucător-cheie în organizații: „data scientist”. Este un profesionist de rang înalt, cu pregătirea și curiozitatea de a face descoperiri în lumea datelor mari”.
  17. 1 2 MSc Data Science & Management  . scoala de afaceri . Colegiul Imperial (1 ianuarie 2013). Data accesului: 18 ianuarie 2013. Arhivat din original la 29 ianuarie 2013.
  18. ↑ UW, Berkeley, NYU colaborează la inițiativa de știință a datelor de 37,8  milioane USD . Universitatea din Washington (12 noiembrie 2013). Data accesului: 31 decembrie 2013. Arhivat din original la 25 decembrie 2013.
  19. Jukov, 2013 , p. 5.
  20. Dhar, 2013 , Data science este studiul extragerii generalizabile a cunoștințelor din date.
  21. Publicat pentru prima dată de Drew Conway în 2010
  22. Jukov, 2013 .
  23. Dhar, 2013 , O cerință epistemică comună în evaluarea dacă noile cunoștințe sunt acționabile pentru luarea deciziilor este puterea sa predictivă, nu doar capacitatea sa de a explica trecutul.
  24. Dhar, 2013 , Răspunsul scurt este știința datelor este diferită de statistică <…> în mai multe moduri importante <…> Pentru început, materia primă, „datele”, parte a științei datelor, este din ce în ce mai eterogene și nestructurată - text, imagini, video - deseori emanate din rețele cu relații complexe între entitățile lor <...> majoritatea datelor generate de oameni și computere astăzi sunt pentru consum de computere; adică computerele fac din ce în ce mai mult lucru de fundal unul pentru celălalt și iau decizii automat. Această scalabilitate în luarea deciziilor a devenit posibilă datorită datelor mari care servesc drept materie primă pentru crearea de noi cunoștințe.
  25. Jukov, 2013 , p. opt.
  26. Bill Howe. Introducere în știința datelor . Coursera (8 decembrie 2012). Preluat la 8 decembrie 2012. Arhivat din original la 5 noiembrie 2012.
  27. MSc in Data Science  (ing.)  (link inaccesibil) . Scoala de calcul . Universitatea Dundee (1 ianuarie 2013). „Un om de știință de date este o persoană care excelează în manipularea și analiza datelor, în special a seturilor mari de date care nu se potrivesc cu ușurință în structurile tabelare (așa-numitele „Big Data”).” Data accesului: 18 ianuarie 2013. Arhivat din original la 22 ianuarie 2013.

Literatură