Datele întunecate sunt date care sunt colectate automat în timpul activităților de rutină din rețelele de calculatoare, dar nu sunt utilizate în niciun fel pentru a obține informații sau a lua decizii [1] [2] . Capacitatea unei organizații de a colecta date poate depăși debitul cu care poate analiza datele . În unele cazuri, organizația poate să nu fie conștientă de faptul că sunt colectate date [3] . IBM estimează că aproximativ 90% din datele generate de senzori și convertoare A/D nu sunt niciodată utilizate [4] .
Într-un context industrial, datele întunecate pot include informații colectate de senzori și telematică [5] .
Organizațiile stochează date ascunse dintr-o varietate de motive și se estimează că majoritatea companiilor analizează doar 1% din datele lor [6] . Motivele pentru stocarea datelor neutilizate pot include conformitatea cu reglementările [7] și arhivele [1] . Unele organizații consideră că datele ascunse le pot fi utile în viitor, când vor fi disponibile tehnologii de analiză și business intelligence mai avansate [3] . Deoarece stocarea este ieftină, stocarea datelor este ușoară. Cu toate acestea, stocarea și protecția datelor implică de obicei costuri mai mari decât profitul potențial.
Profesorul David Hand de la Imperial College London folosește termenul „date întunecate” pentru a se referi la datele lipsă: „datele întunecate sunt date pe care nu le aveți” [8] [a] .
O mulțime de date întunecate sunt nestructurate, ceea ce înseamnă că informațiile sunt prezentate în formate care pot fi greu de clasificat, citit de un computer și astfel analizat. Adesea, motivul pentru care o afacere nu își analizează datele întunecate este cantitatea de resurse de care va avea nevoie și dificultatea de a analiza acele date. Potrivit Computer Weekly , 60% dintre organizații spun că propriile capacități BI sunt „inadecvate” și 65% spun că au „abordări oarecum dezorganizate ale managementului conținutului” 10] .
Datele utile care și-au pierdut relevanța în timp pot intra și ele în categoria datelor întunecate. Acest lucru se datorează vitezei insuficiente de procesare a datelor. De exemplu, dacă geolocalizarea unui client este cunoscută de business, compania poate face o ofertă bazată pe locație, totuși, dacă aceste date nu sunt procesate imediat, este posibil să nu fie relevante în viitor. Potrivit IBM, aproximativ 60 la sută din datele colectate își pierd imediat valoarea [4] .
Potrivit New York Times , 90% din energia folosită de centrele de date este risipită [11] . Evitarea stocării redundante de date ar economisi costurile energetice. În plus, există costuri asociate cu subutilizarea informațiilor și, ca urmare, oportunități pierdute. Potrivit Datamation, „datele stocate în organizațiile membre EMEA sunt 54% date întunecate, 32% date redundante, învechite și triviale și doar 14% din orice valoare. Începând cu 2020, stocarea datelor redundante costă aproximativ 900 de miliarde de dolari SUA [12]. ] .
Stocarea permanentă a datelor întunecate poate pune o organizație în pericol, mai ales dacă datele sunt sensibile. Scurgerea de date poate duce la consecințe grave: financiare, juridice și reputaționale. De exemplu, scurgerea datelor personale ale clienților poate duce la furtul masiv de identitate . Un alt exemplu ar fi scurgerea de informații sensibile ale unei companii, cum ar fi cele legate de cercetare și dezvoltare . Aceste riscuri pot fi atenuate prin evaluarea și verificarea nevoii de date pentru organizație și prin utilizarea unei criptări puternice și a altor măsuri de securitate [13] . Ștergerea datelor inutile ar trebui făcută în așa fel încât să nu poată fi restaurate [14] .
Este în general acceptat că, pe măsură ce sunt create sisteme de calcul mai avansate, valoarea datelor întunecate va crește. Există opinia că datele și analiza lor vor deveni baza unei noi revoluții industriale [5] . Datele potențial utile includ și ceea ce este considerat în prezent „date întunecate”, deoarece nu există suficiente resurse pentru a le procesa. Toate aceste date pot fi folosite în viitor pentru a asigura performanța maximă și capacitatea organizațiilor de a răspunde nevoilor clienților. Organizațiile de sănătate și educație care se ocupă de cantități mari de date pot beneficia în special de prelucrarea datelor neutilizate în viitor [15] .