Fuziunea datelor este procesul de combinare a surselor de date pentru a produce informații mai consistente, mai precise și mai utile decât informațiile dintr-o singură sursă [1] .
Procesele de îmbinare a datelor sunt adesea grupate ca fuzionare scăzută, medie sau mare, în funcție de stadiul de procesare în care se realizează fuziunea [2] . Fuziunea de date la nivel scăzut combină unele surse de date brute pentru a produce alte date brute. Datele îmbinate trebuie să fie mai informative și mai sintetice decât datele originale.
De exemplu, colectarea și rezumarea datelor de la senzori este cunoscută sub denumirea de fuziune de date (multi-senzor) și este un subset al fuziunii de informații .
Oamenii sunt un exemplu direct de fuziune a datelor. Ca oameni, ne bazăm în mare măsură pe simțurile noastre, cum ar fi văzul, mirosul , gustul, sunetul și mișcarea fizică. Combinația tuturor acestor simțuri se combină în mod constant pentru a ne ajuta să îndeplinim majoritatea, dacă nu toate, sarcinile din viața noastră de zi cu zi. Adică, acesta este un exemplu direct de fuziune a datelor. Ne bazăm pe fuziunea mirosului, gustului și atingerii alimentelor pentru a ne asigura că este comestibilă. De asemenea, ne bazăm pe viziunea noastră și pe capacitatea noastră de a auzi și de a controla mișcarea corpului nostru pentru a merge sau a conduce o mașină și a îndeplini majoritatea sarcinilor din viața noastră. În toate aceste cazuri, creierul fuzionează și controlează ceea ce avem de făcut în momentul următor. Creierul nostru se bazează pe fuziunea datelor colectate din simțurile de mai sus [3] .
În domeniul geospațial de studiu ( GIS ), fuziunea datelor este adesea sinonimă cu integrarea datelor . În aceste aplicații, este adesea nevoie de a combina diferite seturi de date într-un set de date îmbinat care include toate punctele de date. Seturile de date îmbinate diferă de o simplă îmbinare prin faptul că punctele din setul de date îmbinate conțin atribute și metadate pe care este posibil să nu le aibă punctele din setul de date original.
Un exemplu simplificat al acestui proces este prezentat mai jos, unde setul de date α este îmbinat cu setul de date β, formând un set de date îmbinat δ. Punctele de date din setul α au coordonate spațiale X și Y și atribute A1 și A2. Punctele de date din setul β au coordonate spațiale X și Y și atribute B1 și B2. Setul de date îmbinat conține toate punctele și atributele.
Setul de date de intrare α | Setul de date de intrare β | Setul de date îmbinat δ | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
|
În cazul simplu, când toate atributele sunt uniforme în întreaga zonă, atributele pot fi atribuite simplu: M?, N?, Q?, R? în M, N, Q, R. În aplicațiile reale, atributele nu sunt uniforme și de obicei este nevoie de un fel de interpolare pentru a atribui corect atribute punctelor de date dintr-un set îmbinat.
Într-o aplicație mult mai complexă, cercetătorii de animale marine au folosit fuziunea datelor despre mișcarea animalelor cu date batimetrice și meteorologice , temperatura suprafeței mării habitatul animalelor pentru a vedea și înțelege comportamentul animalelor ca răspuns la influențele externe, cum ar fi vremea și temperatura apei. Fiecare dintre aceste seturi de date reprezintă o grilă spațială și o frecvență de eșantionare diferite, așa că o simplă combinație de date ar da probabil ipoteze nerezonabile și ar încurca analiza. Cu toate acestea, prin îmbinarea datelor, toate datele și atributele sunt reunite într-o singură entitate, ceea ce creează o imagine mai completă a mediului. Acest lucru le permite oamenilor de știință să identifice locațiile și orele cheie și oferă noi perspective asupra interacțiunii dintre mediu și comportamentul animalului.
În imaginea din dreapta, homarii sunt studiati pe malul Mării Tasmaniei. Hugh Pederson de la Universitatea din Tasmania a folosit programe de fuziune a datelor pentru a îmbina datele de urmărire a mișcării homarului din sud codate în galben și negru pentru zi și, respectiv, noaptea în imagine) cu datele batimetrice și habitate într-un model 4-dimensional al comportamentului homarului.
În aplicațiile din afara domeniilor geospațiale, utilizarea termenilor de integrare a datelor și fuziune a datelor diferă. În domenii precum business intelligence, de exemplu, termenul „integrare de date” este folosit pentru a descrie combinația de date, în timp ce termenul „fuziune de date” este o integrare urmată de compactare și înlocuire a datelor. Integrarea datelor poate fi gândită ca o combinație de set în care este reținut un set mai mare, în timp ce fuziunea este o tehnică de reducere a seturilor cu fiabilitate îmbunătățită.
La mijlocul anilor 1980, Joint Directors of Laboratories (JDL) au format Subcomitetul Data Fusion (care mai târziu a devenit cunoscut sub numele de Data Fusion Group , DFG) . Odată cu apariția World Wide Web, fuziunea datelor a început să includă fuziunea senzorilor și fuziunea informațiilor. Grupul JDL/DFIG a introdus un model de fuziune a datelor care este descompus în diferite procese. În prezent, există șase niveluri ale modelului Data Fusion Information Group ( DFIG ):
Nivelul 0: Preprocesare sursă / Evaluare subiect
Nivelul 1 : Evaluarea obiectului _
Nivelul 2 : Evaluarea situației _
Nivelul 3 : Evaluarea impactului ( sau rafinarea amenințării ) _
Nivelul 4 : Rafinarea procesului _
Nivelul 5 : rafinamentul utilizatorului sau rafinamentul cognitiv _ _ _
Deși modelul JDL (nivelurile 1-4) este încă în uz astăzi, este adesea criticat pentru că solicită ca nivelurile să fie implementate în ordinea specificată și pentru că nu reprezintă în mod adecvat participarea umană. Modelul DFIG (nivelurile 0–5) ia în considerare impactul conștientizării mediului, îmbunătățirea utilizatorilor și managementul muncii [4] . În ciuda deficiențelor lor, modelele JDL/DFIG sunt utile pentru vizualizarea procesului de fuziune a datelor, care promovează discuția și înțelegerea comună [5] , și este, de asemenea, importantă pentru dezvoltarea fuziunii informațiilor la nivel de sistem [4] .
Datele de la diferite tehnologii de senzori pot fi combinate inteligent pentru a determina starea exactă a traficului. Abordarea de fuziune a datelor, care utilizează date acustice, imagini și senzori derivate din drum, arată avantajul combinării diferitelor metode individuale [6] .
În multe cazuri, senzorii dispersați geografic sunt sever limitați în ceea ce privește consumul de energie și debitul. Prin urmare, datele brute referitoare la un anumit fenomen sunt adesea reduse la câțiva biți pentru fiecare senzor. Când se deduce un eveniment binar (adică sau ), în cazul extrem, numai soluția binară este trimisă de la senzor la centrul de pooling de decizii și combinată pentru a obține o clasificare îmbunătățită [7] [8] [9] .
Cu un număr mare de senzori încorporați, inclusiv senzori de mișcare, senzori de mediu, senzori de poziție, dispozitivele mobile moderne permit, de obicei, aplicațiilor mobile să acceseze o cantitate mare de date ale senzorilor care pot fi folosite pentru a îmbunătăți gradul de conștientizare a contextului. Utilizarea tehnicilor de procesare a semnalului și fuziune a datelor, cum ar fi generarea de caracteristici, evaluarea fezabilității și analiza componentelor principale pentru a analiza astfel de date ale senzorului, îmbunătățește semnificativ clasificarea mișcării și starea contextuală a dispozitivului [10] .
Date | |
---|---|
|