Detectarea anomaliilor

Detectarea anomaliilor ( cunoscută și sub denumirea de detecție anormală [1] ) este identificarea în timpul extragerii de date a datelor, evenimentelor sau observațiilor rare care sunt suspecte, deoarece sunt semnificativ diferite de cea mai mare parte a datelor [1] . De obicei, datele anormale caracterizează un fel de problemă, cum ar fi frauda bancară un defect structural, probleme medicale sau erori de text. Anomaliile mai sunt denumite valori aberante , ciudatenii, zgomot, abateri sau excepții [2] .

Discuție generală

Detectarea anomaliilor în contextul detectării utilizării rău intenționate și a intruziunii în rețea, obiectele de interes nu sunt adesea rare , dar arată o explozie neașteptată de activitate. Acest lucru nu se potrivește cu definiția statistică obișnuită a valorii aberante ca obiecte rare și multe metode de detectare a valorii aberante (în special metodele nesupravegheate ) eșuează cu astfel de date până când datele sunt grupate corespunzător. Pe de altă parte, algoritmii de analiză a clusterelor sunt capabili să observe microclusterele formate de un astfel de comportament [3] .

Există o gamă largă de categorii de tehnici de detectare a anomaliilor [4] . Tehnica de detectare a anomaliilor nesupravegheate detectează anomalii în seturile de date de testare neetichetate, în ipoteza că majoritatea setului de date este normal, căutând reprezentanți care se potrivesc mai puțin cu restul setului de date. Tehnica de detectare a anomaliilor supravegheate necesită furnizarea de date etichetate drept „normale” și „anormale” și utilizează antrenamentul clasificatorului (o diferență cheie față de multe alte probleme de clasificare constă în natura dezechilibrată inerentă a detectării valorii anormale). Tehnica de detectare a anomaliilor supravegheate parțial construiește un model reprezentând comportamentul normal dintr-un set dat de set de antrenament normal și apoi testează modelul rezultat pentru plauzibilitate.

Aplicații

Detectarea anomaliilor este aplicabilă într-o gamă largă de domenii, cum ar fi detectarea intruziunilor , detectarea fraudei , detectarea defecțiunilor, monitorizarea sănătății, detectarea evenimentelor în rețelele de senzori și detectarea perturbărilor de mediu. Adesea, detectarea anomaliilor este utilizată pentru a preprocesa datele pentru a elimina anomaliile. În învățarea supravegheată, eliminarea datelor anormale dintr-un set are ca rezultat adesea o creștere statistică semnificativă a preciziei [5] [6] .

Tehnici populare

În literatura de specialitate au fost propuse mai multe tehnici de detectare a anomaliilor [7] . Iată câteva tehnici populare:

Performanța diferitelor metode este dependentă de date și parametri și are un avantaj sistematic mic una față de cealaltă în comparație între mai multe seturi de date și parametri [27] [28] .

Aplicație la protecția datelor

Detectarea anomaliilor a fost propusă pentru sistemele de detectare a intruziunilor de către Dorothy Denning în 1986 [29] . Detectarea anomaliilor pentru sistemele de detectare a intruziunilor se face de obicei cu un prag și statistici, dar se poate face cu soft computing și învățarea inductivă [30] . Tipurile de statistici oferite în 1999 au inclus profiluri de utilizatori, stații de lucru , rețele, gazde la distanță, grupuri de utilizatori și programe bazate pe frecvențe, medii și variații [31] . Echivalentul detectării anomaliilor în detectarea intruziunilor este detectarea utilizării rău intenționate .

Software

Seturi de date

Vezi și

Note

  1. 1 2 Zimek, Schubert, 2017 , p. 1–5.
  2. Hodge, Austin, 2004 , p. 85–126.
  3. Dokas, Ertoz, Kumar et al., 2002 .
  4. Chandola, Banerjee, Kumar, 2009 , p. 1–58.
  5. Tomek, 1976 , p. 448–452.
  6. Smith și Martinez, 2011 , p. 2690.
  7. Zimek, Filzmoser, 2018 , p. e1280.
  8. Knorr, Ng, Tucakov, 2000 , p. 237–253.
  9. Ramaswamy, Rastogi, Shim, 2000 , p. 427.
  10. Angiulli, Pizzuti, 2002 , p. cincisprezece.
  11. Breunig, Kriegel, Ng, Sander, 2000 , p. 93–104.
  12. Liu, Ting, Zhou, 2008 , p. 413–422.
  13. Schubert, Zimek, Kriegel, 2012 , p. 190–237.
  14. Kriegel, Kröger, Schubert, Zimek, 2009 , p. 831.
  15. Kriegel, Kroger, Schubert, Zimek, 2012 , p. 379.
  16. Zimek, Schubert, Kriegel, 2012 , p. 363–387.
  17. Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , p. 1443–71.
  18. 1 2 3 Hawkins, He, Williams, Baxter, 2002 , p. 170–180.
  19. He, Xu, Deng, 2003 , p. 1641–1650
  20. Campello, Moulavi, Zimek, Sander, 2015 , p. 5:1-51.
  21. Lazarevic și Kumar 2005 , p. 157–166.
  22. Nguyen, Ang, Gopalkrishnan, 2010 , p. 368.
  23. Kriegel, Kröger, Schubert, Zimek, 2011 , p. 13–24.
  24. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , p. 1047–1058.
  25. Zimek, Campello, Sander (1), 2014 , p. 11–22.
  26. Zimek, Campello, Sander (2), 2014 , p. unu.
  27. Campos, Zimek, Sander et al., 2016 , p. 891.
  28. Vezi mai jos seturile de date
  29. Denning, 1987 , p. 222–232.
  30. Teng, Chen, Lu, 1990 , p. 278–284.
  31. Jones, Sielken, 1999 .

Literatură