Detectarea anomaliilor
Detectarea anomaliilor ( cunoscută și sub denumirea de detecție anormală [1] ) este identificarea în timpul extragerii de date a datelor, evenimentelor sau observațiilor rare care sunt suspecte, deoarece sunt semnificativ diferite de cea mai mare parte a datelor [1] . De obicei, datele anormale caracterizează un fel de problemă, cum ar fi frauda bancară un defect structural, probleme medicale sau erori de text. Anomaliile mai sunt denumite valori aberante , ciudatenii, zgomot, abateri sau excepții [2] .
Discuție generală
Detectarea anomaliilor în contextul detectării utilizării rău intenționate și a intruziunii în rețea, obiectele de interes nu sunt adesea rare , dar arată o explozie neașteptată de activitate. Acest lucru nu se potrivește cu definiția statistică obișnuită a valorii aberante ca obiecte rare și multe metode de detectare a valorii aberante (în special metodele nesupravegheate ) eșuează cu astfel de date până când datele sunt grupate corespunzător. Pe de altă parte, algoritmii de analiză a clusterelor sunt capabili să observe microclusterele formate de un astfel de comportament [3] .
Există o gamă largă de categorii de tehnici de detectare a anomaliilor [4] . Tehnica de detectare a anomaliilor nesupravegheate detectează anomalii în seturile de date de testare neetichetate, în ipoteza că majoritatea setului de date este normal, căutând reprezentanți care se potrivesc mai puțin cu restul setului de date. Tehnica de detectare a anomaliilor supravegheate necesită furnizarea de date etichetate drept „normale” și „anormale” și utilizează antrenamentul clasificatorului (o diferență cheie față de multe alte probleme de clasificare constă în natura dezechilibrată inerentă a detectării valorii anormale). Tehnica de detectare a anomaliilor supravegheate parțial construiește un model reprezentând comportamentul normal dintr-un set dat de set de antrenament normal și apoi testează modelul rezultat pentru plauzibilitate.
Aplicații
Detectarea anomaliilor este aplicabilă într-o gamă largă de domenii, cum ar fi detectarea intruziunilor , detectarea fraudei , detectarea defecțiunilor, monitorizarea sănătății, detectarea evenimentelor în rețelele de senzori și detectarea perturbărilor de mediu. Adesea, detectarea anomaliilor este utilizată pentru a preprocesa datele pentru a elimina anomaliile. În învățarea supravegheată, eliminarea datelor anormale dintr-un set are ca rezultat adesea o creștere statistică semnificativă a preciziei [5] [6] .
Tehnici populare
În literatura de specialitate au fost propuse mai multe tehnici de detectare a anomaliilor [7] . Iată câteva tehnici populare:
Performanța diferitelor metode este dependentă de date și parametri și are un avantaj sistematic mic una față de cealaltă în comparație între mai multe seturi de date și parametri [27] [28] .
Aplicație la protecția datelor
Detectarea anomaliilor a fost propusă pentru sistemele de detectare a intruziunilor de către Dorothy Denning în 1986 [29] . Detectarea anomaliilor pentru sistemele de detectare a intruziunilor se face de obicei cu un prag și statistici, dar se poate face cu soft computing și învățarea inductivă [30] . Tipurile de statistici oferite în 1999 au inclus profiluri de utilizatori, stații de lucru , rețele, gazde la distanță, grupuri de utilizatori și programe bazate pe frecvențe, medii și variații [31] . Echivalentul detectării anomaliilor în detectarea intruziunilor este detectarea utilizării rău intenționate .
Software
Seturi de date
Vezi și
Note
- ↑ 1 2 Zimek, Schubert, 2017 , p. 1–5.
- ↑ Hodge, Austin, 2004 , p. 85–126.
- ↑ Dokas, Ertoz, Kumar et al., 2002 .
- ↑ Chandola, Banerjee, Kumar, 2009 , p. 1–58.
- ↑ Tomek, 1976 , p. 448–452.
- ↑ Smith și Martinez, 2011 , p. 2690.
- ↑ Zimek, Filzmoser, 2018 , p. e1280.
- ↑ Knorr, Ng, Tucakov, 2000 , p. 237–253.
- ↑ Ramaswamy, Rastogi, Shim, 2000 , p. 427.
- ↑ Angiulli, Pizzuti, 2002 , p. cincisprezece.
- ↑ Breunig, Kriegel, Ng, Sander, 2000 , p. 93–104.
- ↑ Liu, Ting, Zhou, 2008 , p. 413–422.
- ↑ Schubert, Zimek, Kriegel, 2012 , p. 190–237.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2009 , p. 831.
- ↑ Kriegel, Kroger, Schubert, Zimek, 2012 , p. 379.
- ↑ Zimek, Schubert, Kriegel, 2012 , p. 363–387.
- ↑ Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , p. 1443–71.
- ↑ 1 2 3 Hawkins, He, Williams, Baxter, 2002 , p. 170–180.
- ↑ He, Xu, Deng, 2003 , p. 1641–1650
- ↑ Campello, Moulavi, Zimek, Sander, 2015 , p. 5:1-51.
- ↑ Lazarevic și Kumar 2005 , p. 157–166.
- ↑ Nguyen, Ang, Gopalkrishnan, 2010 , p. 368.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2011 , p. 13–24.
- ↑ Schubert, Wojdanowski, Zimek, Kriegel, 2012 , p. 1047–1058.
- ↑ Zimek, Campello, Sander (1), 2014 , p. 11–22.
- ↑ Zimek, Campello, Sander (2), 2014 , p. unu.
- ↑ Campos, Zimek, Sander et al., 2016 , p. 891.
- ↑ Vezi mai jos seturile de date
- ↑ Denning, 1987 , p. 222–232.
- ↑ Teng, Chen, Lu, 1990 , p. 278–284.
- ↑ Jones, Sielken, 1999 .
Literatură
- Arthur Zimek, Erich Schubert. Detectarea valorii aberante // Enciclopedia sistemelor de baze de date . - Springer New York, 2017. - ISBN 9781489979933 . - doi : 10.1007/978-1-4899-7993-3_80719-1 .
- Hodge VJ, Austin J. A Survey of Outlier Detection Methodologies // Artificial Intelligence Review. - 2004. - T. 22 , nr. 2 . - doi : 10.1007/s10462-004-4304-y .
- Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava, Pang-Ning Tan. Exploatarea datelor pentru detectarea intruziunilor în rețea // Proceedings NSF Workshop on Next Generation Data Mining. — 2002.
- Chandola V., Banerjee A., Kumar V. Detectarea anomaliilor: un sondaj // ACM Computing Surveys . - 2009. - T. 41 , nr. 3 . - doi : 10.1145/1541880.1541882 .
- Ivan Tomek. Un experiment cu regula editată pentru cel mai apropiat vecin // Tranzacții IEEE privind sistemele, omul și cibernetica . - 1976. - T. 6 , nr. 6 . - doi : 10.1109/TSMC.1976.4309523 .
- Smith MR, Martinez T. Îmbunătățirea acurateței clasificării prin identificarea și eliminarea instanțelor care ar trebui clasificate greșit // Conferința comună internațională din 2011 privind rețelele neuronale . - 2011. - ISBN 978-1-4244-9635-8 . - doi : 10.1109/IJCNN.2011.6033571 .
- Arthur Zimek, Peter Filzmoser. Iar și înapoi: Detectarea valorii aberante între raționamentul statistic și algoritmii de extragere a datelor // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. - 2018. - V. 8 , nr. 6 . — ISSN 19424787 . - doi : 10.1002/widm.1280 .
- Knorr EM, Ng RT, Tucakov V. Valori aberante bazate pe distanță: algoritmi și aplicații // The VLDB Journal the International Journal on Very Large Data Bases. - 2000. - T. 8 , nr. 3–4 . - doi : 10.1007/s007780050006 .
- Ramaswamy S., Rastogi R., Shim K. Algoritmi eficienți pentru mining outliers din seturi mari de date // Proceedings of the 2000 ACM SIGMOD international Conference on Management of data – SIGMOD '00. - 2000. - ISBN 1-58113-217-4 . - doi : 10.1145/342009.335437 .
- Angiulli F., Pizzuti C. Fast Outlier Detection in High Dimensional Spaces // Principles of Data Mining and Knowledge Discovery. - 2002. - T. 2431. - (Note de curs în Informatică). — ISBN 978-3-540-44037-6 . - doi : 10.1007/3-540-45681-3_2 .
- Breunig MM, Kriegel H.-P., Ng RT, Sander J. LOF: Identificarea valorilor aberante locale bazate pe densitate // Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data . - 2000. - ( SIGMOD ). — ISBN 1-58113-217-4 . - doi : 10.1145/335191.335388 .
- Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. Pădurea de izolare // 2008 A opta conferință internațională IEEE privind extragerea datelor. - 2008. - ISBN 9780769535029 . - doi : 10.1109/ICDM.2008.17 .
- Schubert E., Zimek A., Kriegel H.-P. Detectarea valorii aberante locale a fost reconsiderată: O vedere generalizată asupra localității cu aplicații pentru detectarea valorii anormale în spațiu, video și rețea // Miningul de date și descoperirea cunoștințelor. - 2012. - T. 28 . - doi : 10.1007/s10618-012-0300-z .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data // Advances in Knowledge Discovery and Data Mining. - 2009. - T. 5476. - (Note de curs în Informatică). - ISBN 978-3-642-01306-5 . - doi : 10.1007/978-3-642-01307-2_86 .
- Kriegel HP, Kroger P., Schubert E., Zimek A. Outlier Detection in Arbitrarily Oriented Subspaces // 2012 IEEE 12th International Conference on Data Mining. - 2012. - ISBN 978-1-4673-4649-8 . - doi : 10.1109/ICDM.2012.21 .
- Zimek A., Schubert E., Kriegel H.-P. Un sondaj privind detectarea nesupravegheată a valorii aberante în date numerice cu dimensiuni mari // Analiză statistică și extragere de date. - 2012. - V. 5 , nr. 5 . - doi : 10.1002/sam.11161 .
- Schölkopf B., Platt JC, Shawe-Taylor J., Smola AJ, Williamson R.C. Estimarea suportului unei distribuții înalte dimensiuni // Calcul neuronal. - 2001. - T. 13 , nr. 7 . doi : 10.1162 / 089976601750264965 . — PMID 11440593 .
- Simon Hawkins, Hongxing He, Graham Williams, Rohan Baxter. Detectarea valorii aberante folosind rețelele neuronale replicatoare // Depozitarea datelor și descoperirea cunoștințelor. - 2002. - T. 2454. - (Note de curs în Informatică). - ISBN 978-3-540-44123-6 . - doi : 10.1007/3-540-46145-0_17 .
- He Z., Xu X., Deng S. Discovering cluster-based local outliers // Pattern Recognition Letters. - 2003. - T. 24 , nr. 9–10 . - doi : 10.1016/S0167-8655(03)00003-5 .
- Campello RJGB, Moulavi D., Zimek A., Sander J. Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection // ACM Transactions on Knowledge Discovery from Data. - 2015. - T. 10 , nr. 1 . - doi : 10.1145/2733381 .
- Lazarevic A., Kumar V. Caracteristici de însac pentru detectarea valorii aberante // Proc. A 11-a Conferință Internațională ACM SIGKDD privind descoperirea cunoștințelor în minarea datelor. - 2005. - ISBN 978-1-59593-135-1 . - doi : 10.1145/1081870.1081891 .
- Nguyen HV, Ang HH, Gopalkrishnan V. Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces // Sisteme de baze de date pentru aplicații avansate. - 2010. - T. 5981. - (Note de curs în Informatică). - ISBN 978-3-642-12025-1 . - doi : 10.1007/978-3-642-12026-8_29 .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Interpreting and Unifying Outlier Scores // Proceedings of the 2011 SIAM International Conference on Data Mining . - 2011. - ISBN 978-0-89871-992-5 . - doi : 10.1137/1.9781611972818.2 .
- Schubert E., Wojdanowski R., Zimek A., Kriegel HP On Evaluation of Outlier Rankings and Outlier Scores // Proceedings of the 2012 SIAM International Conference on Data Mining . - 2012. - ISBN 978-1-61197-232-0 . - doi : 10.1137/1.9781611972825.90 .
- Zimek A., Campello RJGB, Sander JR Ensembles for unsupervised outlier detection // Buletin informativ ACM SIGKDD Explorations. - 2014. - T. 15 . - doi : 10.1145/2594473.2594476 .
- Zimek A., Campello RJGB, Sander JR Perturbarea datelor pentru ansambluri de detectare anormale // Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14. - 2014. - ISBN 978-1-4503-2722-0 . - doi : 10.1145/2618243.2618257 .
- Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo JGB Campello, Barbora Micenková, Erich Schubert, Ira Assent, Michael E. Houle. Despre evaluarea detectării nesupravegheate a valorii aberante: măsuri, seturi de date și un studiu empiric // Data Mining and Knowledge Discovery. - 2016. - T. 30 , nr. 4 . - ISSN 1384-5810 . - doi : 10.1007/s10618-015-0444-8 .
- Denning DE Un model de detectare a intruziunilor // Tranzacții IEEE privind ingineria software . - 1987. - T. SE-13 , nr. 2 . - doi : 10.1109/TSE.1987.232894 .
- Teng HS, Chen K., Lu SC Detectarea adaptivă a anomaliilor în timp real folosind modele secvențiale generate inductiv // Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy. - 1990. - ISBN 978-0-8186-2060-7 . - doi : 10.1109/RISP.1990.63857 .
- Anita K. Jones, Robert S. Sielken. Detectarea intruziunilor în sistemul informatic: un sondaj // Raport tehnic, Departamentul de Informatică,. - Universitatea din Virginia, Charlottesville, VA, 1999.