Metoda k-cel mai apropiat vecin

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 26 septembrie 2019; verificările necesită 5 modificări .

Algoritmul -nearest neighbors ( k-NN) este un algoritm metric pentru clasificarea sau regresia automată a obiectelor . 

În cazul utilizării metodei de clasificare, obiectul este atribuit clasei care este cea mai comună între vecinii acestui element, ale cărei clase sunt deja cunoscute. În cazul utilizării metodei de regresie , obiectului i se atribuie valoarea medie a obiectelor cele mai apropiate de el, ale căror valori sunt deja cunoscute.

Algoritmul poate fi aplicat mostrelor cu un număr mare de atribute (multidimensionale). Pentru a face acest lucru, înainte de a aplica, trebuie să definiți funcția de distanță ; versiunea clasică a unei astfel de funcții este metrica euclidiană [1] [2] .

Normalizare

Diferite atribute pot avea diferite intervale de valori reprezentate în eșantion (de exemplu, atributul A este reprezentat în intervalul de la 0,1 la 0,5, iar atributul B este reprezentat în intervalul de la 1000 la 5000), apoi valorile distanței poate fi foarte dependent de atribute cu intervale mai mari. Prin urmare, datele sunt de obicei supuse normalizării. În analiza clusterului, există două modalități principale de normalizare a datelor: normalizarea minimax și normalizarea Z.

Normalizarea Minimax se face după cum urmează:

,

în acest caz, toate valorile se vor situa în intervalul de la 0 la 1; valorile binare discrete sunt definite ca 0 și 1.

Normalizare Z:

unde  este abaterea standard ; în acest caz, majoritatea valorilor se vor încadra în intervalul .

Evidențierea atributelor semnificative

Unele atribute semnificative pot fi mai importante decât altele, astfel încât o anumită pondere poate fi atribuită fiecărui atribut (de exemplu, calculată folosind un eșantion de testare și optimizarea erorii de varianță). Astfel, fiecărui atribut i se va atribui o pondere , astfel încât valoarea atributului să se încadreze în interval (pentru valori normalizate folosind metoda minimax). De exemplu, dacă unui atribut i se atribuie o pondere de 2,7, atunci valoarea sa ponderată normalizată se va afla în intervalul

Mod ponderat

Cu o metodă ponderată, se ia în considerare nu numai numărul anumitor clase care au căzut în zonă, ci și distanța acestora față de noua valoare.

Pentru fiecare clasă se determină un punctaj de proximitate:

,

unde  este distanța de la noua valoare la obiect .

Care clasă are o valoare de proximitate mai mare, acea clasă este atribuită noului obiect.

Folosind metoda, puteți calcula valoarea unuia dintre atributele obiectului clasificat pe baza distanțelor de la obiectele care au căzut în zonă și a valorilor corespunzătoare ale aceluiași atribut pentru obiecte:

,

unde  este al-lea obiect care a căzut în zonă,  este valoarea atributului obiectului dat ,  este noul obiect și  este al-lea atribut al noului obiect.

Link -uri

  1. S. Madeh Piryonesi, Tamer E. El-Diraby. Rolul analizei datelor în gestionarea activelor de infrastructură: depășirea problemelor legate de dimensiunea și calitatea datelor  //  Journal of Transportation Engineering, Part B: Pavements. — 2020-06. — Vol. 146 , iss. 2 . — P. 04020022 . — ISSN 2573-5438 2573-5438, 2573-5438 . - doi : 10.1061/JPEODX.0000175 . Arhivat 12 aprilie 2020.
  2. Hastie, Trevor. Elementele învățării statistice: extragerea datelor, inferența și predicția: cu 200 de ilustrații color . - New York: Springer, 2001. - xvi, 533 pagini p. - ISBN 0-387-95284-5 , 978-0-387-95284-0. Arhivat pe 9 august 2020 la Wayback Machine