K-înseamnă ++

k -means++ este o versiune îmbunătățită a algoritmului de grupare k -means . Esența îmbunătățirii este găsirea unor valori inițiale mai „bune” ale centroizilor clusterului. Mijloacele k originale nu specifică modul în care se realizează acest pas al algoritmului și, prin urmare, este instabilă. Algoritmul a fost propus în 2007 de David Arthur și Sergey Vassilvitsky. Există și alte metode similare descoperite de alți oameni de știință în mod independent.

Inițializare

Alegeți primul centroid la întâmplare (dintre toate punctele)
Pentru fiecare punct, găsiți valoarea pătratului distanței până la cel mai apropiat centroid (dintre cei deja selectați) dx²
Alegeți din aceste puncte următorul centroid, astfel încât probabilitatea de a alege un punct să fie proporțională cu distanța la pătrat calculată pentru acesta.Acest
lucru se poate face după cum urmează. La pasul 2, trebuie să calculați suma Sum(dx²) în paralel cu calculul lui dx². După acumularea sumei, găsiți valoarea Rnd=random(0.0,1.0)*Sum. Rnd va indica aleatoriu un număr din intervalul [0; Sumă), și nu trebuie decât să stabilim cărui punct îi corespunde. Pentru a face acest lucru, trebuie să începeți să numărați din nou suma S (dx²) până când suma depășește Rnd. Odată ce se întâmplă acest lucru, însumarea se oprește și putem lua punctul curent drept centroid.
Atunci când alegeți următorul centroid, nu este necesar să vă asigurați că acesta nu coincide cu unul dintre punctele deja alese ca centroid, deoarece probabilitatea de a reselege un anumit punct este 0.
Repetați pașii 2 și 3 până când sunt găsiți toți centroizii necesari.

În continuare, se execută algoritmul principal k -means .

Implementări

O implementare a limbajului Java este inclusă în populara bibliotecă Apache [1] .

Note

↑ Commons Math: Biblioteca de matematică Apache Commons . Data accesului: 20 septembrie 2013. Arhivat din original pe 6 octombrie 2014. (nedefinit)

Învățare automată și extragerea datelor
Sarcini	Problema de clasificare Învățați fără profesor Învățare asistată de profesor Analiza regresiei AutoML Regulile de asociere Extragerea caracteristicilor Antrenamentul trăsăturilor Antrenament de clasare Derivarea gramaticală Învățare online
Învățarea cu un profesor	metoda k-cel mai apropiat vecin Clasificator naiv Bayes arborele de decizie Suport mașină vectorială Regresie liniara Regresie logistică perceptron Ansambluri de modele Bagare stimularea pădure la întâmplare Metoda vectorială relevantă
analiza grupului	metoda k-means Metoda de grupare fuzzy Gruparea ierarhică algoritmul EM MESTEACĂN VINDECA DBSCAN OPTICA Schimbare medie
Reducerea dimensionalității	Analiza factorilor Metoda componentei principale CCA ICA LDA Expansiunea nenegativă a matricei t-SNE
Prognoza structurală	Modelul probabilistic grafic Rețeaua bayesiană Modelul Markov ascuns CRF
Detectarea anomaliilor	metoda k-cel mai apropiat vecin Nivelul de emisie local
Modele grafice probabilistice	Rețeaua bayesiană Rețeaua Markov Modelul Markov ascuns
Rețele neuronale	Mașină Boltzmann limitată hartă de auto-organizare Funcția de activare Sigmoid softmax Funcția de bază radială Metoda de propagare înapoi Invatare profunda Perceptron multistrat Rețea neuronală recurentă memorie pe termen lung și scurt Bloc recurent controlat Rețeaua neuronală convoluțională U-Net Autoencoder
Consolidarea învățării	procesul Markov Ecuația Bellman Algoritmul lacom Q-learning SARSA Diferența temporală (TD)
Teorie	Teoria Vapnik-Chervonenkis Dilema părtinire-dispersie Teoria învățării computaționale Minimizarea riscului empiric Occam învață Învățarea PAC Teoria învăţării statistice
Reviste și conferințe	NeurIPS ICML ML JMLR ArXiv:cs.LG