Metoda k-mediană

Metoda -median [1] [2] este o variație a metodei -averages  utilizată în statistică și învățare automată pentru probleme de clustering , unde mediana este calculată în loc de medie pentru a determina centroidul clusterului . Această abordare corespunde minimizării erorii asupra tuturor clusterelor într-o metrică cu 1 normă , în loc de metrica cu 2 norme utilizată în metoda standard - mijloace.

Sarcina determinării -medianelor este de a găsi astfel de centre încât clusterele formate de acestea să fie cele mai „compacte”. În mod formal, având în vedere punctele de date , centrele ar trebui alese astfel încât să se minimizeze suma distanțelor de la fiecare la cel mai apropiat .

Metoda uneori funcționează mai bine decât metoda -means, unde suma distanțelor pătrate este minimizată. Criteriul sumei distanțelor este utilizat pe scară largă pentru problemele de transport [3] .

O altă alternativă este metoda -medoids , în care se caută medoidul optim , și nu mediana clusterului (medoidul este unul dintre punctele de date, în timp ce medianele nu trebuie să fie).

Link -uri

  1. A. K. Jain și R. C. Dubes, Algoritmi pentru gruparea datelor: Prentice-Hall, 1981.
  2. PS Bradley, OL Mangasarian și WN Street, „Clustering via Concave Minimization”, în Advances in Neural Information Processing Systems, vol. 9, MC Mozer, MI Jordan și T. Petsche, Eds. Cambridge, MA: MIT Press, 1997, pp. 368-374.
  3. Copie arhivată . Consultat la 24 octombrie 2010. Arhivat din original la 3 aprilie 2022.