Wat ass k-heescht Clustering?

Data Mining mat dem k-heescht Algorithmus

Den k- heescht Cluster-Algorithmus ass e Donneschden a Maschinn Léierinstrument fir d'Beobachtung vu Cluster a Gruppen vun Bezéechnungen ouni Ënnerkennung vu Relatiounen ze benotzen. Duerch d'Entstoen ass de Algorithmus versicht ze gesinn an wéi eng Kategorie oder Cluster d'Donnéeën gehéieren, mat der Unzuel vun Cluster déi duerch den Wert k definéiert sinn.

Den k- heescht Algorithmus ass eng vun de simpelsten clustering Techniken an et gëtt allgemeng an der medizinescher Imaging, Biometrie a mat verwandten Felder benotzt. De Virdeel vu K- heescht Clustering, datt et iwwer Är Donnéeën (mat senger netupvisiséierter Form) erzielt gëtt anstatt datt Dir den Algorithmus iwwer d'Daten am Ufank uginn hutt (déi verwaltete Form vum Algorithmus benotzen).

Et gëtt heiansdo als Lloyd-Algorithmus bezeechent, besonnesch an Informatikkreescher, well de Standardalgorithmus éischtens vum Stuart Lloyd am Joer 1957 proposéiert gouf. Den Term "K-Moyen" gouf 1967 vum James McQueen entwéckelt.

Wéi den k-heescht Algorithmusfunktiounen

Den k- heescht Algorithmus ass e evolutiver Algorithmus, deen säin Numm aus senger Method vun der Operatioun gewënnt. D'Algorithmusclustersbeobachtungen zu k Gruppen, wou k als en Input- Parameter gëtt. Et weist all Observatioun zu Cluster déi op der Approche vun der Observatioun baséiert op d'Mëttel vum Cluster. De Grupp vun der Grupp ass dann ëmgeformt an de Prozess beginn erem. Hei ass wéi de Algorithmus funktionnéiert:

  1. De Algorithmus wählt d' K Punkte wéi déi éischt Clusterzentren (déi Moyenen).
  2. All Punkt am Dataset ass dem zouene Cluster zugewiesen, baséiert op der euklidescher Distanz tëscht all Punkt an all Clusterzentrum.
  3. All Cluster Center gëtt berechnet wéi den Duerchschnëtt vun den Punkten an dësem Cluster.
  4. Schrëtt 2 an 3 ze widderhuelen, bis d'Cluster sech konvergéieren. D'Konvergenz kann ënnerschiddlech ofhängeg vun der Implementatioun definéiert sinn, awer et ass normalerweis, datt entweder keng Beobachtungen Cluster änneren, wann d'Schrëtt 2 a 3 repetéiert ginn oder datt d'Ännerungen net en materielle Ënnerscheed an der Definitioun vun de Cluster maachen.

Wiel vun der Cluster

Ee vun den Haaptnachwierkunge fir k- heescht Clustering ass datt Dir d'Zuel vu Cluster als Input fir den Algorithmus festleet. Wéi entwéckelt, ass den Algorithmus net fähig ze entscheede fir d'adequat Zuel vu Cluster z'integréieren an hänkt vum Benotzer of, fir dat am Viraus ze identifizéieren.

Zum Beispill, wann Dir eng Grupp vu Leit hutt, déi iwwer d'binäre Geschlecht Identitéit als männlech oder weiblech agefouert ginn sinn, an den Algorithmus vum K- Moyenne nennt, deen den Input k = 3 nennt, géif d'Leit an dräi Cluster nëmme zwéi sinn, oder Input vu k = 2, géif e méi natiirlecht Passwuert.

Ähnlech wéi wann eng Grupp vun Individuen einfach op Basis vum Heemechtsstaat ugespuert hunn an Dir den Algorithmus mat der Input k = 20 genannt huet, kënnen d'Resultater ze generaliséierbar sinn fir effektiv ze sinn.

Aus dësem Grond ass et oft eng gutt Idee fir Experienz mat ënnerschiddleche Wäerter vu K ze identifizéieren déi Wäert, déi am beschten entsprécht. Dir wëllt och d'Wuerenaustausch vun anere Donnergréisstelgorithmen un der Sich no Maschinn erliewen.