Hiërarchische clustering verwijst naar een leerprocedure zonder toezicht die opeenvolgende clusters bepaalt op basis van eerder gedefinieerde clusters. Het werkt via het groeperen van gegevens in een boom van clusters. Hiërarchische clusterstatistieken door elk datapunt als een individueel cluster te behandelen. Het eindpunt verwijst naar een andere set clusters, waarbij elk cluster anders is dan het andere cluster, en de objecten binnen elk cluster hetzelfde zijn.
Er zijn twee soorten hiërarchische clustering
- Agglomeratieve hiërarchische clustering
- Verdeeldheidwekkende clustering
Agglomeratieve hiërarchische clustering
Agglomeratieve clustering is een van de meest voorkomende typen hiërarchische clustering die wordt gebruikt om vergelijkbare objecten in clusters te groeperen. Agglomeratieve clustering wordt ook wel AGNES (Agglomerative Nesting) genoemd. Bij agglomeratieve clustering fungeert elk datapunt als een individueel cluster en bij elke stap worden data-objecten gegroepeerd volgens een bottom-up-methode. Aanvankelijk bevindt elk gegevensobject zich in zijn cluster. Bij elke iteratie worden de clusters gecombineerd met verschillende clusters totdat er één cluster ontstaat.
Agglomeratief hiërarchisch clusteralgoritme
- Bepaal de gelijkenis tussen individuen en alle andere clusters. (Zoek nabijheidsmatrix).
- Beschouw elk datapunt als een afzonderlijk cluster.
- Combineer vergelijkbare clusters.
- Bereken de nabijheidsmatrix voor elk cluster opnieuw.
- Herhaal stap 3 en stap 4 totdat u één cluster krijgt.
Laten we dit concept begrijpen met behulp van grafische weergave met behulp van een dendrogram.
Met behulp van de gegeven demonstratie kunnen we begrijpen hoe het daadwerkelijke algoritme werkt. Hier is geen berekening uitgevoerd, omdat er van de nabijheid tussen de clusters wordt uitgegaan.
afhandeling van Java-uitzonderingen
Laten we aannemen dat we zes verschillende gegevenspunten P, Q, R, S, T, V hebben.
Stap 1:
Beschouw elk alfabet (P, Q, R, S, T, V) als een individueel cluster en bepaal de afstand tussen het individuele cluster en alle andere clusters.
Stap 2:
Voeg nu de vergelijkbare clusters samen in één cluster. Laten we zeggen dat cluster Q en Cluster R op elkaar lijken, zodat we ze in de tweede stap kunnen samenvoegen. Tenslotte krijgen we de clusters [ (P), (QR), (ST), (V)]
Stap 3:
Hier berekenen we de nabijheid opnieuw volgens het algoritme en combineren we de twee dichtstbijzijnde clusters [(ST), (V)] samen om nieuwe clusters te vormen als [(P), (QR), (STV)]
Stap 4:
Herhaal hetzelfde proces. De clusters STV en PQ zijn vergelijkbaar en vormen samen een nieuw cluster. Nu hebben we [(P), (QQRSTV)].
Stap 5:
Ten slotte worden de overige twee clusters samengevoegd tot één cluster [(PQRSTV)]
Verdeeldheid zaaiende hiërarchische clustering
Verdeeldheidwekkende hiërarchische clustering is precies het tegenovergestelde van agglomeratieve hiërarchische clustering. Bij Divisive Hiërarchische clustering worden alle datapunten beschouwd als een individueel cluster, en in elke iteratie worden de datapunten die niet vergelijkbaar zijn gescheiden van het cluster. De gescheiden datapunten worden behandeld als een individueel cluster. Uiteindelijk blijven er N-clusters over.
Voordelen van hiërarchische clustering
- Het is eenvoudig te implementeren en levert in sommige gevallen de beste resultaten op.
- Het is gemakkelijk en resulteert in een hiërarchie, een structuur die meer informatie bevat.
- Het is niet nodig dat we het aantal clusters vooraf specificeren.
Nadelen van hiërarchische clustering
- Het breekt de grote clusters.
- Het is moeilijk om clusters en convexe vormen van verschillende grootte te hanteren.
- Het is gevoelig voor ruis en uitschieters.
- Het algoritme kan nooit meer worden gewijzigd of verwijderd als het eerder is gedaan.