logo

Hierarchické shlukování v data miningu

Hierarchické shlukování označuje postup učení bez dozoru, který určuje po sobě jdoucí shluky na základě dříve definovaných shluků. Funguje přes seskupování dat do stromu shluků. Hierarchické shlukování statistik tím, že se s každým datovým bodem zachází jako s individuálním shlukem. Koncový bod odkazuje na jinou sadu shluků, kde se každý shluk liší od druhého shluku a objekty v každém shluku jsou navzájem stejné.

Existují dva typy hierarchického shlukování

  • Aglomerativní hierarchické shlukování
  • Divisive Clustering

Aglomerativní hierarchické shlukování

Aglomerativní shlukování je jedním z nejběžnějších typů hierarchického shlukování používaného k seskupování podobných objektů do shluků. Aglomerativní shlukování je také známé jako AGNES (Agglomerative Nesting). Při aglomerativním shlukování se každý datový bod chová jako samostatný shluk a v každém kroku jsou datové objekty seskupeny metodou zdola nahoru. Zpočátku je každý datový objekt ve svém clusteru. Při každé iteraci jsou shluky kombinovány s různými shluky, dokud nevznikne jeden shluk.

css pro tučné písmo

Aglomerativní hierarchický shlukovací algoritmus

  1. Určete podobnost mezi jednotlivci a všemi ostatními shluky. (Najít matici přiblížení).
  2. Považujte každý datový bod za samostatný shluk.
  3. Kombinujte podobné shluky.
  4. Přepočítejte matici přiblížení pro každý shluk.
  5. Opakujte krok 3 a krok 4, dokud nezískáte jeden cluster.

Pojďme pochopit tento koncept pomocí grafického znázornění pomocí dendrogramu.

S pomocí dané ukázky můžeme pochopit, jak samotný algoritmus funguje. Zde nebyl proveden žádný výpočet pod podmínkou, že se předpokládá blízkost mezi shluky.

Předpokládejme, že máme šest různých datových bodů P, Q, R, S, T, V.

Hierarchické shlukování v data miningu

Krok 1:

Považujte každou abecedu (P, Q, R, S, T, V) za samostatný shluk a najděte vzdálenost mezi jednotlivými shluky od všech ostatních shluků.

Krok 2:

Nyní sloučte srovnatelné clustery do jednoho clusteru. Řekněme, že shluk Q a shluk R jsou si navzájem podobné, abychom je mohli ve druhém kroku sloučit. Nakonec dostaneme shluky [ (P), (QR), (ST), (V)]

Krok 3:

Zde přepočítáme blízkost podle algoritmu a spojíme dva nejbližší shluky [(ST), (V)] dohromady, abychom vytvořili nové shluky jako [(P), (QR), (STV)]

Krok 4:

Opakujte stejný postup. Klastry STV a PQ jsou srovnatelné a společně tvoří nový cluster. Nyní máme [(P), (QQRSTV)].

Krok 5:

Nakonec jsou zbývající dva clustery sloučeny a vytvoří jeden cluster [(PQRSTV)]

Divisive Hierarchical Clustering

Divizivní hierarchické shlukování je přesným opakem aglomerativního hierarchického shlukování. V divizivním hierarchickém shlukování jsou všechny datové body považovány za samostatný shluk a v každé iteraci jsou datové body, které si nejsou podobné, od shluku odděleny. Se samostatnými datovými body se zachází jako s jednotlivými shluky. Nakonec nám zbývá N shluků.

Hierarchické shlukování v data miningu

Výhody hierarchického shlukování

  • Jeho implementace je jednoduchá a v některých případech poskytuje nejlepší výstup.
  • Je to snadné a výsledkem je hierarchie, struktura, která obsahuje více informací.
  • Není potřeba, abychom předem specifikovali počet shluků.

Nevýhody hierarchického shlukování

  • Rozbíjí velké shluky.
  • Je obtížné zvládnout různě velké shluky a konvexní tvary.
  • Je citlivý na hluk a odlehlé hodnoty.
  • Algoritmus nelze nikdy změnit nebo smazat, jakmile byl proveden dříve.