logo

Strojové učení bez dozoru

V předchozím tématu jsme se naučili supervidované strojové učení, ve kterém jsou modely trénovány pomocí označených dat pod dohledem trénovacích dat. Může však nastat mnoho případů, kdy nemáme označená data a potřebujeme najít skryté vzory z daného datového souboru. K vyřešení takových typů případů ve strojovém učení tedy potřebujeme techniky učení bez dozoru.

Co je učení bez dozoru?

Jak název napovídá, učení bez dozoru je technika strojového učení, ve které modely nejsou pod dohledem pomocí trénovací datové sady. Místo toho modely samy najdou skryté vzorce a poznatky z daných dat. Dá se to přirovnat k učení, které probíhá v lidském mozku při učení se novým věcem. Lze jej definovat jako:

rozdíl v datech v excelu
Učení bez dohledu je typ strojového učení, ve kterém jsou modely trénovány pomocí neoznačené datové sady a mohou s těmito daty jednat bez jakéhokoli dohledu.

Učení bez dohledu nelze přímo aplikovat na regresní nebo klasifikační problém, protože na rozdíl od učení pod dohledem máme vstupní data, ale žádná odpovídající výstupní data. Cílem učení bez dozoru je najít základní strukturu datové sady, seskupit tato data podle podobností a reprezentovat tuto datovou sadu v komprimovaném formátu .

Příklad: Předpokládejme, že algoritmus učení bez dozoru dostane vstupní datovou sadu obsahující obrázky různých typů koček a psů. Algoritmus není nikdy trénován na danou datovou sadu, což znamená, že nemá žádnou představu o vlastnostech datové sady. Úkolem algoritmu učení bez dozoru je samostatně identifikovat vlastnosti obrazu. Algoritmus učení bez dozoru provede tento úkol shlukováním datové sady obrázků do skupin podle podobností mezi obrázky.

Strojové učení pod dohledem

Proč používat učení bez dozoru?

Níže jsou uvedeny některé hlavní důvody, které popisují důležitost učení bez dozoru:

  • Učení bez dozoru je užitečné při hledání užitečných poznatků z dat.
  • Učení bez dozoru je velmi podobné tomu, kdy se člověk učí myslet na základě vlastních zkušeností, což ho přibližuje skutečné umělé inteligenci.
  • Učení bez dozoru funguje na neoznačených a nekategorizovaných datech, díky kterým je učení bez dozoru důležitější.
  • V reálném světě nemáme vždy vstupní data s odpovídajícím výstupem, takže k řešení takových případů potřebujeme učení bez dozoru.

Fungování nekontrolovaného učení

Fungování učení bez dozoru lze pochopit z níže uvedeného diagramu:

Strojové učení pod dohledem

Zde jsme vzali neoznačená vstupní data, což znamená, že nejsou kategorizována a odpovídající výstupy také nejsou uvedeny. Nyní jsou tato neoznačená vstupní data přiváděna do modelu strojového učení za účelem jeho trénování. Nejprve bude interpretovat nezpracovaná data, aby našel skryté vzory z dat, a poté použije vhodné algoritmy, jako je shlukování k-means, rozhodovací strom atd.

bash pro smyčku

Jakmile algoritmus aplikuje vhodný algoritmus, rozdělí datové objekty do skupin podle podobností a rozdílů mezi objekty.

Typy algoritmu učení bez dozoru:

Algoritmus učení bez dozoru lze dále rozdělit do dvou typů problémů:

Strojové učení pod dohledem
    Shlukování: Shlukování je metoda seskupování objektů do shluků tak, že objekty s většinou podobností zůstávají ve skupině a mají menší nebo žádné podobnosti s objekty jiné skupiny. Clusterová analýza najde společné rysy mezi datovými objekty a kategorizuje je podle přítomnosti a nepřítomnosti těchto společných prvků.Sdružení: Asociační pravidlo je metoda učení bez dozoru, která se používá k nalezení vztahů mezi proměnnými ve velké databázi. Určuje sadu položek, které se v datové sadě vyskytují společně. Asociační pravidlo zefektivňuje marketingovou strategii. Například lidé, kteří si koupí X položky (předpokládejme chléb), mají také tendenci kupovat Y (máslo/džem). Typickým příkladem asociačního pravidla je analýza tržního koše.

Poznámka: Tyto algoritmy se naučíme v dalších kapitolách.

Algoritmy učení bez dozoru:

Níže je uveden seznam některých oblíbených algoritmů učení bez dozoru:

    K-znamená shlukování KNN (k-nejbližší sousedé) Hierarchální shlukování Detekce anomálií Neuronové sítě Princip analýzy komponent Nezávislá analýza komponent Apriori algoritmus Dekompozice singulární hodnoty

Výhody učení bez dozoru

  • Učení bez dozoru se používá pro složitější úkoly ve srovnání s učením pod dohledem, protože při učení bez dozoru nemáme označená vstupní data.
  • Upřednostňuje se učení bez dozoru, protože je snadné získat neoznačená data ve srovnání s označenými daty.

Nevýhody učení bez dozoru

  • Učení bez dohledu je ze své podstaty obtížnější než učení pod dohledem, protože nemá odpovídající výstup.
  • Výsledek algoritmu učení bez dozoru může být méně přesný, protože vstupní data nejsou označena a algoritmy předem neznají přesný výstup.