UČENÍ POD DOHLEDEM A BEZ DOZORU

Strojové učení je obor informatiky, který dává počítačům schopnost učit se, aniž by byly výslovně naprogramovány. Učení pod dohledem a učení bez dozoru jsou dva hlavní typy strojové učení .

v učení pod dohledem , stroj je trénován na sadě označených dat, což znamená, že vstupní data jsou spárována s požadovaným výstupem. Stroj se pak naučí předpovídat výstup pro nová vstupní data. Učení pod dohledem se často používá pro úkoly, jako je klasifikace, regrese a detekce objektů.

Při učení bez dozoru je stroj trénován na sadě neoznačených dat, což znamená, že vstupní data nejsou spárována s požadovaným výstupem. Stroj se pak naučí v datech hledat vzory a vztahy. Učení bez dozoru je často využíváno pro úkoly jako např shlukování , redukce rozměrů a detekce anomálií.

Co je supervizované učení?

Učení pod dohledem je typ algoritmus strojového učení který se učí z označených dat. Označená data jsou data, která byla označena správnou odpovědí nebo klasifikací.

Učení pod dohledem, jak název napovídá, má jako učitel přítomnost vedoucího. Učení pod dohledem je, když učíme nebo trénujeme stroj pomocí dat, která jsou dobře označena. Což znamená, že některá data jsou již označena správnou odpovědí. Poté je stroj vybaven novou sadou příkladů (dat), takže algoritmus učení pod dohledem analyzuje trénovací data (soubor trénovacích příkladů) a vytváří správný výsledek z označených dat.

Například označená datová sada obrázků slona, velblouda a krávy by měla každý obrázek označen buď slonem , nebo velbloudí krávou.

Učení pod dohledem

Klíčové body:

Učení pod dohledem zahrnuje trénování stroje na základě označených dat.
Označené údaje se skládají z příkladů se správnou odpovědí nebo klasifikací.
Stroj se učí vztah mezi vstupy (obrázky ovoce) a výstupy (štítky ovoce).
Vycvičený stroj pak může předpovídat nová, neoznačená data.

Příklad:

Řekněme, že máte košík s ovocem, který chcete identifikovat. Stroj nejprve analyzuje obraz, aby extrahoval prvky, jako je jeho tvar, barva a textura. Potom by tyto vlastnosti porovnal s vlastnostmi ovoce, o kterých se již dozvěděl. Pokud jsou vlastnosti nového obrázku nejvíce podobné vlastnostem jablka, stroj by předpověděl, že ovoce je jablko.

aws sns

Například Předpokládejme, že dostanete košík plný různých druhů ovoce. Nyní je prvním krokem trénovat stroj se všemi různými druhy ovoce jeden po druhém takto:

Pokud je tvar objektu zaoblený a má nahoře prohlubeň, má červenou barvu, bude označen jako – Jablko .
Pokud je tvar objektu dlouhý zakřivený válec se zeleno-žlutou barvou, bude označen jako – Banán .

Nyní předpokládejme, že po naučení dat jste dali nové samostatné ovoce, řekněme Banán z košíku, a požádali jste o jeho identifikaci.

Protože se stroj již naučil věci z předchozích dat a tentokrát je musí použít moudře. Nejprve zařadí ovoce podle tvaru a barvy a potvrdí název ovoce jako BANÁN a zařadí jej do kategorie Banán. Stroj se tak učí věci z trénovacích dat (košík obsahující ovoce) a poté aplikuje znalosti na testovací data (nové ovoce).

od abecedy k číslu

Typy řízeného učení

Učení pod dohledem je rozděleno do dvou kategorií algoritmů:

Regrese : Regresní problém je, když výstupní proměnná je skutečná hodnota, jako jsou dolary nebo váha.
Klasifikace : Problém klasifikace nastává, když výstupní proměnnou je kategorie, jako je červená nebo modrá , nemoc nebo žádná nemoc.

Řízené učení se zabývá nebo se učí s označenými údaji. To znamená, že některá data jsou již označena správnou odpovědí.

1- Regrese

Regrese je typ učení pod dohledem, který se používá k předpovídání kontinuálních hodnot, jako jsou ceny domů, ceny akcií nebo odchod zákazníků. Regresní algoritmy se učí funkci, která mapuje ze vstupních vlastností na výstupní hodnotu.

Některé běžné regresní algoritmy zahrnout:

Lineární regrese
Polynomiální regrese
Podpora vektorové strojové regrese
Regrese rozhodovacího stromu
Náhodná lesní regrese

2- Klasifikace

Klasifikace je typ učení pod dohledem, který se používá k předpovídání kategoriálních hodnot, jako je například to, zda zákazník bude nebo nebude chrlit, zda je e-mail spam nebo ne, nebo zda lékařský snímek ukazuje nádor nebo ne. Klasifikační algoritmy se učí funkci, která mapuje ze vstupních vlastností na rozdělení pravděpodobnosti přes výstupní třídy.

Některé běžné klasifikační algoritmy zahrnout:

Logistická regrese
Podpora vektorových strojů
Rozhodovací stromy
Náhodné lesy
Naivní Baye

Hodnocení modelů výuky pod dohledem

Hodnocení modelů učení pod dohledem je důležitým krokem k zajištění toho, aby byl model přesný a zobecnitelný. Existuje celá řada různých metriky které lze použít k hodnocení modelů učení pod dohledem, ale mezi ty nejběžnější patří:

Pro regresi

Střední kvadratická chyba (MSE): MSE měří průměrný kvadrát rozdíl mezi předpokládanými hodnotami a skutečnými hodnotami. Nižší hodnoty MSE znamenají lepší výkon modelu.
Root Mean Squared Error (RMSE): RMSE je druhá odmocnina z MSE, která představuje standardní odchylku chyb predikce. Podobně jako u MSE znamenají nižší hodnoty RMSE lepší výkon modelu.
Střední absolutní chyba (MAE): MAE měří průměrný absolutní rozdíl mezi předpokládanými hodnotami a skutečnými hodnotami. Je méně citlivý na odlehlé hodnoty ve srovnání s MSE nebo RMSE.
R-kvadrát (koeficient determinace): R-squared měří podíl rozptylu v cílové proměnné, který je vysvětlen modelem. Vyšší hodnoty R-square znamenají lepší přizpůsobení modelu.

Pro klasifikaci

Přesnost: Přesnost je procento předpovědí, které model dělá správně. Vypočítá se vydělením počtu správných předpovědí celkovým počtem předpovědí.
Přesnost: Přesnost je procento pozitivních předpovědí, které model provede a které jsou skutečně správné. Vypočítá se vydělením počtu skutečně pozitivních celkovým počtem pozitivních předpovědí.
Odvolání: Recall je procento všech pozitivních příkladů, které model správně identifikuje. Vypočítá se vydělením počtu skutečných pozitivních výsledků celkovým počtem pozitivních příkladů.
Skóre F1: Skóre F1 je váženým průměrem přesnosti a zapamatovatelnosti. Vypočítá se pomocí harmonického průměru přesnosti a vyvolání.
Matice zmatení: Matice zmatků je tabulka, která ukazuje počet předpovědí pro každou třídu spolu se skutečnými štítky tříd. Lze jej použít k vizualizaci výkonu modelu a identifikaci oblastí, ve kterých má model potíže.

Aplikace řízeného učení

Učení pod dohledem lze použít k řešení široké škály problémů, včetně:

Filtrování spamu: Dohlížené výukové algoritmy lze trénovat k identifikaci a klasifikaci spamových e-mailů na základě jejich obsahu, což uživatelům pomáhá vyhnout se nechtěným zprávám.
Klasifikace obrázků: Učení pod dohledem může automaticky klasifikovat obrázky do různých kategorií, jako jsou zvířata, předměty nebo scény, což usnadňuje úkoly, jako je vyhledávání obrázků, moderování obsahu a doporučení produktů na základě obrázků.
Lékařská diagnóza: Učení pod dohledem může pomoci při lékařské diagnóze tím, že analyzuje údaje o pacientech, jako jsou lékařské snímky, výsledky testů a anamnéza pacienta, s cílem identifikovat vzorce, které naznačují konkrétní onemocnění nebo stavy.
Detekce podvodů: Modely učení pod dohledem mohou analyzovat finanční transakce a identifikovat vzorce, které naznačují podvodnou činnost, což pomáhá finančním institucím předcházet podvodům a chránit jejich zákazníky.
Zpracování přirozeného jazyka (NLP): Učení pod dohledem hraje klíčovou roli v úkolech NLP, včetně analýzy sentimentu, strojového překladu a sumarizace textu, což umožňuje strojům efektivně porozumět a zpracovat lidský jazyk.

Výhody řízeného učení

Učení pod dohledem umožňuje shromažďovat data a vytváří datový výstup z předchozích zkušeností.
Pomáhá optimalizovat výkonnostní kritéria pomocí zkušeností.
Strojové učení pod dohledem pomáhá řešit různé typy reálných výpočetních problémů.
Provádí klasifikační a regresní úkoly.
Umožňuje odhadnout nebo namapovat výsledek na nový vzorek.
Máme úplnou kontrolu nad výběrem požadovaného počtu tříd v tréninkových datech.

Nevýhody řízeného učení

Klasifikace velkých dat může být náročná.
Školení pro učení pod dohledem vyžaduje mnoho výpočetního času. Takže to vyžaduje hodně času.
Učení pod dohledem nemůže zvládnout všechny složité úkoly ve strojovém učení.
Výpočetní doba je pro učení pod dohledem obrovská.
Vyžaduje označenou sadu dat.
Vyžaduje to tréninkový proces.

Co je učení bez dozoru?

Učení bez dozoru je typ strojového učení, které se učí z neoznačených dat. To znamená, že data nemají žádné dříve existující štítky nebo kategorie. Cílem učení bez dozoru je objevit vzorce a vztahy v datech bez jakéhokoli explicitního vedení.

Učení bez dozoru je trénování stroje pomocí informací, které nejsou klasifikovány ani označeny, a umožňuje algoritmu jednat s těmito informacemi bez vedení. Zde je úkolem stroje seskupovat netříděné informace podle podobností, vzorů a rozdílů bez předchozího školení dat.

Na rozdíl od učení pod dohledem není k dispozici žádný učitel, což znamená, že stroj nebude zaškolen. Proto je stroj omezen na to, aby sám našel skrytou strukturu v neoznačených datech.

Učení bez dozoru můžete použít ke zkoumání údajů o zvířatech, které byly shromážděny, a rozlišování mezi několika skupinami podle vlastností a činností zvířat. Tato seskupení mohou odpovídat různým druhům zvířat, což vám umožňuje kategorizovat stvoření bez závislosti na štítcích, které již existují.

Učení bez dozoru

pro smyčku v bash

Klíčové body

Učení bez dozoru umožňuje modelu objevit vzorce a vztahy v neoznačených datech.
Shlukovací algoritmy seskupují podobné datové body dohromady na základě jejich vlastních charakteristik.
Extrakce funkcí zachycuje podstatné informace z dat, což modelu umožňuje smysluplné rozlišení.
Asociace štítků přiřazuje shlukům kategorie na základě extrahovaných vzorů a charakteristik.

Příklad

Představte si, že máte model strojového učení trénovaný na velké datové sadě neoznačených obrázků, které obsahují psy i kočky. Model nikdy předtím neviděl obrázek psa nebo kočky a nemá pro tato zvířata žádné dříve existující štítky nebo kategorie. Vaším úkolem je pomocí učení bez dozoru identifikovat psy a kočky na novém, neviditelném obrázku.

Například Předpokládejme, že je mu dán obrázek se psy i kočkami, který nikdy neviděl.

Stroj tedy nemá ponětí o vlastnostech psů a koček, takže jej nemůžeme kategorizovat jako „psi a kočky“. Může je však kategorizovat podle jejich podobností, vzorů a rozdílů, tj. výše uvedený obrázek můžeme snadno kategorizovat na dvě části. První může obsahovat všechny obrázky, které mají psi v nich a druhá část může obsahovat všechny obrázky, které mají kočky v nich. Zde jste se předtím nic nenaučili, což znamená, že žádná tréninková data ani příklady.

Umožňuje modelu pracovat samostatně a objevovat vzorce a informace, které byly dříve nezjištěny. Zabývá se především neoznačenými daty.

Typy učení bez dozoru

Učení bez dozoru je rozděleno do dvou kategorií algoritmů:

Shlukování : Problém se shlukováním je tam, kde chcete zjistit inherentní seskupení v datech, jako je seskupování zákazníků podle nákupního chování.
Sdružení : Problém učení asociačních pravidel je tam, kde chcete objevit pravidla, která popisují velké části vašich dat, jako například lidé, kteří kupují X, mají také tendenci kupovat Y.

Shlukování

Clustering je typ učení bez dozoru, který se používá k seskupování podobných datových bodů. Shlukovací algoritmy pracovat tak, že se datové body přesouvají blíže k jejich středům shluků a dále od datových bodů v jiných shlucích.

Exkluzivní (rozdělení)
Aglomerativní
Překrývající se
Pravděpodobnostní

Typy shlukování:-

Hierarchické shlukování
K-znamená shlukování
Analýza hlavních komponent
Dekompozice singulární hodnoty
Nezávislá analýza komponent
Gaussovské modely směsí (GMM)
Prostorové shlukování aplikací s hlukem na základě hustoty (DBSCAN)

Učení asociačních pravidel

Učení asociačních pravidel je typ učení bez dozoru, který se používá k identifikaci vzorců v datech. Asociační pravidlo Učící algoritmy fungují tak, že nacházejí vztahy mezi různými položkami v datové sadě.

Některé běžné algoritmy učení asociačních pravidel zahrnují:

Apriori algoritmus
Eclatův algoritmus
FP-růstový algoritmus

Hodnocení modelů učení bez dozoru

Hodnocení modelů učení bez dohledu je důležitým krokem k zajištění toho, aby byl model efektivní a užitečný. Může to však být náročnější než vyhodnocování modelů učení pod dohledem, protože neexistují žádná základní pravdivá data, se kterými by bylo možné porovnat předpovědi modelu.

Existuje řada různých metrik, které lze použít k hodnocení modelů učení bez dohledu, ale mezi ty nejběžnější patří:

bublinové řazení v Javě

Skóre siluety: Skóre siluety měří, jak dobře je každý datový bod shlukován s vlastními členy shluku a oddělen od ostatních shluků. Pohybuje se od -1 do 1, přičemž vyšší skóre naznačuje lepší shlukování.
Calinski-Harabasz skóre: Calinski-Harabasz skóre měří poměr mezi rozptylem mezi shluky a rozptylem uvnitř shluků. Pohybuje se od 0 do nekonečna, přičemž vyšší skóre naznačuje lepší shlukování.
Upravený Rand index: Upravený Rand index měří podobnost mezi dvěma shluky. Pohybuje se od -1 do 1, přičemž vyšší skóre ukazuje na více podobných shluků.
Davies-Bouldinův index: Davies-Bouldinův index měří průměrnou podobnost mezi shluky. Pohybuje se od 0 do nekonečna, přičemž nižší skóre naznačuje lepší shlukování.
Skóre F1: Skóre F1 je vážený průměr přesnosti a zapamatovatelnosti, což jsou dvě metriky, které se běžně používají v kontrolovaném učení k hodnocení klasifikačních modelů. Skóre F1 však lze také použít k hodnocení modelů učení bez dohledu, jako jsou modely shlukování.

aplikace učení bez dozoru

Učení bez dohledu lze použít k řešení celé řady problémů, včetně:

Detekce anomálií: Učení bez dozoru může identifikovat neobvyklé vzorce nebo odchylky od normálního chování v datech, což umožňuje detekci podvodů, narušení nebo selhání systému.
Vědecký objev: Učení bez dohledu může odhalit skryté vztahy a vzorce ve vědeckých datech, což vede k novým hypotézám a náhledům v různých vědeckých oblastech.
Systémy doporučení: Učení bez dozoru může identifikovat vzorce a podobnosti v chování a preferencích uživatelů a doporučovat produkty, filmy nebo hudbu, které jsou v souladu s jejich zájmy.
Segmentace zákazníků: Učení bez dozoru může identifikovat skupiny zákazníků s podobnými charakteristikami, což podnikům umožňuje zacílit marketingové kampaně a efektivněji zlepšovat služby zákazníkům.
Analýza obrazu: Učení bez dozoru může seskupovat obrázky na základě jejich obsahu, což usnadňuje úkoly, jako je klasifikace obrázků, detekce objektů a vyhledávání obrázků.

Výhody učení bez dozoru

Nevyžaduje označení tréninkových dat.
Snížení rozměrů lze snadno dosáhnout pomocí učení bez dozoru.
Schopný najít dříve neznámé vzory v datech.
Učení bez dozoru vám může pomoci získat poznatky z neoznačených dat, která byste jinak získat nemohli.
Učení bez dozoru je dobré při hledání vzorců a vztahů v datech, aniž by vám bylo řečeno, co máte hledat. To vám může pomoci dozvědět se nové věci o vašich datech.

Nevýhody učení bez dozoru

Je obtížné měřit přesnost nebo efektivitu kvůli nedostatku předem definovaných odpovědí během školení.
Výsledky mají často menší přesnost.
Uživatel potřebuje trávit čas interpretací a označováním tříd, které následují po této klasifikaci.
Učení bez dozoru může být citlivé na kvalitu dat, včetně chybějících hodnot, odlehlých hodnot a zašuměných dat.
Bez označených dat může být obtížné vyhodnotit výkon modelů učení bez dozoru, což ztěžuje posouzení jejich účinnosti.

Strojové učení pod dohledem vs. bez dozoru

Parametry	Strojové učení pod dohledem	Strojové učení bez dozoru
Vstupní data	Algoritmy jsou trénovány pomocí označených dat.	Algoritmy se používají proti datům, která nejsou označena
Výpočetní složitost	Jednodušší metoda	Výpočetně složité
Přesnost	Vysoce přesné	Méně přesné
Počet tříd	Počet tříd je znám	Počet tříd není znám
Analýza dat	Využívá offline analýzu	Využívá analýzu dat v reálném čase
Použité algoritmy	Lineární a logistická regrese, náhodný les, klasifikace více tříd, rozhodovací strom, podpůrný vektorový stroj, neuronová síť atd.	K-Means clustering, Hierarchical clustering, KNN, Apriori algoritmus atd.
Výstup	Je dán požadovaný výstup.	Požadovaný výstup není uveden.
Tréninkové údaje	Použijte tréninková data k odvození modelu.	Nejsou použita žádná tréninková data.
Komplexní model	Není možné se naučit větší a složitější modely než u výuky pod dohledem.	Je možné se naučit větší a složitější modely s učením bez dozoru.
Modelka	Můžeme otestovat náš model.	Náš model nemůžeme otestovat.
Nazýváno jako	Řízené učení se také nazývá klasifikace.	Učení bez dozoru se také nazývá shlukování.
Příklad	Příklad: Optické rozpoznávání znaků.	Příklad: Najděte na obrázku obličej.
Dozor	učení pod dohledem potřebuje dohled, aby mohl model trénovat.	Učení bez dozoru nepotřebuje k trénování modelu žádný dozor.

Závěr

Učení pod dohledem a učení bez dozoru jsou dva mocné nástroje, které lze použít k řešení široké škály problémů. Učení pod dohledem se dobře hodí pro úkoly, u kterých je znám požadovaný výstup, zatímco učení bez dozoru se dobře hodí pro úkoly, kde požadovaný výstup není znám.

Často kladené otázky (FAQ)

1. Jaký je rozdíl mezi strojovým jazykem pod dohledem a bez dozoru?

Učení pod dohledem a učení bez dohledu jsou dva základní přístupy ke strojovému učení, které se liší v tréninkových datech a cílech učení.

Učení pod dohledem zahrnuje trénování modelu strojového učení na označené datové sadě, kde každý datový bod má odpovídající označení nebo výstupní hodnotu. Algoritmus se učí mapovat vstupní data na požadovaný výstup, což mu umožňuje předpovídat nová, neviditelná data.

Učení bez dozoru , na druhé straně se zabývá neoznačenými datovými sadami, kde datové body nemají přiřazené popisky nebo výstupní hodnoty.

2. Co je učení pod dohledem?

Učení pod dohledem je typ strojového učení, kde je algoritmus trénován na označené datové sadě, kde každý datový bod má odpovídající označení nebo výstupní hodnotu. Algoritmus se učí mapovat vstupní data na požadovaný výstup, což mu umožňuje předpovídat nová, neviditelná data.

3. Jaké jsou běžné algoritmy učení pod dohledem?

Mezi běžné algoritmy učení pod dohledem patří:

Klasifikace: Používá se k přiřazení kategorií k datovým bodům. Příklady zahrnují podpůrné vektorové stroje (SVM), logistickou regresi a rozhodovací stromy.

Regrese: Používá se k predikci spojitých číselných hodnot. Příklady zahrnují lineární regresi, polynomiální regresi a hřebenovou regresi.

4. Jaké jsou běžné algoritmy učení bez dozoru?

Mezi běžné algoritmy učení bez dozoru patří:

Shlukování: Seskupování datových bodů do shluků na základě jejich podobnosti. Příklady zahrnují shlukování k-means a hierarchické shlukování.

Redukce rozměrů: Snížení počtu funkcí v datové sadě při zachování nejdůležitějších informací. Příklady zahrnují analýzu hlavních komponent (PCA) a autoenkodéry.

5. Co je učení bez dozoru?

Unsupervised learning je typ strojového učení, kde je algoritmus trénován na neoznačené datové sadě, kde datové body nemají odpovídající popisky nebo výstupní hodnoty. Algoritmus se učí identifikovat vzory a struktury v datech bez explicitního vedení.
java kolekce java

6. Kdy použít učení pod dohledem vs. učení bez dozoru?

Pokud máte označenou datovou sadu a chcete předpovídat nová data, použijte učení pod dohledem. Pokud máte neoznačenou datovou sadu a chcete v datech identifikovat vzory nebo struktury, použijte učení bez dozoru.

TechCodeview