KLASIFIKAČNÍ ALGORITMUS VE STROJOVÉM UČENÍ

Jak víme, algoritmus řízeného strojového učení lze široce rozdělit na regresní a klasifikační algoritmy. V regresních algoritmech jsme předpověděli výstup pro spojité hodnoty, ale k predikci kategoriálních hodnot potřebujeme klasifikační algoritmy.

Co je klasifikační algoritmus?

Klasifikační algoritmus je technika supervizovaného učení, která se používá k identifikaci kategorie nových pozorování na základě trénovacích dat. V klasifikaci se program učí z daného souboru dat nebo pozorování a poté klasifikuje nové pozorování do několika tříd nebo skupin. Jako, Ano nebo Ne, 0 nebo 1, Spam nebo ne Spam, kočka nebo pes, atd. Třídy mohou být nazývány jako cíle/štítky nebo kategorie.

myši a typy myší

Na rozdíl od regrese je výstupní proměnnou klasifikace kategorie, nikoli hodnota, jako například „zelená nebo modrá“, „ovoce nebo zvíře“ atd. Protože algoritmus klasifikace je technika učení pod dohledem, přijímá označená vstupní data, která znamená, že obsahuje vstup s odpovídajícím výstupem.

V klasifikačním algoritmu je diskrétní výstupní funkce (y) mapována na vstupní proměnnou (x).

 y=f(x), where y = categorical output

Nejlepším příkladem klasifikačního algoritmu ML je Email Spam Detector .

Hlavním cílem klasifikačního algoritmu je identifikovat kategorii daného datového souboru a tyto algoritmy se používají hlavně k predikci výstupu pro kategoriální data.

Klasifikační algoritmy lze lépe pochopit pomocí níže uvedeného diagramu. V níže uvedeném diagramu jsou dvě třídy, třída A a třída B. Tyto třídy mají vlastnosti, které jsou si navzájem podobné a nepodobné jiným třídám.

Klasifikační algoritmus ve strojovém učení

Algoritmus, který implementuje klasifikaci na datové množině, je známý jako klasifikátor. Existují dva typy klasifikací:

Příklady:

Příklad:

Studenti v klasifikačních problémech:

V klasifikačních problémech existují dva typy studentů:

jak převést řetězec na celé číslo java

Příklad:

Typy ML klasifikačních algoritmů:

Klasifikační algoritmy lze dále rozdělit do převážně dvou kategorií:

Logistická regrese
Podpora vektorových strojů

K-Nejbližší sousedé
Jádro SVM
Naivní Bayes
Klasifikace rozhodovacího stromu
Náhodná klasifikace lesa

Poznámka: Výše uvedené algoritmy se naučíme v dalších kapitolách.

Vyhodnocení klasifikačního modelu:

Jakmile je náš model dokončen, je nutné vyhodnotit jeho výkon; buď se jedná o klasifikační nebo regresní model. Takže pro vyhodnocení klasifikačního modelu máme následující způsoby:

1. Log Loss nebo Cross-Entropy Loss:

Používá se pro hodnocení výkonu klasifikátoru, jehož výstupem je hodnota pravděpodobnosti mezi 0 a 1.
Pro dobrý binární klasifikační model by se hodnota ztráty logu měla blížit 0.
Hodnota logaritmické ztráty se zvyšuje, pokud se předpokládaná hodnota odchyluje od skutečné hodnoty.
Nižší log ztráta představuje vyšší přesnost modelu.
Pro binární klasifikaci lze křížovou entropii vypočítat jako:

 ?(ylog(p)+(1?y)log(1?p))

Kde y= skutečný výstup, p= předpokládaný výstup.

2. Matice zmatení:

Matice zmatků nám poskytuje matici/tabulku jako výstup a popisuje výkon modelu.
Je také známá jako chybová matice.
Matice se skládá z výsledku předpovědí v souhrnné podobě, která má celkový počet správných předpovědí a nesprávných předpovědí. Matice vypadá jako v tabulce níže:

	Skutečně pozitivní	Skutečný negativní
Předpokládaný pozitivní	Skutečně pozitivní	Falešně pozitivní
Předpokládaný záporný	Falešně negativní	Skutečně negativní

3. Křivka AUC-ROC:

ROC křivka znamená Křivka provozních charakteristik přijímače a AUC znamená Oblast pod křivkou .
Je to graf, který ukazuje výkonnost klasifikačního modelu při různých prahových hodnotách.
K vizualizaci výkonu modelu klasifikace více tříd používáme křivku AUC-ROC.
Křivka ROC je vykreslena pomocí TPR a FPR, kde TPR (True Positive Rate) na ose Y a FPR (False Positive Rate) na ose X.

Příklady použití klasifikačních algoritmů

Klasifikační algoritmy lze použít na různých místech. Níže jsou uvedeny některé oblíbené případy použití klasifikačních algoritmů:

Detekce e-mailového spamu
Rozpoznávání řeči
Identifikace rakovinných nádorových buněk.
Klasifikace léčiv
Biometrická identifikace atd.