logo

Klasifikační algoritmus ve strojovém učení

Jak víme, algoritmus řízeného strojového učení lze široce rozdělit na regresní a klasifikační algoritmy. V regresních algoritmech jsme předpověděli výstup pro spojité hodnoty, ale k predikci kategoriálních hodnot potřebujeme klasifikační algoritmy.

Co je klasifikační algoritmus?

Klasifikační algoritmus je technika supervizovaného učení, která se používá k identifikaci kategorie nových pozorování na základě trénovacích dat. V klasifikaci se program učí z daného souboru dat nebo pozorování a poté klasifikuje nové pozorování do několika tříd nebo skupin. Jako, Ano nebo Ne, 0 nebo 1, Spam nebo ne Spam, kočka nebo pes, atd. Třídy mohou být nazývány jako cíle/štítky nebo kategorie.

myši a typy myší

Na rozdíl od regrese je výstupní proměnnou klasifikace kategorie, nikoli hodnota, jako například „zelená nebo modrá“, „ovoce nebo zvíře“ atd. Protože algoritmus klasifikace je technika učení pod dohledem, přijímá označená vstupní data, která znamená, že obsahuje vstup s odpovídajícím výstupem.

V klasifikačním algoritmu je diskrétní výstupní funkce (y) mapována na vstupní proměnnou (x).

 y=f(x), where y = categorical output 

Nejlepším příkladem klasifikačního algoritmu ML je Email Spam Detector .

Hlavním cílem klasifikačního algoritmu je identifikovat kategorii daného datového souboru a tyto algoritmy se používají hlavně k predikci výstupu pro kategoriální data.

Klasifikační algoritmy lze lépe pochopit pomocí níže uvedeného diagramu. V níže uvedeném diagramu jsou dvě třídy, třída A a třída B. Tyto třídy mají vlastnosti, které jsou si navzájem podobné a nepodobné jiným třídám.

Klasifikační algoritmus ve strojovém učení

Algoritmus, který implementuje klasifikaci na datové množině, je známý jako klasifikátor. Existují dva typy klasifikací:

    Binární klasifikátor:Pokud má klasifikační problém pouze dva možné výsledky, pak se nazývá binární klasifikátor.
    Příklady: ANO nebo NE, MUŽ nebo ŽENA, SPAM nebo NE SPAM, KOČKA nebo PES atd.Vícetřídní klasifikátor:Pokud má klasifikační problém více než dva výsledky, nazývá se klasifikátor s více třídami.
    Příklad: Klasifikace druhů plodin, Klasifikace druhů hudby.

Studenti v klasifikačních problémech:

V klasifikačních problémech existují dva typy studentů:

jak převést řetězec na celé číslo java
    Líní studenti:Lazy Learner nejprve uloží trénovací datovou sadu a počká, dokud neobdrží testovací datovou sadu. V případě líného žáka se klasifikace provádí na základě nejvíce souvisejících dat uložených v trénovací datové sadě. Trvá méně času na trénink, ale více času na předpovědi.
    Příklad: Algoritmus K-NN, případová úvahaDychtiví studenti:Dychtiví studenti vyvinou klasifikační model založený na tréninkovém datovém souboru předtím, než obdrží testovací datový soubor. Na rozdíl od líných studentů zabere Eager Learner více času na učení a méně času na předpovídání. Příklad: Rozhodovací stromy, Na�ve Bayes, ANN.

Typy ML klasifikačních algoritmů:

Klasifikační algoritmy lze dále rozdělit do převážně dvou kategorií:

    Lineární modely
    • Logistická regrese
    • Podpora vektorových strojů
    Nelineární modely
    • K-Nejbližší sousedé
    • Jádro SVM
    • Naivní Bayes
    • Klasifikace rozhodovacího stromu
    • Náhodná klasifikace lesa

Poznámka: Výše ​​uvedené algoritmy se naučíme v dalších kapitolách.

Vyhodnocení klasifikačního modelu:

Jakmile je náš model dokončen, je nutné vyhodnotit jeho výkon; buď se jedná o klasifikační nebo regresní model. Takže pro vyhodnocení klasifikačního modelu máme následující způsoby:

1. Log Loss nebo Cross-Entropy Loss:

  • Používá se pro hodnocení výkonu klasifikátoru, jehož výstupem je hodnota pravděpodobnosti mezi 0 a 1.
  • Pro dobrý binární klasifikační model by se hodnota ztráty logu měla blížit 0.
  • Hodnota logaritmické ztráty se zvyšuje, pokud se předpokládaná hodnota odchyluje od skutečné hodnoty.
  • Nižší log ztráta představuje vyšší přesnost modelu.
  • Pro binární klasifikaci lze křížovou entropii vypočítat jako:
 ?(ylog(p)+(1?y)log(1?p)) 

Kde y= skutečný výstup, p= předpokládaný výstup.

2. Matice zmatení:

  • Matice zmatků nám poskytuje matici/tabulku jako výstup a popisuje výkon modelu.
  • Je také známá jako chybová matice.
  • Matice se skládá z výsledku předpovědí v souhrnné podobě, která má celkový počet správných předpovědí a nesprávných předpovědí. Matice vypadá jako v tabulce níže:
Skutečně pozitivní Skutečný negativní
Předpokládaný pozitivní Skutečně pozitivní Falešně pozitivní
Předpokládaný záporný Falešně negativní Skutečně negativní
Klasifikační algoritmus ve strojovém učení

3. Křivka AUC-ROC:

  • ROC křivka znamená Křivka provozních charakteristik přijímače a AUC znamená Oblast pod křivkou .
  • Je to graf, který ukazuje výkonnost klasifikačního modelu při různých prahových hodnotách.
  • K vizualizaci výkonu modelu klasifikace více tříd používáme křivku AUC-ROC.
  • Křivka ROC je vykreslena pomocí TPR a FPR, kde TPR (True Positive Rate) na ose Y a FPR (False Positive Rate) na ose X.

Příklady použití klasifikačních algoritmů

Klasifikační algoritmy lze použít na různých místech. Níže jsou uvedeny některé oblíbené případy použití klasifikačních algoritmů:

  • Detekce e-mailového spamu
  • Rozpoznávání řeči
  • Identifikace rakovinných nádorových buněk.
  • Klasifikace léčiv
  • Biometrická identifikace atd.