logo

Algoritmy strojového učení

Algoritmy strojového učení jsou výpočetní modely, které umožňují počítačům porozumět vzorcům a předpovídat nebo činit úsudky na základě dat bez potřeby explicitního programování. Tyto algoritmy tvoří základ moderní umělé inteligence a používají se v široké škále aplikací, včetně rozpoznávání obrazu a řeči, zpracování přirozeného jazyka, systémů doporučení, detekce podvodů, autonomních vozů atd.

Tento Algoritmy strojového učení Článek se bude zabývat všemi základními algoritmy strojového učení, jako je Podpora vektorového stroje, rozhodování, logistická regrese, naivní klasifikátor bayees, náhodný les, shlukování k-mean, učení zesílení, vektorové, hierarchické shlukování, xgboost, adaboost, logistika atd.



Typy algoritmů strojového učení

Existují tři typy algoritmů strojového učení.

  1. Učení pod dohledem
    • Regrese
    • Klasifikace
  2. Učení bez dozoru
  3. Posílení učení

Typy algoritmů strojového učení

1. Algoritmus řízeného učení

Učení pod dohledem je typ algoritmu strojového učení, kde jsme použili označenou datovou sadu k trénování modelu nebo algoritmů. Cílem algoritmu je naučit se mapování ze vstupních dat na výstupní štítky, což mu umožňuje provádět předpovědi nebo klasifikace na nových, neviditelných datech.

Řízené algoritmy strojového učení

  1. Lineární model:
    • Regrese
      • Obyčejná regrese nejmenších čtverců
      • Jednoduchá lineární regrese
      • Vícenásobná lineární regrese
      • Polynomiální regrese
      • Orthogonal Matching Pursuit (OMP)
      • Bayesovská regrese
      • Kvantilová regrese
      • Izotonická regrese
      • Postupná regrese
      • Regrese nejmenšího úhlu (LARS)
    • Klasifikace:
    • Regulace :
      • Laso (regulace L1)
      • Ridge (L2 Regularizace)
        • Ridge regrese
        • Ridge klasifikátor
      • Elastická síť
      • LARS Lasso
  2. K-Nearest Neighbors (KNN):
    • Algoritmy hrubé síly
    • Algoritmy Ball Tree a KD Tree
    • Klasifikátor K-Nearest Neighbors (KNN).
    • K-Nearest Neighbors (KNN) Regressor
  3. Podpora vektorových strojů:
    • Podpora regresoru vektorových strojů
    • Různé funkce jádra v SVM
  4. Stochastický gradientní sestup
    • Klasifikátor sestupu stochastického gradientu
    • Stochastický gradientní regresor sestupu
    • Různé funkce ztráty v SGD
  5. Rozhodovací strom:
    • Algoritmy rozhodovacího stromu
      • Algoritmy iterativního dichotomizéru 3 (ID3).
      • C5. Algoritmy
      • Algoritmy klasifikačních a regresních stromů
    • Klasifikátor rozhodovacího stromu
    • Regresor rozhodovacího stromu
  6. Ensemble Learning:
    • Bagrování (Bootstrap Aggregating)
    • Posílení
      • AdaBoost
      • XGBoost
      • CatBoost
      • Gradient Boosting Machines (GBM)
      • LightGBM
    • Stohování
  7. Generativní model
    • Naivní Bayes
      • Gaussův naivní Bayes
      • Multinomický naivní Bayes
      • Bernoulli Naivní Bayes
    • Gaussovy procesy
      • Gaussova regrese procesu (GPR)
      • Gaussova klasifikace procesů (GPC)
    • Gaussova diskriminační analýza
      • Lineární diskriminační analýza (LDA)
      • Kvadratická diskriminační analýza (QDA)
    • Bayesian Belief Networks
    • Skryté Markovovy modely (HMM)
  8. Předpověď časových řad:
    • Vizualizace a analýza časových řad:
      • Komponenty časové řady: Trend, sezónnost a hluk
      • Techniky rozkladu časových řad
      • Sezónní přizpůsobení a diferenciace
      • Autokorelace a částečné autokorelační funkce
      • Rozšířený Dickey-Fullerův test
      • Sezónní rozklad časových řad (STL rozklad)
      • Box-Jenkinsova metodika pro modely ARIMA
    • Algoritmy prognózování časových řad:
      • Klouzavý průměr (MA) a vážený klouzavý průměr
      • Exponenciální metody vyhlazení (jednoduché, dvojité a trojité)
      • Autoregresivní (AR) modely
      • Modely klouzavého průměru (MA).
      • Autoregresivní modely integrovaného klouzavého průměru (ARIMA).
      • Sezónní rozklad časových řad podle Loesse (STL)
      • Sezónní autoregresivní integrované modely klouzavého průměru (SARIMA).
      • Modely ARIMAX a SARIMAX
  9. Technika redukce rozměrů pod dohledem:
    • Lineární diskriminační analýza (LDA)

Některé z algoritmů řízeného strojového učení lze s malou úpravou použít pro klasifikaci i regresi.

  • Vícetřídní a vícevýstupní algoritmy:
    • Vícetřídní klasifikace
      • Klasifikátor OneVsRest
    • Klasifikace více značek
    • Vícevýstupní regrese

Metriky pro klasifikační a regresní algoritmy:

  • Regresní metriky:
    • Střední kvadratická chyba (MSE)
    • Střední kvadratická chyba (RMSE)
    • Střední absolutní chyba (MAE)
    • R-kvadrát
    • Upraveno R-kvadrát
  • Klasifikační metriky:
  • Pravděpodobnostní kalibrace
    • Kalibrační křivky
    • Kalibrace klasifikátoru

Technika křížové validace:

  • Křížová validace K-násobku
  • Stratified k-Fold Cross-Validation
  • Křížová validace bez vynechání
  • Křížová validace náhodného rozdělení
  • Křížová validace časových řad

Technika optimalizace:

  • Gradientní sestup
    • Stochastický gradientní sestup
    • Mini-dávkový gradient sestup
    • Gradientní sestup založený na hybnosti
  • Newtonovy optimalizační techniky
    • Newtonův algoritmus
    • Quasi-Newtonovy metody (BFGS, L-BFGS)
    • Konjugovaný gradient
  • Techniky optimalizace místního vyhledávání
    • Horolezectví
    • Tabu Search

2. Algoritmus učení bez dozoru

Učení bez dozoru je typ algoritmu strojového učení, kde se algoritmy používají k nalezení vzorů, struktury nebo vztahu v datové sadě pomocí neoznačené datové sady. Zkoumá vlastní strukturu dat bez předem definovaných kategorií nebo štítků.

Algoritmy strojového učení bez dozoru

  • Shlukování
    • Metody založené na centroidech
      • K-Means shlukování
      • Shlukování K-Means++
      • Klastrování v režimu K
      • Fuzzy C-Means (FCM) shlukování
    • Distribuční metody
    • Metody založené na konektivitě
      • Hierarchické shlukování
        • Aglomerativní shlukování
        • Dělivé shlukování
      • Šíření afinity
    • Metody založené na hustotě
      • DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
      • OPTIKA (objednací body k identifikaci shlukovací struktury)
  • Asociace pravidla těžby
    • Apriori algoritmus
    • FP-Growth (Frequent Pattern-Growth)
    • ECLAT (Equivalence Class Clustering a zdola nahoru Lattice Traversal)
  • Detekce anomálií:
    • Z-skóre
    • Místní odlehlý faktor (LOF)
    • Izolační les
  • Technika zmenšení rozměrů:
    • Analýza hlavních komponent (PCA)
    • t-distributed Stochastic Neighbor Embedding (t-SNE)
    • Nezáporná maticová faktorizace (NMF)
    • Nezávislá analýza komponent (ICA)
    • Faktorová analýza
    • Latentní dirichletová alokace (LDA)
    • izomapa
    • Locally Linear Embedding (LLE)
    • Latentní sémantická analýza (LSA)

3. Posílení učení

Posílení učení je typ algoritmu strojového učení, kde se agent učí činit postupná rozhodnutí interakcí se svým okolím. Agent dostává zpětnou vazbu ve formě pobídek nebo trestů na základě svých činů. Účelem agenta je objevit optimální taktiku, která maximalizuje kumulativní odměny v průběhu času pomocí pokusů a omylů. Posílené učení se často používá ve scénářích, ve kterých se agent musí naučit, jak se pohybovat v prostředí, hrát hry, řídit roboty nebo dělat úsudky v nejistých situacích.

Posílení učení

  • Metody založené na modelu:
    • Markovovy rozhodovací procesy (MDP)
    • Bellmanova rovnice
    • Algoritmus iterace hodnot
    • Hledání stromů Monte Carlo
  • Metody bez modelu:
    • Metody založené na hodnotě:
      • Q-Learning
      • OMÁČKA
      • Metody Monte Carlo
    • Metody založené na zásadách:
      • Algoritmus REINFORCE
      • Algoritmus hereckého kritika
    • Herce-kritické metody
      • Asynchronous Advantage herec-kritik (A3C)

Seznam populárních algoritmů strojového učení

Zde je seznam 10 nejoblíbenějších algoritmů strojového učení.

1. Lineární regrese

Lineární regrese je jednoduchý algoritmus používaný k mapování lineárního vztahu mezi vstupními vlastnostmi a spojitou cílovou proměnnou. Funguje to tak, že se do dat vloží řádek a pak se pomocí řádku předpoví nové hodnoty.

2. Logistická regrese

Logistická regrese je rozšířením lineární regrese, která se používá pro klasifikační úlohy k odhadu pravděpodobnosti, že instance patří do určité třídy.

3. SVM (Support Vector Machine)

SVM jsou řízené učební algoritmy, které mohou provádět klasifikační a regresní úlohy. Najde nadrovinu, která nejlépe odděluje třídy v prostoru prvků.

4. KNN (K-nearest Neighbour)

KNN je neparametrická technika, kterou lze použít pro klasifikaci i regresi. Funguje tak, že identifikuje k nejpodobnějších datových bodů novému datovému bodu a poté předpovídá označení nového datového bodu pomocí označení těchto datových bodů.

5. Rozhodovací strom

Rozhodovací stromy jsou typem techniky učení pod dohledem, kterou lze použít pro klasifikaci i regresi. Funguje tak, že data rozděluje do stále menších skupin, dokud každou skupinu nelze klasifikovat nebo předvídat s vysokou mírou přesnosti.

6. Náhodný les

Náhodné lesy jsou typem metody souborového učení, která využívá sadu rozhodovacích stromů k vytváření předpovědí agregováním předpovědí z jednotlivých stromů. Zlepšuje přesnost a odolnost jednotlivých rozhodovacích stromů. Lze jej použít pro klasifikační i regresní úlohy.

7. Naivní Bayes

Naive Bayes je pravděpodobnostní klasifikátor založený na Bayesově teorému, který se používá pro klasifikační úlohy. Funguje to tak, že se předpokládá, že vlastnosti datového bodu jsou na sobě nezávislé.

Java zřetězení řetězců

8. PCA (analýza hlavních komponent)

PCA je technika redukce rozměrů používaná k transformaci dat do prostoru s nižší dimenzí při zachování co největší variability. Funguje tak, že najde v datech směry, které obsahují největší variace, a poté data promítne do těchto směrů.

9. Apriori algoritmy

Algoritmus Apriori je tradiční technika dolování dat pro dolování asociačních pravidel v transakčních databázích nebo souborech dat. Je navržen tak, aby odhalil vazby a vzorce mezi věcmi, které se pravidelně vyskytují v transakcích. Apriori detekuje časté sady položek, což jsou skupiny položek, které se objevují společně v transakcích s danou minimální úrovní podpory.

10. K-Means Clustering

Shlukování K-Means je přístup učení bez dozoru, který lze použít k seskupování datových bodů. Funguje tak, že se v datech najde k shluků, takže datové body v každém shluku jsou si navzájem co nejvíce podobné a přitom zůstanou co nejvíce odlišné od datových bodů v jiných shlucích.

Objevte základní koncepty strojového učení učením se 10 nejlepších algoritmů , jako je lineární regrese, rozhodovací stromy a neuronové sítě.

Algoritmus strojového učení – FAQ

1. Co je to algoritmus ve strojovém učení?

Algoritmy strojového učení jsou techniky založené na statistických konceptech, které umožňují počítačům učit se z dat, objevovat vzory, vytvářet předpovědi nebo plnit úkoly bez nutnosti explicitního programování. Tyto algoritmy jsou obecně rozděleny do tří typů, tj. učení pod dohledem, učení bez dozoru a učení na posílení.

2. Jaké jsou typy strojového učení?

Existují především tři typy strojového učení:

  • Řízený algoritmus
  • Algoritmus bez dozoru
  • Algoritmus zesílení

3. Který ML algoritmus je nejlepší pro predikci?

Ideální metoda strojového učení pro predikci je určena a počet kritérií , včetně povahy problému, typu dat a jedinečných požadavků. Přístupy Support Vector Machines, Random Forests a Gradient Boosting jsou oblíbené pro prediktivní zátěže. Výběr algoritmu by na druhé straně měl být založen na testování a vyhodnocení konkrétního problému a souboru dat.

4. Jaké jsou 10 populárních algoritmů strojového učení?

Níže je seznam 10 nejčastěji používaných algoritmů strojového učení (ML):

  1. Lineární regrese
  2. Logistická regrese
  3. SVM (podpora vektorového stroje)
  4. KNN (K-nejbližší soused)
  5. Rozhodovací strom
  6. Náhodný les
  7. Naivní Bayes
  8. PCA (analýza hlavních součástí)
  9. Apriorní algoritmy
  10. K-Means Clustering