ALGORITMY STROJOVÉHO UČENÍ - AI-ML-DS S PYTHONEM

Algoritmy strojového učení jsou výpočetní modely, které umožňují počítačům porozumět vzorcům a předpovídat nebo činit úsudky na základě dat bez potřeby explicitního programování. Tyto algoritmy tvoří základ moderní umělé inteligence a používají se v široké škále aplikací, včetně rozpoznávání obrazu a řeči, zpracování přirozeného jazyka, systémů doporučení, detekce podvodů, autonomních vozů atd.

Tento Algoritmy strojového učení Článek se bude zabývat všemi základními algoritmy strojového učení, jako je Podpora vektorového stroje, rozhodování, logistická regrese, naivní klasifikátor bayees, náhodný les, shlukování k-mean, učení zesílení, vektorové, hierarchické shlukování, xgboost, adaboost, logistika atd.

Typy algoritmů strojového učení

Existují tři typy algoritmů strojového učení.

Učení pod dohledem
- Regrese
- Klasifikace
Učení bez dozoru
- Shlukování
- Redukce rozměrů
Posílení učení

Typy algoritmů strojového učení

1. Algoritmus řízeného učení

Učení pod dohledem je typ algoritmu strojového učení, kde jsme použili označenou datovou sadu k trénování modelu nebo algoritmů. Cílem algoritmu je naučit se mapování ze vstupních dat na výstupní štítky, což mu umožňuje provádět předpovědi nebo klasifikace na nových, neviditelných datech.

Řízené algoritmy strojového učení
Lineární model: Regrese Obyčejná regrese nejmenších čtverců Jednoduchá lineární regrese Vícenásobná lineární regrese Polynomiální regrese Orthogonal Matching Pursuit (OMP) Bayesovská regrese Kvantilová regrese Izotonická regrese Postupná regrese Regrese nejmenšího úhlu (LARS) Klasifikace: Logistická regrese Funkce Sigmoid & Softmax Regulace : Laso (regulace L1) Ridge (L2 Regularizace) Ridge regrese Ridge klasifikátor Elastická síť LARS Lasso K-Nearest Neighbors (KNN): Algoritmy hrubé síly Algoritmy Ball Tree a KD Tree Klasifikátor K-Nearest Neighbors (KNN). K-Nearest Neighbors (KNN) Regressor Podpora vektorových strojů: Podpora regresoru vektorových strojů Různé funkce jádra v SVM Stochastický gradientní sestup Klasifikátor sestupu stochastického gradientu Stochastický gradientní regresor sestupu Různé funkce ztráty v SGD Rozhodovací strom: Algoritmy rozhodovacího stromu Algoritmy iterativního dichotomizéru 3 (ID3). C5. Algoritmy Algoritmy klasifikačních a regresních stromů Klasifikátor rozhodovacího stromu Regresor rozhodovacího stromu Ensemble Learning: Bagrování (Bootstrap Aggregating) Náhodný les Extra stromy Posílení AdaBoost XGBoost CatBoost Gradient Boosting Machines (GBM) LightGBM Stohování Generativní model Naivní Bayes Gaussův naivní Bayes Multinomický naivní Bayes Bernoulli Naivní Bayes Gaussovy procesy Gaussova regrese procesu (GPR) Gaussova klasifikace procesů (GPC) Gaussova diskriminační analýza Lineární diskriminační analýza (LDA) Kvadratická diskriminační analýza (QDA) Bayesian Belief Networks Skryté Markovovy modely (HMM) Předpověď časových řad: Vizualizace a analýza časových řad: Komponenty časové řady: Trend, sezónnost a hluk Techniky rozkladu časových řad Sezónní přizpůsobení a diferenciace Autokorelace a částečné autokorelační funkce Rozšířený Dickey-Fullerův test Sezónní rozklad časových řad (STL rozklad) Box-Jenkinsova metodika pro modely ARIMA Algoritmy prognózování časových řad: Klouzavý průměr (MA) a vážený klouzavý průměr Exponenciální metody vyhlazení (jednoduché, dvojité a trojité) Autoregresivní (AR) modely Modely klouzavého průměru (MA). Autoregresivní modely integrovaného klouzavého průměru (ARIMA). Sezónní rozklad časových řad podle Loesse (STL) Sezónní autoregresivní integrované modely klouzavého průměru (SARIMA). Modely ARIMAX a SARIMAX Technika redukce rozměrů pod dohledem: Lineární diskriminační analýza (LDA) Některé z algoritmů řízeného strojového učení lze s malou úpravou použít pro klasifikaci i regresi. Vícetřídní a vícevýstupní algoritmy: Vícetřídní klasifikace Klasifikátor OneVsRest Klasifikace více značek Vícevýstupní regrese Metriky pro klasifikační a regresní algoritmy: Regresní metriky: Střední kvadratická chyba (MSE) Střední kvadratická chyba (RMSE) Střední absolutní chyba (MAE) R-kvadrát Upraveno R-kvadrát Klasifikační metriky: Matice zmatení Přesnost Odvolání Specifičnost skóre F1 Oblast pod křivkou ROC (AUC-ROC) Pravděpodobnostní kalibrace Kalibrační křivky Kalibrace klasifikátoru Technika křížové validace: Křížová validace K-násobku Stratified k-Fold Cross-Validation Křížová validace bez vynechání Křížová validace náhodného rozdělení Křížová validace časových řad Technika optimalizace: Gradientní sestup Stochastický gradientní sestup Mini-dávkový gradient sestup Gradientní sestup založený na hybnosti Newtonovy optimalizační techniky Newtonův algoritmus Quasi-Newtonovy metody (BFGS, L-BFGS) Konjugovaný gradient Techniky optimalizace místního vyhledávání Horolezectví Tabu Search

Řízené algoritmy strojového učení

Lineární model:
- Regrese
  - Obyčejná regrese nejmenších čtverců
  - Jednoduchá lineární regrese
  - Vícenásobná lineární regrese
  - Polynomiální regrese
  - Orthogonal Matching Pursuit (OMP)
  - Bayesovská regrese
  - Kvantilová regrese
  - Izotonická regrese
  - Postupná regrese
  - Regrese nejmenšího úhlu (LARS)
- Klasifikace:
  - Logistická regrese
    - Funkce Sigmoid & Softmax
- Regulace :
  - Laso (regulace L1)
  - Ridge (L2 Regularizace)
    - Ridge regrese
    - Ridge klasifikátor
  - Elastická síť
  - LARS Lasso
K-Nearest Neighbors (KNN):
- Algoritmy hrubé síly
- Algoritmy Ball Tree a KD Tree
- Klasifikátor K-Nearest Neighbors (KNN).
- K-Nearest Neighbors (KNN) Regressor
Podpora vektorových strojů:
- Podpora regresoru vektorových strojů
- Různé funkce jádra v SVM
Stochastický gradientní sestup
- Klasifikátor sestupu stochastického gradientu
- Stochastický gradientní regresor sestupu
- Různé funkce ztráty v SGD
Rozhodovací strom:
- Algoritmy rozhodovacího stromu
  - Algoritmy iterativního dichotomizéru 3 (ID3).
  - C5. Algoritmy
  - Algoritmy klasifikačních a regresních stromů
- Klasifikátor rozhodovacího stromu
- Regresor rozhodovacího stromu
Ensemble Learning:
- Bagrování (Bootstrap Aggregating)
  - Náhodný les
  - Extra stromy
- Posílení
  - AdaBoost
  - XGBoost
  - CatBoost
  - Gradient Boosting Machines (GBM)
  - LightGBM
- Stohování
Generativní model
- Naivní Bayes
  - Gaussův naivní Bayes
  - Multinomický naivní Bayes
  - Bernoulli Naivní Bayes
- Gaussovy procesy
  - Gaussova regrese procesu (GPR)
  - Gaussova klasifikace procesů (GPC)
- Gaussova diskriminační analýza
  - Lineární diskriminační analýza (LDA)
  - Kvadratická diskriminační analýza (QDA)
- Bayesian Belief Networks
- Skryté Markovovy modely (HMM)
Předpověď časových řad:
- Vizualizace a analýza časových řad:
  - Komponenty časové řady: Trend, sezónnost a hluk
  - Techniky rozkladu časových řad
  - Sezónní přizpůsobení a diferenciace
  - Autokorelace a částečné autokorelační funkce
  - Rozšířený Dickey-Fullerův test
  - Sezónní rozklad časových řad (STL rozklad)
  - Box-Jenkinsova metodika pro modely ARIMA
- Algoritmy prognózování časových řad:
  - Klouzavý průměr (MA) a vážený klouzavý průměr
  - Exponenciální metody vyhlazení (jednoduché, dvojité a trojité)
  - Autoregresivní (AR) modely
  - Modely klouzavého průměru (MA).
  - Autoregresivní modely integrovaného klouzavého průměru (ARIMA).
  - Sezónní rozklad časových řad podle Loesse (STL)
  - Sezónní autoregresivní integrované modely klouzavého průměru (SARIMA).
  - Modely ARIMAX a SARIMAX
Technika redukce rozměrů pod dohledem:
- Lineární diskriminační analýza (LDA)

Některé z algoritmů řízeného strojového učení lze s malou úpravou použít pro klasifikaci i regresi.

Vícetřídní a vícevýstupní algoritmy:
- Vícetřídní klasifikace
  - Klasifikátor OneVsRest
- Klasifikace více značek
- Vícevýstupní regrese

Metriky pro klasifikační a regresní algoritmy:

Regresní metriky:
- Střední kvadratická chyba (MSE)
- Střední kvadratická chyba (RMSE)
- Střední absolutní chyba (MAE)
- R-kvadrát
- Upraveno R-kvadrát
Klasifikační metriky:
- Matice zmatení
- Přesnost
- Odvolání
- Specifičnost
- skóre F1
- Oblast pod křivkou ROC (AUC-ROC)
Pravděpodobnostní kalibrace
- Kalibrační křivky
- Kalibrace klasifikátoru

Technika křížové validace:

Křížová validace K-násobku
Stratified k-Fold Cross-Validation
Křížová validace bez vynechání
Křížová validace náhodného rozdělení
Křížová validace časových řad

Technika optimalizace:

Gradientní sestup
- Stochastický gradientní sestup
- Mini-dávkový gradient sestup
- Gradientní sestup založený na hybnosti
Newtonovy optimalizační techniky
- Newtonův algoritmus
- Quasi-Newtonovy metody (BFGS, L-BFGS)
- Konjugovaný gradient
Techniky optimalizace místního vyhledávání
- Horolezectví
- Tabu Search

2. Algoritmus učení bez dozoru

Učení bez dozoru je typ algoritmu strojového učení, kde se algoritmy používají k nalezení vzorů, struktury nebo vztahu v datové sadě pomocí neoznačené datové sady. Zkoumá vlastní strukturu dat bez předem definovaných kategorií nebo štítků.

Algoritmy strojového učení bez dozoru
Shlukování Metody založené na centroidech K-Means shlukování Shlukování K-Means++ Klastrování v režimu K Fuzzy C-Means (FCM) shlukování Distribuční metody Gaussovy modely směsi (GMM) Algoritmy očekávání-maximalizace Dirichletovy modely procesních směsí (DPMM) Metody založené na konektivitě Hierarchické shlukování Aglomerativní shlukování Dělivé shlukování Šíření afinity Metody založené na hustotě DBSCAN (Density-Based Spatial Clustering of Applications with Noise) OPTIKA (objednací body k identifikaci shlukovací struktury) Asociace pravidla těžby Apriori algoritmus FP-Growth (Frequent Pattern-Growth) ECLAT (Equivalence Class Clustering a zdola nahoru Lattice Traversal) Detekce anomálií: Z-skóre Místní odlehlý faktor (LOF) Izolační les Technika zmenšení rozměrů: Analýza hlavních komponent (PCA) t-distributed Stochastic Neighbor Embedding (t-SNE) Nezáporná maticová faktorizace (NMF) Nezávislá analýza komponent (ICA) Faktorová analýza Latentní dirichletová alokace (LDA) izomapa Locally Linear Embedding (LLE) Latentní sémantická analýza (LSA)

Algoritmy strojového učení bez dozoru

Shlukování
- Metody založené na centroidech
  - K-Means shlukování
  - Shlukování K-Means++
  - Klastrování v režimu K
  - Fuzzy C-Means (FCM) shlukování
- Distribuční metody
  - Gaussovy modely směsi (GMM)
  - Algoritmy očekávání-maximalizace
  - Dirichletovy modely procesních směsí (DPMM)
- Metody založené na konektivitě
  - Hierarchické shlukování
    - Aglomerativní shlukování
    - Dělivé shlukování
  - Šíření afinity
- Metody založené na hustotě
  - DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
  - OPTIKA (objednací body k identifikaci shlukovací struktury)
Asociace pravidla těžby
- Apriori algoritmus
- FP-Growth (Frequent Pattern-Growth)
- ECLAT (Equivalence Class Clustering a zdola nahoru Lattice Traversal)
Detekce anomálií:
- Z-skóre
- Místní odlehlý faktor (LOF)
- Izolační les
Technika zmenšení rozměrů:
- Analýza hlavních komponent (PCA)
- t-distributed Stochastic Neighbor Embedding (t-SNE)
- Nezáporná maticová faktorizace (NMF)
- Nezávislá analýza komponent (ICA)
- Faktorová analýza
- Latentní dirichletová alokace (LDA)
- izomapa
- Locally Linear Embedding (LLE)
- Latentní sémantická analýza (LSA)

3. Posílení učení

Posílení učení je typ algoritmu strojového učení, kde se agent učí činit postupná rozhodnutí interakcí se svým okolím. Agent dostává zpětnou vazbu ve formě pobídek nebo trestů na základě svých činů. Účelem agenta je objevit optimální taktiku, která maximalizuje kumulativní odměny v průběhu času pomocí pokusů a omylů. Posílené učení se často používá ve scénářích, ve kterých se agent musí naučit, jak se pohybovat v prostředí, hrát hry, řídit roboty nebo dělat úsudky v nejistých situacích.

Posílení učení
Metody založené na modelu: Markovovy rozhodovací procesy (MDP) Bellmanova rovnice Algoritmus iterace hodnot Hledání stromů Monte Carlo Metody bez modelu: Metody založené na hodnotě: Q-Learning OMÁČKA Metody Monte Carlo Metody založené na zásadách: Algoritmus REINFORCE Algoritmus hereckého kritika Herce-kritické metody Asynchronous Advantage herec-kritik (A3C)

Posílení učení

Metody založené na modelu:
- Markovovy rozhodovací procesy (MDP)
- Bellmanova rovnice
- Algoritmus iterace hodnot
- Hledání stromů Monte Carlo
Metody bez modelu:
- Metody založené na hodnotě:
  - Q-Learning
  - OMÁČKA
  - Metody Monte Carlo
- Metody založené na zásadách:
  - Algoritmus REINFORCE
  - Algoritmus hereckého kritika
- Herce-kritické metody
  - Asynchronous Advantage herec-kritik (A3C)

Seznam populárních algoritmů strojového učení

Zde je seznam 10 nejoblíbenějších algoritmů strojového učení.

1. Lineární regrese

Lineární regrese je jednoduchý algoritmus používaný k mapování lineárního vztahu mezi vstupními vlastnostmi a spojitou cílovou proměnnou. Funguje to tak, že se do dat vloží řádek a pak se pomocí řádku předpoví nové hodnoty.

2. Logistická regrese

Logistická regrese je rozšířením lineární regrese, která se používá pro klasifikační úlohy k odhadu pravděpodobnosti, že instance patří do určité třídy.

3. SVM (Support Vector Machine)

SVM jsou řízené učební algoritmy, které mohou provádět klasifikační a regresní úlohy. Najde nadrovinu, která nejlépe odděluje třídy v prostoru prvků.

4. KNN (K-nearest Neighbour)

KNN je neparametrická technika, kterou lze použít pro klasifikaci i regresi. Funguje tak, že identifikuje k nejpodobnějších datových bodů novému datovému bodu a poté předpovídá označení nového datového bodu pomocí označení těchto datových bodů.

5. Rozhodovací strom

Rozhodovací stromy jsou typem techniky učení pod dohledem, kterou lze použít pro klasifikaci i regresi. Funguje tak, že data rozděluje do stále menších skupin, dokud každou skupinu nelze klasifikovat nebo předvídat s vysokou mírou přesnosti.

6. Náhodný les

Náhodné lesy jsou typem metody souborového učení, která využívá sadu rozhodovacích stromů k vytváření předpovědí agregováním předpovědí z jednotlivých stromů. Zlepšuje přesnost a odolnost jednotlivých rozhodovacích stromů. Lze jej použít pro klasifikační i regresní úlohy.

7. Naivní Bayes

Naive Bayes je pravděpodobnostní klasifikátor založený na Bayesově teorému, který se používá pro klasifikační úlohy. Funguje to tak, že se předpokládá, že vlastnosti datového bodu jsou na sobě nezávislé.

Java zřetězení řetězců

8. PCA (analýza hlavních komponent)

PCA je technika redukce rozměrů používaná k transformaci dat do prostoru s nižší dimenzí při zachování co největší variability. Funguje tak, že najde v datech směry, které obsahují největší variace, a poté data promítne do těchto směrů.

9. Apriori algoritmy

Algoritmus Apriori je tradiční technika dolování dat pro dolování asociačních pravidel v transakčních databázích nebo souborech dat. Je navržen tak, aby odhalil vazby a vzorce mezi věcmi, které se pravidelně vyskytují v transakcích. Apriori detekuje časté sady položek, což jsou skupiny položek, které se objevují společně v transakcích s danou minimální úrovní podpory.

10. K-Means Clustering

Shlukování K-Means je přístup učení bez dozoru, který lze použít k seskupování datových bodů. Funguje tak, že se v datech najde k shluků, takže datové body v každém shluku jsou si navzájem co nejvíce podobné a přitom zůstanou co nejvíce odlišné od datových bodů v jiných shlucích.

Objevte základní koncepty strojového učení učením se 10 nejlepších algoritmů , jako je lineární regrese, rozhodovací stromy a neuronové sítě.

Algoritmus strojového učení – FAQ

1. Co je to algoritmus ve strojovém učení?

Algoritmy strojového učení jsou techniky založené na statistických konceptech, které umožňují počítačům učit se z dat, objevovat vzory, vytvářet předpovědi nebo plnit úkoly bez nutnosti explicitního programování. Tyto algoritmy jsou obecně rozděleny do tří typů, tj. učení pod dohledem, učení bez dozoru a učení na posílení.

2. Jaké jsou typy strojového učení?

Existují především tři typy strojového učení:

Řízený algoritmus

Algoritmus bez dozoru

Algoritmus zesílení

3. Který ML algoritmus je nejlepší pro predikci?

Ideální metoda strojového učení pro predikci je určena a počet kritérií , včetně povahy problému, typu dat a jedinečných požadavků. Přístupy Support Vector Machines, Random Forests a Gradient Boosting jsou oblíbené pro prediktivní zátěže. Výběr algoritmu by na druhé straně měl být založen na testování a vyhodnocení konkrétního problému a souboru dat.

4. Jaké jsou 10 populárních algoritmů strojového učení?

Níže je seznam 10 nejčastěji používaných algoritmů strojového učení (ML):

Lineární regrese

Logistická regrese

SVM (podpora vektorového stroje)

KNN (K-nejbližší soused)

Rozhodovací strom

Náhodný les

Naivní Bayes

PCA (analýza hlavních součástí)

Apriorní algoritmy

K-Means Clustering