Hyperparametry ve strojovém učení jsou ty parametry, které jsou explicitně definovány uživatelem pro řízení procesu učení. Tyto hyperparametry se používají ke zlepšení učení modelu a jejich hodnoty se nastavují před zahájením procesu učení modelu.
V tomto tématu budeme diskutovat o jednom z nejdůležitějších konceptů strojového učení, tj. Hyperparametry, jejich příklady, ladění hyperparametrů, kategorie hyperparametrů, jak se hyperparametr liší od parametru ve Machine Learning? Ale než začneme, pojďme nejprve pochopit Hyperparametr.
Co jsou hyperparametry?
V Machine Learning/Deep Learning je model reprezentován svými parametry. Na rozdíl od toho tréninkový proces zahrnuje výběr nejlepších/optimálních hyperparametrů, které jsou používány učebními algoritmy k zajištění nejlepšího výsledku. Takže, jaké jsou tyto hyperparametry? Odpověď je, ' Hyperparametry jsou definovány jako parametry, které jsou explicitně definovány uživatelem pro řízení procesu učení.'
Zde předpona „hyper“ naznačuje, že parametry jsou parametry nejvyšší úrovně, které se používají při řízení procesu učení. Hodnotu hyperparametru vybere a nastaví technik strojového učení předtím, než algoritmus učení začne trénovat model. Jsou tedy vůči modelu externí a jejich hodnoty nelze během tréninkového procesu měnit .
aktuální datum java
Některé příklady hyperparametrů ve strojovém učení
- K v kNN nebo algoritmu K-Nearest Neighbor
- Rychlost učení pro trénování neuronové sítě
- Dělicí poměr vlak-test
- Objem várky
- Počet epoch
- Větve v rozhodovacím stromě
- Počet clusterů v Clustering Algorithm
Rozdíl mezi parametrem a hyperparametrem?
Mezi parametry a hyperparametry nebo hyperparametry modelu je vždy velký zmatek. Abychom vyjasnili tento zmatek, pojďme pochopit rozdíl mezi nimi a jak spolu souvisí.
Parametry modelu:
Parametry modelu jsou konfigurační proměnné, které jsou interní v modelu a model se je učí sám. Například , W Váhy nebo Koeficienty nezávislých proměnných v modelu lineární regrese . nebo Váhy nebo koeficienty nezávislých proměnných v SVM, váha a zkreslení neuronové sítě, těžiště klastru v shlukování. Některé klíčové body pro parametry modelu jsou následující:
- Používají je model pro vytváření předpovědí.
- Učí je model ze samotných dat
- Ty se obvykle ručně nenastavují.
- Ty jsou součástí modelu a klíčem k algoritmu strojového učení.
Hyperparametry modelu:
Hyperparametry jsou ty parametry, které jsou explicitně definovány uživatelem pro řízení procesu učení. Některé klíčové body pro parametry modelu jsou následující:
- Ty jsou obvykle definovány ručně inženýrem strojového učení.
- Nelze znát přesnou nejlepší hodnotu hyperparametrů pro daný problém. Nejlepší hodnota může být určena buď pravidlem, nebo metodou pokus-omyl.
- Některé příklady hyperparametrů jsou rychlost učení pro trénování neuronové sítě, K v algoritmu KNN,
Kategorie hyperparametrů
Obecně lze hyperparametry rozdělit do dvou kategorií, které jsou uvedeny níže:
Hyperparametr pro optimalizaci
Proces výběru nejlepších hyperparametrů k použití je známý jako ladění hyperparametrů a proces ladění je také známý jako optimalizace hyperparametrů. Optimalizační parametry slouží k optimalizaci modelu.
Některé z oblíbených optimalizačních parametrů jsou uvedeny níže:
Poznámka: Rychlost učení je klíčovým hyperparametrem pro optimalizaci modelu, takže pokud existuje požadavek na vyladění pouze jednoho hyperparametru, doporučuje se vyladit rychlost učení.
Hyperparametr pro specifické modely
Hyperparametry, které se podílejí na struktuře modelu, jsou známé jako hyperparametry pro konkrétní modely. Tyto jsou uvedeny níže:
Je důležité specifikovat počet skrytých jednotek hyperparametru pro neuronovou síť. Měla by být mezi velikostí vstupní vrstvy a velikostí výstupní vrstvy. Přesněji řečeno, počet skrytých jednotek by měl být 2/3 velikosti vstupní vrstvy plus velikost výstupní vrstvy.
U komplexních funkcí je nutné zadat počet skrytých jednotek, neměl by však přerůstat do modelu.
Závěr
Hyperparametry jsou parametry, které jsou explicitně definovány pro řízení procesu učení před aplikací algoritmu strojového učení na datovou sadu. Ty se používají ke specifikaci kapacity učení a složitosti modelu. Některé z hyperparametrů se používají pro optimalizaci modelů, jako je velikost dávky, rychlost učení atd., a některé jsou specifické pro modely, například Počet skrytých vrstev atd.