logo

Hyperparametry ve strojovém učení

Hyperparametry ve strojovém učení jsou ty parametry, které jsou explicitně definovány uživatelem pro řízení procesu učení. Tyto hyperparametry se používají ke zlepšení učení modelu a jejich hodnoty se nastavují před zahájením procesu učení modelu.

Hyperparametry ve strojovém učení

V tomto tématu budeme diskutovat o jednom z nejdůležitějších konceptů strojového učení, tj. Hyperparametry, jejich příklady, ladění hyperparametrů, kategorie hyperparametrů, jak se hyperparametr liší od parametru ve Machine Learning? Ale než začneme, pojďme nejprve pochopit Hyperparametr.

Co jsou hyperparametry?

V Machine Learning/Deep Learning je model reprezentován svými parametry. Na rozdíl od toho tréninkový proces zahrnuje výběr nejlepších/optimálních hyperparametrů, které jsou používány učebními algoritmy k zajištění nejlepšího výsledku. Takže, jaké jsou tyto hyperparametry? Odpověď je, ' Hyperparametry jsou definovány jako parametry, které jsou explicitně definovány uživatelem pro řízení procesu učení.'

Zde předpona „hyper“ naznačuje, že parametry jsou parametry nejvyšší úrovně, které se používají při řízení procesu učení. Hodnotu hyperparametru vybere a nastaví technik strojového učení předtím, než algoritmus učení začne trénovat model. Jsou tedy vůči modelu externí a jejich hodnoty nelze během tréninkového procesu měnit .

aktuální datum java

Některé příklady hyperparametrů ve strojovém učení

  • K v kNN nebo algoritmu K-Nearest Neighbor
  • Rychlost učení pro trénování neuronové sítě
  • Dělicí poměr vlak-test
  • Objem várky
  • Počet epoch
  • Větve v rozhodovacím stromě
  • Počet clusterů v Clustering Algorithm

Rozdíl mezi parametrem a hyperparametrem?

Mezi parametry a hyperparametry nebo hyperparametry modelu je vždy velký zmatek. Abychom vyjasnili tento zmatek, pojďme pochopit rozdíl mezi nimi a jak spolu souvisí.

Parametry modelu:

Parametry modelu jsou konfigurační proměnné, které jsou interní v modelu a model se je učí sám. Například , W Váhy nebo Koeficienty nezávislých proměnných v modelu lineární regrese . nebo Váhy nebo koeficienty nezávislých proměnných v SVM, váha a zkreslení neuronové sítě, těžiště klastru v shlukování. Některé klíčové body pro parametry modelu jsou následující:

  • Používají je model pro vytváření předpovědí.
  • Učí je model ze samotných dat
  • Ty se obvykle ručně nenastavují.
  • Ty jsou součástí modelu a klíčem k algoritmu strojového učení.

Hyperparametry modelu:

Hyperparametry jsou ty parametry, které jsou explicitně definovány uživatelem pro řízení procesu učení. Některé klíčové body pro parametry modelu jsou následující:

  • Ty jsou obvykle definovány ručně inženýrem strojového učení.
  • Nelze znát přesnou nejlepší hodnotu hyperparametrů pro daný problém. Nejlepší hodnota může být určena buď pravidlem, nebo metodou pokus-omyl.
  • Některé příklady hyperparametrů jsou rychlost učení pro trénování neuronové sítě, K v algoritmu KNN,

Kategorie hyperparametrů

Obecně lze hyperparametry rozdělit do dvou kategorií, které jsou uvedeny níže:

    Hyperparametr pro optimalizaci Hyperparametr pro specifické modely

Hyperparametr pro optimalizaci

Proces výběru nejlepších hyperparametrů k použití je známý jako ladění hyperparametrů a proces ladění je také známý jako optimalizace hyperparametrů. Optimalizační parametry slouží k optimalizaci modelu.

Hyperparametry ve strojovém učení

Některé z oblíbených optimalizačních parametrů jsou uvedeny níže:

    Míra učení:Rychlost učení je hyperparametr v optimalizačních algoritmech, který řídí, jak moc se model potřebuje změnit v reakci na odhadovanou chybu při každé aktualizaci vah modelu. Je to jeden z rozhodujících parametrů při budování neuronové sítě a také určuje frekvenci křížových kontrol s parametry modelu. Výběr optimalizované rychlosti učení je náročný úkol, protože pokud je rychlost učení velmi nižší, může to zpomalit tréninkový proces. Na druhou stranu, pokud je rychlost učení příliš velká, nemusí model správně optimalizovat.

Poznámka: Rychlost učení je klíčovým hyperparametrem pro optimalizaci modelu, takže pokud existuje požadavek na vyladění pouze jednoho hyperparametru, doporučuje se vyladit rychlost učení.

    Objem várky:Pro zvýšení rychlosti procesu učení je tréninková sada rozdělena do různých podmnožin, které jsou známé jako dávka. Počet epoch: Epochu lze definovat jako úplný cyklus pro trénování modelu strojového učení. Epocha představuje iterativní proces učení. Počet epoch se model od modelu liší a různé modely jsou vytvářeny s více než jednou epochou. Pro určení správného počtu epoch se bere v úvahu chyba ověření. Počet epoch se zvyšuje, dokud nedojde ke snížení chyby ověření. Pokud nedojde k žádnému zlepšení chyby redukce pro po sobě jdoucí epochy, znamená to zastavit zvyšování počtu epoch.

Hyperparametr pro specifické modely

Hyperparametry, které se podílejí na struktuře modelu, jsou známé jako hyperparametry pro konkrétní modely. Tyto jsou uvedeny níže:

    Řada skrytých jednotek:Skryté jednotky jsou součástí neuronových sítí, které se týkají komponent zahrnujících vrstvy procesorů mezi vstupními a výstupními jednotkami v neuronové síti.

Je důležité specifikovat počet skrytých jednotek hyperparametru pro neuronovou síť. Měla by být mezi velikostí vstupní vrstvy a velikostí výstupní vrstvy. Přesněji řečeno, počet skrytých jednotek by měl být 2/3 velikosti vstupní vrstvy plus velikost výstupní vrstvy.

U komplexních funkcí je nutné zadat počet skrytých jednotek, neměl by však přerůstat do modelu.

    Počet vrstev:Neuronová síť je tvořena vertikálně uspořádanými komponentami, které se nazývají vrstvy. Tam jsou hlavně vstupní vrstvy, skryté vrstvy a výstupní vrstvy . 3vrstvá neuronová síť poskytuje lepší výkon než 2vrstvá síť. Pro konvoluční neuronovou síť vytváří lepší model větší počet vrstev.

Závěr

Hyperparametry jsou parametry, které jsou explicitně definovány pro řízení procesu učení před aplikací algoritmu strojového učení na datovou sadu. Ty se používají ke specifikaci kapacity učení a složitosti modelu. Některé z hyperparametrů se používají pro optimalizaci modelů, jako je velikost dávky, rychlost učení atd., a některé jsou specifické pro modely, například Počet skrytých vrstev atd.