Strojové učení je odvětví umělé inteligence, které umožňuje strojům provádět analýzu dat a předpovídat. Pokud však model strojového učení není přesný, může způsobit chyby předpovědí a tyto chyby předpovědí jsou obvykle známé jako vychýlení a odchylka. Ve strojovém učení budou tyto chyby vždy přítomny, protože vždy existuje mírný rozdíl mezi předpovědí modelu a skutečnými předpovědi. Hlavním cílem analytiků ML/data science je omezit tyto chyby za účelem získání přesnějších výsledků. V tomto tématu budeme diskutovat o zkreslení a rozptylu, kompromisu mezi zkreslením a odchylkou, underfitting a overfitting. Než ale začneme, pojďme si nejprve porozumět, jaké jsou chyby ve strojovém učení?
Chyby ve strojovém učení?
Ve strojovém učení je chyba měřítkem toho, jak přesně může algoritmus předpovídat dříve neznámou datovou sadu. Na základě těchto chyb je vybrán model strojového učení, který může fungovat nejlépe na konkrétní datové sadě. Ve strojovém učení existují hlavně dva typy chyb, kterými jsou:
bez ohledu na to, jaký algoritmus byl použit. Příčinou těchto chyb jsou neznámé proměnné, jejichž hodnotu nelze snížit.
Co je Bias?
Obecně platí, že model strojového učení analyzuje data, nachází v nich vzory a vytváří předpovědi. Během trénování se model učí tyto vzory v datové sadě a aplikuje je na testovací data pro predikci. Při vytváření předpovědí dochází k rozdílu mezi předpovědními hodnotami vytvořenými modelem a skutečnými hodnotami/očekávanými hodnotami , a tento rozdíl je známý jako chyby zkreslení nebo chyby způsobené zkreslením . Lze ji definovat jako neschopnost algoritmů strojového učení, jako je lineární regrese, zachytit skutečný vztah mezi datovými body. Každý algoritmus začíná určitou mírou zkreslení, protože zkreslení vzniká z předpokladů v modelu, což usnadňuje naučení cílové funkce. Model má buď:
setinterval javascript
Obecně má lineární algoritmus vysoké zkreslení, protože se díky němu rychle učí. Čím jednodušší je algoritmus, tím vyšší je pravděpodobnost jeho zavedení. Zatímco nelineární algoritmus má často nízké zkreslení.
Některé příklady algoritmů strojového učení s nízkým zkreslením jsou Rozhodovací stromy, k-Nearest Neighbors a Support Vector Machines . Zároveň jde o algoritmus s vysokým zkreslením Lineární regrese, lineární diskriminační analýza a logistická regrese.
Způsoby, jak snížit vysoké zkreslení:
K vysokému zkreslení dochází hlavně díky velmi jednoduchému modelu. Níže uvádíme několik způsobů, jak snížit vysoké zkreslení:
- Zvyšte vstupní prvky, když je model nedostatečně vybavený.
- Zkraťte termín regularizace.
- Používejte složitější modely, jako je zahrnutí některých polynomických prvků.
Co je chyba odchylky?
Odchylka by specifikovala velikost variace v predikci, pokud by byla použita různá tréninková data. jednoduchými slovy, rozptyl říká, jak moc se náhodná veličina liší od její očekávané hodnoty. V ideálním případě by se model mezi jednotlivými trénovacími daty neměl příliš lišit, což znamená, že algoritmus by měl dobře porozumět skrytému mapování mezi vstupními a výstupními proměnnými. Chyby rozptylu jsou buď nízký rozptyl nebo vysoký rozptyl.
Nízký rozptyl znamená, že existuje malá odchylka v predikci cílové funkce se změnami v sadě tréninkových dat. Ve stejnou dobu, Vysoký rozptyl ukazuje velkou variaci v predikci cílové funkce se změnami v trénovací datové sadě.
Model, který vykazuje vysokou odchylku, se hodně naučí a funguje dobře s trénovací datovou sadou a negeneruje dobře s neviditelnou datovou sadou. Výsledkem je, že takový model poskytuje dobré výsledky s trénovací datovou sadou, ale vykazuje vysokou chybovost na testovací datové sadě.
Vzhledem k tomu, že s vysokou variabilitou se model učí příliš mnoho z datové sady, vede to k překrytí modelu. Model s velkým rozptylem má následující problémy:
- Model s vysokým rozptylem vede k přemontování.
- Zvyšte složitost modelu.
Obvykle mají nelineární algoritmy velkou flexibilitu, aby se přizpůsobily modelu, mají vysokou variabilitu.
odstranění z binárního vyhledávacího stromu
Některé příklady algoritmů strojového učení s nízkým rozptylem jsou, Lineární regrese, logistická regrese a lineární diskriminační analýza . Zároveň existují algoritmy s velkým rozptylem rozhodovací strom, Support Vector Machine a K-nejbližší sousedé.
Způsoby, jak snížit vysokou odchylku:
- Snižte vstupní vlastnosti nebo počet parametrů, protože je model přemontován.
- Nepoužívejte příliš složitý model.
- Zvyšte tréninková data.
- Prodlužte dobu Regularizace.
Různé kombinace odchylek-variance
Existují čtyři možné kombinace vychýlení a rozptylů, které jsou znázorněny níže uvedeným diagramem:
Kombinace nízkého zkreslení a nízkého rozptylu ukazuje ideální model strojového učení. Prakticky to však možné není.
S velkým vychýlením a velkým rozptylem jsou předpovědi nekonzistentní a také v průměru nepřesné.
Jak identifikovat vysokou odchylku nebo vysokou odchylku?
Vysoký rozptyl lze identifikovat, pokud má model:
- Nízká chyba tréninku a vysoká chyba testu.
Vysoké zkreslení lze identifikovat, pokud má model:
- Vysoká chyba tréninku a chyba testu je téměř podobná chybě tréninku.
Bias-Variance Trade-Off
Při vytváření modelu strojového učení je opravdu důležité postarat se o vychýlení a odchylku, aby se zabránilo nadměrnému a nedostatečnému přizpůsobení modelu. Pokud je model velmi jednoduchý s menším počtem parametrů, může mít nízký rozptyl a vysoké vychýlení. Zatímco pokud má model velký počet parametrů, bude mít vysoký rozptyl a nízké vychýlení. Je tedy nutné vytvořit rovnováhu mezi chybami zkreslení a odchylkami a tato rovnováha mezi chybou zkreslení a chybou rozptylu je známá jako kompromis Bias-Variance.
Pro přesnou predikci modelu potřebují algoritmy nízký rozptyl a malé zkreslení. Ale to není možné, protože zkreslení a rozptyl spolu souvisí:
jarní mrak
- Pokud snížíme rozptyl, zvýší se zkreslení.
- Pokud snížíme zkreslení, zvýší se rozptyl.
Kompromis zkreslení a odchylky je ústředním tématem výuky pod dohledem. V ideálním případě potřebujeme model, který přesně zachycuje zákonitosti v trénovacích datech a současně dobře zobecňuje s neviditelným souborem dat. Bohužel to není možné dělat současně. Protože algoritmus s vysokým rozptylem může fungovat dobře s trénovacími daty, ale může vést k přepracování na zašuměná data. Zatímco algoritmus vysokého zkreslení generuje mnohem jednoduchý model, který ani nemusí zachytit důležité zákonitosti v datech. Abychom vytvořili optimální model, musíme najít sladké místo mezi zkreslením a rozptylem.
Proto, Kompromis zkreslení a odchylky spočívá v nalezení správného místa k dosažení rovnováhy mezi chybami zkreslení a rozptylu.