Při posilování učení agent nebo osoba s rozhodovací pravomocí generuje svá tréninková data interakcí se světem. Agent se musí naučit důsledky svých činů prostřednictvím pokusů a omylů, spíše než aby mu bylo výslovně řečeno, jak správně jednat.
Problém vícerukého banditu
V posilovacím učení používáme Problém mnohorukého banditu k formalizaci pojmu rozhodování za nejistoty pomocí k-ozbrojených banditů. Osoba s rozhodovací pravomocí nebo agent je přítomen v problému Multi-Armed Bandit Problem, aby si mohl vybrat mezi k-různými akcemi a obdrží odměnu na základě akce, kterou zvolí. Problém banditů se používá k popisu základních pojmů v posilovacím učení, jako jsou odměny, časové kroky a hodnoty.

Obrázek nahoře představuje hrací automat známý také jako bandita se dvěma pákami. Předpokládáme, že každá páka má oddělené rozdělení odměn a existuje alespoň jedna páka, která generuje maximální odměnu.
Rozdělení pravděpodobnosti pro odměnu odpovídající každé páce je různé a hazardní hráč (tvůrce rozhodnutí) ji nezná. Cílem je tedy určit, kterou páku zatáhnout, abyste získali maximální odměnu po dané sadě zkoušek.
Například:
Představte si zkušební online inzerci, kde chce inzerent změřit míru prokliku tří různých reklam na stejný produkt. Kdykoli uživatel navštíví web, inzerent náhodně zobrazí reklamu. Inzerent pak sleduje, zda uživatel na reklamu klikne či nikoliv. Po chvíli si inzerent všimne, že se zdá, že jedna reklama funguje lépe než ostatní. Inzerent se nyní musí rozhodnout, zda zůstane u reklamy s nejlepším výkonem nebo bude pokračovat v randomizované studii.
Pokud inzerent zobrazí pouze jednu reklamu, pak již nemůže shromažďovat data o dalších dvou reklamách. Možná je některá z ostatních reklam lepší, jen se díky náhodě jeví hůře. Pokud jsou další dvě reklamy horší, může pokračování studie nepříznivě ovlivnit míru prokliku. Tento reklamní pokus je příkladem rozhodování za nejistoty.
Ve výše uvedeném příkladu hraje roli agenta inzerent. Inzerent si musí vybrat ze tří různých akcí, aby zobrazil první, druhou nebo třetí reklamu. Každá reklama je akce. Výběr této reklamy přináší neznámou odměnu. A konečně, zisk inzerenta po reklamě je odměnou, kterou inzerent obdrží.
Akční hodnoty:
Aby se inzerent mohl rozhodnout, která akce je nejlepší, musíme definovat hodnotu každé akce. Tyto hodnoty definujeme pomocí akční hodnoty pomocí jazyka pravděpodobnosti. Hodnota výběru akce q*(A) je definována jako očekávaná odměna Rt obdržíme při provádění akce A z možného souboru akcí.
Cílem agenta je maximalizovat očekávanou odměnu výběrem akce, která má nejvyšší akční hodnotu.
Odhad hodnoty akce:
základy java
Protože hodnota výběru akce, tj. Q*(A) agent nezná, takže použijeme vzorový průměr způsob, jak to odhadnout.

Průzkum vs využívání:
- Greedy Action: Když agent zvolí akci, která má aktuálně největší odhadovanou hodnotu. Agent využívá své současné znalosti výběrem chamtivé akce. Non-Greedy Action: Když agent nezvolí největší odhadovanou hodnotu a obětuje okamžitou odměnu v naději, že získá více informací o ostatních akcích. Průzkum : Umožňuje agentovi zlepšit své znalosti o každé akci. Doufejme, že to povede k dlouhodobému prospěchu. Vykořisťování: Umožňuje agentovi vybrat si chamtivou akci, aby se pokusil získat co největší odměnu za krátkodobý prospěch. Čistý výběr chamtivé akce může vést k neoptimálnímu chování.
Mezi průzkumem a vykořisťováním nastává dilema, protože agent si nemůže vybrat, zda bude zkoumat a využívat zároveň. Proto používáme Horní hranice důvěry algoritmus k vyřešení dilematu průzkumu a využívání
Výběr akce s horní hranicí důvěry:
Výběr akcí na základě horní hranice spolehlivosti využívá nejistotu v odhadech akční hodnoty pro vyvážení průzkumu a těžby. Vzhledem k tomu, že existuje vlastní nejistota v přesnosti odhadů akční hodnoty, když používáme vzorkovaný soubor odměn, UCB používá nejistotu v odhadech k řízení průzkumu.

Qt(A) zde představuje aktuální odhad akce A v čase t . Vybereme akci, která má nejvyšší odhadovanou akční hodnotu plus horní mez průzkumu.

Q(A) na obrázku výše představuje aktuální odhad akční hodnoty pro akci A . Závorky představují interval spolehlivosti Q*(A) což říká, že jsme si jisti, že skutečná akční hodnota akce A leží někde v této oblasti.
Spodní závorka se nazývá dolní hranice a horní závorka je horní hranice. Oblast mezi závorkami je interval spolehlivosti, který představuje nejistotu v odhadech. Pokud je region velmi malý, pak jsme si velmi jisti, že skutečná hodnota akce A se blíží naší odhadované hodnotě. Na druhou stranu, pokud je region velký, pak se stáváme nejistými, že hodnota akce A se blíží naší odhadované hodnotě.
java escape znak
The Horní hranice důvěry dodržuje zásadu optimismu tváří v tvář nejistotě, která znamená, že pokud si nejsme jisti nějakým jednáním, měli bychom optimisticky předpokládat, že je to správné jednání.
Řekněme například, že na obrázku níže máme tyto čtyři akce se souvisejícími nejistotami, náš agent netuší, která akce je nejlepší. Takže podle algoritmu UCB optimisticky vybere akci, která má nejvyšší horní mez, tj. A . Když to uděláte, buď to bude mít nejvyšší hodnotu a získáte nejvyšší odměnu, nebo když to uděláte, dozvíme se o akci, o které víme nejméně.

Předpokládejme, že po výběru akce A skončíme ve stavu znázorněném na obrázku níže. Tentokrát UCB vybere akci B od té doby Q(B) má nejvyšší horní hranici spolehlivosti, protože její odhad akční hodnoty je nejvyšší, i když je interval spolehlivosti malý.

Zpočátku UCB zkoumá více systematického snižování nejistoty, ale její průzkum se časem snižuje. Můžeme tedy říci, že UCB získává v průměru větší odměnu než jiné algoritmy, jako je Epsilon-greedy, Optimistic Initial Values atd.