Úvod
Strojové učení reformovalo způsob, jakým zpracováváme a zkoumáme data, a algoritmy rozhodovacího stromu jsou slavným rozhodnutím pro klasifikační a regresní úlohy. Gini index, jinak nazývaný Giniho nečistota nebo Giniho koeficient, je významnou mírou nečistot využívanou v algoritmech rozhodovacího stromu. V tomto článku podrobně prozkoumáme myšlenku Gini Indexu, jeho číselný vzorec a jeho aplikace ve strojovém učení. Rovněž porovnáme Gini index a další ukazatele nečistot, pohovoříme o jeho omezeních a výhodách a podíváme se na kontextové analýzy jeho aplikací v reálném světě. Konečně zde představíme budoucí ložiska pro výzkum.
Co je Gini Index?
Gini index je podíl nečistoty nebo nerovnosti ve statistických a peněžních podmínkách. Ve strojovém učení se používá jako míra nečistot v algoritmech rozhodovacího stromu pro klasifikační úlohy. Giniho index měří pravděpodobnost, že náhodně vybraný test bude chybně klasifikován algoritmem rozhodovacího stromu, a jeho hodnota se pohybuje od 0 (dokonale čistý) do 1 (dokonale nečistý).
Vzorec Gini Index
Giniho index je podíl nečistoty nebo nerovnosti oběhu, pravidelně používaný jako míra nečistot v algoritmech rozhodovacího stromu. Pokud jde o rozhodovací stromy, Gini Index se používá k určení nejlepší funkce pro rozdělení dat v každém uzlu stromu.
Vzorec pro Gini index je následující:
kde pi je pravděpodobnost, že věc má místo se specifickou třídou.
Například bychom měli uvažovat o problému binární klasifikace se dvěma třídami An a B. V případě, že pravděpodobnost třídy An je p a pravděpodobnost třídy B je (1-p), lze Giniho index vypočítat jako :
Hodnota Giniho indexu se pohybuje od 0,0 do 0,5 pro problémy s binární klasifikací, kde 0,0 ukazuje dokonale čistý uzel (všechny příklady mají místo s podobnou třídou) a 0,5 ukazuje dokonale nečistý uzel (testy jsou rovnoměrně rozděleny mezi dvě třídy ).
Použití Giniho indexu v klasifikačních problémech
Giniho index se obecně používá jako míra nečistot v algoritmech rozhodovacího stromu pro klasifikační problémy. V rozhodovacích stromech každý uzel adresuje prvek a cílem je rozdělit data do podmnožin, které jsou v podstatě tak čisté, jak by se dalo očekávat. Míra nečistot (jako Gini Index) se používá k rozhodnutí o nejlepším rozdělení v každém uzlu.
Abychom to ilustrovali, měli bychom zvážit příklad rozhodovacího stromu pro problém binární klasifikace. Strom má dva prvky: věk a příjem a cílem je předvídat bez ohledu na to, zda se jednotlivec pravděpodobně chystá koupit položku. Strom je konstruován s využitím Giniho indexu jako míry nečistot.
V kořenovém uzlu je Gini index vypočítán s ohledem na pravděpodobnost, že příklady mají místo s třídou 0 nebo třídou 1. Uzel je rozdělen s ohledem na složku, která má za následek nejvyšší pokles Giniho indexu. Tento cyklus se rekurzivně opakuje pro každou podmnožinu, dokud není splněno zastavovací opatření.
Rozhodovací stromy
Rozhodovací strom je dobře známý algoritmus strojového učení, který se používá pro klasifikační i regresní úlohy. Model je zpracován rekurzivním rozdělením datové sady do skromnějších podmnožin ve světle hodnot zvýraznění informací, určených k omezení nečistot v následujících podmnožinách.
V každém uzlu stromu je učiněno rozhodnutí s ohledem na hodnoty jednoho z zvýraznění informací s konečným cílem, aby následující podmnožiny byly v zásadě tak čisté, jak by se skutečně dalo očekávat. Čistota podmnožiny se pravidelně odhaduje pomocí míry nečistot, například Giniho indexu nebo entropie.
Algoritmus rozhodovacího stromu lze využít jak pro binární a vícetřídní klasifikační úlohy, tak i pro regresní úlohy. V úlohách binární klasifikace rozděluje rozhodovací strom soubor dat na dvě podmnožiny ve světle hodnoty binárního prvku, jako je ano nebo ne. V úlohách klasifikace s více třídami rozhodovací strom rozděluje datovou sadu do mnoha podmnožin ve světle hodnot přímého prvku, jako je červená, zelená nebo modrá.
Gini index vs. jiná měření nečistot
Kromě Giniho indexu existují další míry nečistot, které se běžně používají v algoritmech rozhodovacího stromu, například entropie a informační zisk.
Entropie:
Ve strojovém učení je entropie podílem nepravidelnosti nebo zranitelnosti v hromadě dat. Obecně se používá jako míra nečistot v algoritmech rozhodovacího stromu spolu s Gini indexem.
V algoritmech rozhodovacího stromu se entropie využívá k rozhodování o nejlepší složce pro rozdělení dat v každém uzlu stromu. Cílem je najít prvek, který má za následek největší pokles entropie, který se vztahuje ke složce, která poskytuje nejvíce informací o problému klasifikace.
Zatímco entropie a Giniho index se běžně používají jako míry nečistot v algoritmech rozhodovacího stromu, mají různé vlastnosti. Entropie je choulostivější k oběhu názvů tříd a obecně přinese více upravených stromů, zatímco Giniho index je méně citlivý na přivlastňování třídních známek a obecně vytvoří omezenější stromy s menším počtem rozdělení. Rozhodnutí o míře nečistot závisí na konkrétním problému a vlastnostech dat.
Získání informací:
Informační zisk je akce používaná k posouzení povahy rozdělení při vytváření rozhodovacího stromu. Cílem rozhodovacího stromu je rozdělit data do podmnožin, které jsou v zásadě tak homogenní, jak si lze představit jako cílová proměnná, takže následný strom lze využít k vytvoření přesných očekávání na nová data. Informační zisk měří pokles entropie nebo nečistoty dosažený rozdělením. Funkce s nejpozoruhodnějším informačním ziskem je vybrána jako nejlepší vlastnost k rozdělení v každém uzlu rozhodovacího stromu.
Informační zisk je běžně používaným měřítkem pro posouzení povahy rozdělení v rozhodovacích stromech, ale není to, na co bychom se měli zaměřit. Rovněž lze použít různá měření, například Giniho index nebo míru chybné klasifikace. Rozhodnutí o rozdělení základny závisí na hlavním problému a atributech používané datové sady.
Příklad Giniho indexu
Měli bychom zvážit problém binární klasifikace, kde máme datovou sadu 10 příkladů se dvěma třídami: „pozitivní“ a „negativní“. Z 10 příkladů má 6 místo ve třídě „Pozitivní“ a 4 místo ve třídě „Negativní“.
Abychom vypočítali Giniho index souboru dat, nejprve vypočítáme pravděpodobnost každé třídy:
p_1 = 6/10 = 0,6 (kladné)
p_2 = 4/10 = 0,4 (negativní)
Poté v tomto okamžiku použijeme vzorec Gini Index k výpočtu nečistot v souboru dat:
Gini(S) = 1 – (p_1^2 + p_2^2)
= 1 – (0,6^2 + 0,4^2)
= 0,48
Gini index souboru dat je tedy 0,48.
V současné době předpokládejme, že potřebujeme rozdělit datovou sadu na prvek 'X', který má dvě potenciální hodnoty: 'A' a 'B'. S ohledem na komponent jsme datovou sadu rozdělili na dvě podmnožiny:
Podmnožina 1 (X = A): 4 pozitivní, 1 negativní
Podmnožina 2 (X = B): 2 pozitivní, 3 negativní
Abychom vypočítali pokles Gini indexu pro toto rozdělení, nejprve vypočítáme Gini index každé podmnožiny:
Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
Poté použijeme vzorec pro zisk informací k výpočtu poklesu Gini indexu:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Takže informační zisk (tj. pokles Gini indexu) pro rozdělení datové sady na zvýraznění 'X' je 0,08.
Pro tuto situaci, v případě, že vypočítáme informační zisk pro všechny prvky a vybereme ten s nejpozoruhodnějším informačním ziskem, bude tato komponenta vybrána jako nejlepší komponenta pro rozdělení v kořenovém uzlu rozhodovacího stromu.
výhody:
Giniho index je široce zapojeným měřítkem pro hodnocení povahy rozdělení v rozhodovacích stromech a má několik výhod nad různými měřítky, například entropie nebo míra chybné klasifikace. Zde je část hlavních výhod používání Gini indexu:
k shlukovací algoritmus
Výpočetně efektivní: Giniho index je méně komplexní a výpočetně rychlejší měření na rozdíl od různých měření, například entropie, která zahrnuje výpočet logaritmů.
Intuitivní výklad: Gini index je přímočarý a interpretovatelný. Měří pravděpodobnost, že náhodně vybraný příklad ze sady bude nesprávně klasifikován v případě, že byl náhodně označen podle třídy přepravy v sadě.
Dobré pro binární klasifikaci: Giniho index je zvláště účinný pro problémy binární klasifikace, kde má cílová proměnná pouze dvě třídy. V takových případech je známo, že Gini index je stabilnější než různá měření.
Robustní nevyváženost třídy: Giniho index je méně citlivý na třídní nerovnováhu v kontrastu s různými měřítky, například přesností nebo mírou chybné klasifikace. Důvodem je, že Giniho index závisí na obecném rozsahu příkladů v každé třídě na rozdíl od přímých čísel.
Méně náchylné k nadměrnému vybavení: Giniho index bude obecně činit skromnější rozhodovací stromy v kontrastu s různými měřítky, díky čemuž je méně náchylný k nadměrnému vybavení. Důvodem je, že index Gini bude obecně upřednostňovat prvky, které tvoří skromnější části dat, což snižuje možnosti přeplnění.
Nevýhody:
Zatímco Gini index má několik výhod jako rozdělovací opatření pro rozhodovací stromy, má také několik nevýhod. Zde je část hlavních nevýhod používání Gini indexu:
Předpojatost k funkcím s mnoha kategoriemi: Gini index se bude obecně přiklánět k prvkům s mnoha kategoriemi nebo hodnotami, protože mohou vytvářet více rozdělení a parcel dat. To může vést k nadměrné montáži a komplikovanějšímu rozhodovacímu stromu.
Není dobré pro spojité proměnné: Gini index není vhodný pro spojité proměnné, protože vyžaduje diskretizaci proměnné do kategorií nebo přihrádek, což může vést ke ztrátě informací a snížení přesnosti.
Ignoruje interakce funkcí: Giniho index pouze uvažuje o individuální prozíravosti každého prvku a ignoruje interakce mezi prvky. To může vyvolat špatné rozdělení a méně přesné předpovědi.
Není ideální pro některé datové sady: Gini index někdy nemusí být ideálním měřítkem pro hodnocení povahy rozdělení v rozhodovacím stromě. Například v případě, že je objektivní proměnná výjimečně nakloněná nebo nevyvážená, mohou být vhodnější jiná měření, například informační zisk nebo podíl zisku.
Sklon k zkreslení v přítomnosti chybějících hodnot: Giniho index může být v případě chybějících hodnot zkreslen, protože se bude obecně přiklánět k rysům s méně chybějícími hodnotami, bez ohledu na to, zda nejsou nejvíce informativní.
Reálné světové aplikace Gini indexu
Gini Index byl využit v různých aplikacích ve strojovém učení, například v oblasti vydírání, hodnocení úvěrů a v oddělení klientů. Například při odhalování vydírání lze Gini Index využít k rozlišení vzorů při výměně dat a rozpoznání bizarního způsobu chování. V úvěrovém scoringu lze Gini index využít k předvídání pravděpodobnosti nesplácení s ohledem na proměnné, jako je příjem, vztah mezi nesplaceným dluhem a splácením a záznam o splácení úvěru. V klientské divizi lze Gini Index využít k seskupení klientů s ohledem na jejich způsob chování a sklony.
Budoucí výzkum
Navzdory jeho neomezenému použití v algoritmech rozhodovacího stromu stále existuje určitý stupeň pro výzkum Giniho indexu. Jednou z oblastí výzkumu je pokrok v nových měřeních nečistot, které mohou řešit omezení Giniho indexu, jako je jeho sklon k faktorům s mnoha úrovněmi. Další oblastí výzkumu je zefektivnění algoritmů rozhodovacích stromů využívajících Gini Index, například využití technik oblečení pro práci na přesnosti rozhodovacích stromů.
Závěr
Giniho index je významnou mírou nečistot využívanou v algoritmech rozhodovacího stromu pro klasifikační úlohy. Měří pravděpodobnost, že náhodně vybraný test bude chybně klasifikován algoritmem rozhodovacího stromu, a jeho hodnota se pohybuje od 0 (dokonale čistý) do 1 (dokonale nečistý). Gini Index je přímočarý a proveditelný, výpočetně produktivní a až na výjimky výkonný. Používá se v různých aplikacích ve strojovém učení, například při zjišťování nepravdivých údajů, hodnocení kreditů a rozdělení klientů. I když má Gini index několik omezení, stále existuje určitý stupeň pro výzkum jeho zlepšení a zlepšení nových měření nečistot.