LLE (Lokálně lineární vkládání) je přístup bez dozoru navržený k transformaci dat z jejich původního vysokorozměrného prostoru do reprezentace nižších rozměrů, a to vše při snaze zachovat základní geometrické charakteristiky základní struktury nelineárních prvků. LLE funguje v několika klíčových krocích:
- Nejprve sestrojí graf nejbližších sousedů, aby zachytil tyto místní vztahy. Poté optimalizuje hodnoty hmotnosti pro každý datový bod s cílem minimalizovat chybu rekonstrukce při vyjádření bodu jako lineární kombinace jeho sousedů. Tato hmotnostní matice odráží sílu spojení mezi body.
- Dále LLE vypočítá nižší dimenzionální reprezentaci dat pomocí hledání vlastní vektory matice odvozené z váhové matice. Tyto vlastní vektory představují nejdůležitější směry ve zmenšeném prostoru. Uživatelé mohou určit požadovanou dimenzionalitu pro výstupní prostor a LLE podle toho vybere horní charakteristické vektory.
Jako ilustraci uvažujme a Datová sada švýcarské role , který je ze své podstaty nelineární ve svém vysokorozměrném prostoru. LLE v tomto případě pracuje na projekci této složité struktury na rovinu nižší dimenze, přičemž si zachovává své výrazné geometrické vlastnosti během procesu transformace.
Obsah
- Matematická implementace algoritmu LLE
- Algoritmus lokálně lineárního vkládání
- Parametry v algoritmu LLE
- Implementace lokálně lineárního vkládání
- Výhody LLE
- Nevýhody LLE
Matematická implementace algoritmu LLE
Klíčovou myšlenkou LLE je, že lokálně, v blízkosti každého datového bodu, leží data přibližně na lineárním podprostoru. LLE se pokouší rozvinout nebo rozvinout data při zachování těchto lokálních lineárních vztahů.
Zde je matematický přehled algoritmu LLE:
Minimalizovat: 
Předmět: 
Kde:
příklady programování v pythonu
- Xipředstavuje i-tý datový bod.
- vijjsou váhy, které minimalizují chybu rekonstrukce pro datový bod xipomocí svých sousedů.
Klade si za cíl najít nižší dimenzionální reprezentaci dat při zachování místních vztahů. Matematický výraz pro LLE zahrnuje minimalizaci chyby rekonstrukce každého datového bodu tím, že jej vyjádříte jako vážený součet jeho k nejbližším sousedům „příspěvky. Tato optimalizace podléhá omezením zajišťujícím, že součet vah je 1 pro každý datový bod. Locally Linear Embedding (LLE) je technika snižování rozměrů používaná ve strojovém učení a analýze dat. Zaměřuje se na zachování lokálních vztahů mezi datovými body při mapování vysokorozměrných dat do méněrozměrného prostoru. Zde vysvětlíme algoritmus LLE a jeho parametry.
Algoritmus lokálně lineárního vkládání
Algoritmus LLE lze rozdělit do několika kroků:
- Výběr sousedství: Pro každý datový bod ve vysokorozměrném prostoru identifikuje LLE jeho k-nejbližší sousedy. Tento krok je zásadní, protože LLE předpokládá, že každý datový bod lze dobře aproximovat lineární kombinací jeho sousedů.
- Konstrukce matice hmotnosti: LLE vypočítá sadu vah pro každý datový bod, aby jej vyjádřil jako lineární kombinaci jeho sousedů. Tyto váhy jsou určeny tak, aby byla minimalizována chyba rekonstrukce. K nalezení těchto vah se často používá lineární regrese.
- Zachování globální struktury: Po zkonstruování váhové matice se LLE snaží najít nižší dimenzionální reprezentaci dat, která nejlépe zachovává místní lineární vztahy. Provádí to hledáním sady souřadnic v prostoru nižších rozměrů pro každý datový bod, což minimalizuje nákladovou funkci. Tento nákladová funkce vyhodnocuje, jak dobře může být každý datový bod reprezentován svými sousedy.
- Vložení výstupu: Jakmile je proces optimalizace dokončen, LLE poskytuje konečnou nižší dimenzionální reprezentaci dat. Tato reprezentace zachycuje základní strukturu dat a zároveň snižuje jejich rozměrnost.
Parametry v algoritmu LLE
LLE má několik parametrů, které ovlivňují jeho chování:
- k (Počet sousedů): Tento parametr určuje, kolik nejbližších sousedů je uvažováno při konstrukci matice váhy. Větší k zachycuje více globálních vztahů, ale může způsobit šum. Menší k se zaměřuje na místní vztahy, ale může být citlivé na odlehlé hodnoty. Výběr vhodné hodnoty pro k je zásadní pro úspěch algoritmu.
- Rozměr výstupního prostoru: Můžete určit dimenzionalitu prostoru nižší dimenze, do kterého budou data mapována. To se často volí na základě požadavků problému a kompromisu mezi výpočetní složitostí a uchováním informací.
- Metrika vzdálenosti: LLE se při definování vzdálenosti mezi datovými body spoléhá na metriku vzdálenosti. Mezi běžné možnosti patří Euklidovská vzdálenost, Manhattanská vzdálenost nebo uživatelsky definované funkce vzdálenosti. Volba metriky vzdálenosti může ovlivnit výsledky.
- Regularizace (volitelné): V některých případech jsou do nákladové funkce přidány podmínky regularizace, aby se zabránilo nadměrnému vybavení. Regulace může být užitečná při práci s hlučnými daty nebo při vysokém počtu sousedů.
- Optimalizační algoritmus (volitelné): LLE často používá optimalizační techniky jako Dekompozice singulární hodnoty (SVD) nebo metody vlastního vektoru k nalezení reprezentace nižší dimenze. Tyto optimalizační metody mohou mít své vlastní parametry, které lze upravit.
LLE (Locally Linear Embedding) představuje významný pokrok ve strukturální analýze, který překonává tradiční techniky modelování hustoty, jako je místní PCA nebo směsi faktorových analyzátorů. Omezení hustotních modelů spočívá v jejich neschopnosti konzistentně stanovit soubor globálních souřadnic schopných začlenit pozorování do celého strukturálního varieta. V důsledku toho se ukázaly jako nedostatečné pro úkoly, jako je generování nízkorozměrných projekcí původního souboru dat. Tyto modely vynikají pouze v identifikaci lineárních prvků, jak je znázorněno na obrázku níže. Nedosahují však schopnosti zachytit složité zakřivené vzory, což je schopnost vlastní LLE.
Vylepšená výpočetní efektivita s LLE. LLE nabízí vynikající výpočetní efektivitu díky své řídké manipulaci s maticí, která překonává ostatní algoritmy.
Implementace lokálně lineárního vkládání
Import knihoven
Python3
#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding> |
>
>
Kód začíná importem potřebných knihoven, včetně numpy, matplotlib.pyplot , make_swiss_roll ze sklearn.datasets a LocallyLinearEmbedding z sklearn.manifold .
Generování syntetické datové sady (Swiss Roll)
Python3
# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)> |
>
>
Generuje syntetickou datovou sadu připomínající Swiss Roll pomocí funkce make_swiss_roll ze scikit-learn.
n_samples určuje počet datových bodů, které se mají vygenerovat.
n_neighbors definuje počet sousedů použitých v algoritmu LLE.
Použití lokálně lineárního vkládání (LLE)
Python3
# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)> |
>
>
Instance algoritmu LLE je vytvořena pomocí LocallyLinearEmbedding. Parametr n_neighbors určuje počet sousedů, které je třeba vzít v úvahu během procesu vkládání.
Algoritmus LLE je pak přizpůsoben původním datům X pomocí fit_transform metoda. Tento krok redukuje datovou sadu na dva rozměry (n_components=2).
Vizualizace původních a redukovaných dat
Python3
# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()> |
>
>
Výstup:
Lokálně lineární vkládání
Ve druhém dílčím grafu jsou redukovaná data získaná z LLE (X_reduced) vizualizována podobným způsobem jako původní data. Barva datových bodů je stále určena třetím znakem původních dat (X[:, 2]). plt.tight_layout() Funkce se používá k zajištění správného rozestupu mezi dílčími grafy.
Výhody LLE
Metoda redukce rozměrů známá jako lokálně lineární vkládání (LLE) má mnoho výhod pro zpracování dat a vizualizaci. Hlavní výhody LLE jsou následující:
- Zachování místních struktur : LLE je vynikající v udržování místních vztahů nebo struktur v datech. Úspěšně zachycuje vlastní geometrii nelineárních rozvodů udržováním párových vzdáleností mezi blízkými datovými body.
- Zvládání nelinearity : LLE má schopnost zachytit nelineární vzory a struktury v datech, na rozdíl od lineárních technik jako Analýza hlavních komponent (PCA). Při práci s komplikovanými, zakřivenými nebo zkroucenými datovými sadami je to zvláště užitečné.
- Redukce rozměrů : LLE snižuje rozměrnost dat při zachování jejich základních vlastností. Zejména při práci s vysokorozměrnými datovými sadami toto snížení zjednodušuje prezentaci dat, průzkum a analýzu.
Nevýhody LLE
- Prokletí dimenzionality : LLE může zažít prokletí dimenzionality při použití s extrémně vysokorozměrnými daty, stejně jako mnoho jiných přístupů ke snížení rozměrů. Počet sousedů potřebných k zachycení lokálních interakcí roste s velikostí, což potenciálně zvyšuje výpočetní náklady přístupu.
- Paměťové a výpočetní požadavky : U velkých datových sad může být vytváření vážené matice sousedství jako součásti LLE náročné na paměť. Fáze dekompozice vlastních čísel může být také výpočetně náročná pro velké datové sady.
- Odlehlé hodnoty a hlučná data : LLE je citlivý na anomálie a nervózní datové body. Kvalita vložení může být ovlivněna a místní lineární vztahy mohou být zkresleny odlehlými hodnotami.