logo

Výukový program Apache Spark

Výukový program Apache Spark

Výukový program Apache Spark poskytuje základní a pokročilé koncepty Spark. Náš výukový program Spark je určen pro začátečníky i profesionály.

Spark je jednotný analytický engine pro rozsáhlé zpracování dat včetně vestavěných modulů pro SQL, streamování, strojové učení a zpracování grafů.

Náš výukový program Spark zahrnuje všechna témata Apache Spark s úvodem Spark, instalací Spark, architekturou Spark, komponentami Spark, RDD, příklady Spark v reálném čase a tak dále.

pokud jinak bash

Co je Spark?

Apache Spark je open-source clusterový výpočetní rámec. Jeho primárním účelem je zpracování dat generovaných v reálném čase.

Spark byl postaven na vrcholu Hadoop MapReduce. Byl optimalizován pro běh v paměti, zatímco alternativní přístupy, jako je MapReduce od Hadoop, zapisují data na pevné disky počítače a z nich. Spark tedy zpracovává data mnohem rychleji než jiné alternativy.

Historie Apache Spark

Spark inicioval Matei Zaharia v AMPLab UC Berkeley v roce 2009. V roce 2010 byl otevřen pod licencí BSD.

js onclick

V roce 2013 projekt získal Apache Software Foundation. V roce 2014 se Spark objevil jako projekt Apache nejvyšší úrovně.

Vlastnosti Apache Spark

    Rychle- Poskytuje vysoký výkon pro dávková i streamovaná data pomocí nejmodernějšího DAG plánovače, optimalizátoru dotazů a fyzického spouštěcího enginu.Snadné použití- Usnadňuje psaní aplikace v jazycích Java, Scala, Python, R a SQL. Poskytuje také více než 80 operátorů na vysoké úrovni.Všeobecnost- Poskytuje kolekci knihoven včetně SQL a DataFrames, MLlib pro strojové učení, GraphX ​​a Spark Streaming.Lehká váha- Je to lehký jednotný analytický engine, který se používá pro zpracování dat ve velkém měřítku.Běží všude- Může snadno běžet na Hadoop, Apache Mesos, Kubernetes, samostatně nebo v cloudu.

Použití Sparku

    Integrace dat:Data generovaná systémy nejsou dostatečně konzistentní, aby je bylo možné kombinovat pro analýzu. K načtení konzistentních dat ze systémů můžeme použít procesy jako Extrahovat, transformovat a načíst (ETL). Spark se používá ke snížení nákladů a času potřebného pro tento proces ETL.Zpracování streamu:Vždy je obtížné zpracovat data generovaná v reálném čase, jako jsou soubory protokolu. Spark je dostatečně schopný provozovat toky dat a odmítá potenciálně podvodné operace.Strojové učení:Přístupy strojového učení se stávají proveditelnějšími a stále přesnějšími díky zvýšení objemu dat. Protože spark je schopen ukládat data do paměti a může rychle spouštět opakované dotazy, usnadňuje práci na algoritmech strojového učení.Interaktivní analytika:Spark je schopen rychle generovat odpověď. Takže místo spouštění předdefinovaných dotazů můžeme data zpracovávat interaktivně.

Předpoklad

Než se naučíte Spark, musíte mít základní znalosti Hadoopu.

ipconfig pro ubuntu

Publikum

Náš výukový program Spark je navržen tak, aby pomohl začátečníkům i profesionálům.

Problémy

Ujišťujeme vás, že s tímto tutoriálem Spark nenajdete žádný problém. Pokud však dojde k nějaké chybě, uveďte problém v kontaktním formuláři.