Hive je systém datového skladu, který se používá k analýze strukturovaných dat. Je postaven na vrcholu Hadoop. Byl vyvinut společností Facebook.
Hive poskytuje funkce čtení, zápisu a správy velkých datových sad umístěných v distribuovaném úložišti. Spouští dotazy podobné SQL nazývané HQL (Hive query language), které se interně převádějí na úlohy MapReduce.
Pomocí Hive můžeme přeskočit požadavek tradičního přístupu psaní složitých programů MapReduce. Hive podporuje Data Definition Language (DDL), Data Manipulation Language (DML) a User Defined Functions (UDF).
Vlastnosti Hive
Toto jsou následující funkce Hive:
- Úl je rychlý a škálovatelný.
- Poskytuje dotazy podobné SQL (tj. HQL), které jsou implicitně transformovány na úlohy MapReduce nebo Spark.
- Je schopen analyzovat velké datové sady uložené v HDFS.
- Umožňuje různé typy úložiště, jako je prostý text, RCFile a HBase.
- K urychlení dotazů používá indexování.
- Může pracovat s komprimovanými daty uloženými v ekosystému Hadoop.
- Podporuje uživatelem definované funkce (UDF), kde může uživatel poskytnout své funkce.
Omezení Hive
- Hive není schopen zpracovávat data v reálném čase.
- Není určen pro online zpracování transakcí.
- Dotazy podregistru obsahují vysokou latenci.
Rozdíly mezi úlem a prasetem
Úl | Prase |
---|---|
Hive běžně používají datoví analytici. | Pig je běžně používaný programátory. |
Sleduje dotazy podobné SQL. | Řídí se jazykem toku dat. |
Dokáže pracovat se strukturovanými daty. | Dokáže zpracovávat polostrukturovaná data. |
Funguje na serverové straně clusteru HDFS. | Funguje na klientské straně clusteru HDFS. |
Úl je pomalejší než prase. | Prase je poměrně rychlejší než Hive. |