Hive is een datawarehouse-systeem dat wordt gebruikt om gestructureerde gegevens te analyseren. Het is gebouwd op de top van Hadoop. Het is ontwikkeld door Facebook.
Hive biedt de functionaliteit voor het lezen, schrijven en beheren van grote datasets die zich in gedistribueerde opslag bevinden. Het voert SQL-achtige query's uit, genaamd HQL (Hive-querytaal), die intern worden geconverteerd naar MapReduce-taken.
Met Hive kunnen we de vereiste van de traditionele aanpak van het schrijven van complexe MapReduce-programma's overslaan. Hive ondersteunt Data Definition Language (DDL), Data Manipulation Language (DML) en door de gebruiker gedefinieerde functies (UDF).
Kenmerken van Hive
Dit zijn de volgende kenmerken van Hive:
- Hive is snel en schaalbaar.
- Het biedt SQL-achtige query's (d.w.z. HQL) die impliciet worden getransformeerd naar MapReduce- of Spark-taken.
- Het is in staat grote datasets te analyseren die zijn opgeslagen in HDFS.
- Het maakt verschillende opslagtypen mogelijk, zoals platte tekst, RCFile en HBase.
- Het maakt gebruik van indexering om zoekopdrachten te versnellen.
- Het kan werken op gecomprimeerde gegevens die zijn opgeslagen in het Hadoop-ecosysteem.
- Het ondersteunt door de gebruiker gedefinieerde functies (UDF's) waar de gebruiker zijn functionaliteit kan leveren.
Beperkingen van Hive
- Hive kan geen realtime gegevens verwerken.
- Het is niet ontworpen voor online transactieverwerking.
- Hive-query's bevatten een hoge latentie.
Verschillen tussen bijenkorf en varken
Bijenkorf | Varken |
---|---|
Hive wordt vaak gebruikt door data-analisten. | Pig wordt vaak gebruikt door programmeurs. |
Het volgt SQL-achtige queries. | Het volgt de datastroomtaal. |
Het kan gestructureerde gegevens verwerken. | Het kan semi-gestructureerde gegevens verwerken. |
Het werkt aan de serverzijde van het HDFS-cluster. | Het werkt aan de clientzijde van het HDFS-cluster. |
Hive is langzamer dan Pig. | Pig is relatief sneller dan Hive. |