一、概述
Hive是基于Hadoop的一个数据仓库(DataAarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。
在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理,MapReduce用于数据处理,而Hive是构建在Hadoop之上的数据仓库,包括以下方面:
使用HQL作为查询接口;
使用HDFS存储;
使用MapReduce或其它计算框架计算;
执行程序运行在Yarn上。
Hive的本质是:将HiveSQL转化成MapReduce程序,其灵活性和扩展性比较好,支持UDF,自定义存储格式等;适合离线数据处理。
Hive相关网站