竹笋

首页 » 问答 » 灌水 » 大数据Hadoop之数据仓库Hive
TUhjnbcbe - 2023/10/2 17:19:00

一、概述

Hive是基于Hadoop的一个数据仓库(DataAarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。

在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理,MapReduce用于数据处理,而Hive是构建在Hadoop之上的数据仓库,包括以下方面:

使用HQL作为查询接口;

使用HDFS存储;

使用MapReduce或其它计算框架计算;

执行程序运行在Yarn上。

Hive的本质是:将HiveSQL转化成MapReduce程序,其灵活性和扩展性比较好,支持UDF,自定义存储格式等;适合离线数据处理。

Hive相关网站

1
查看完整版本: 大数据Hadoop之数据仓库Hive