源码编译安装Ambari2.7.4
之基础环境搭建
-12-06
1.简介
Ambari是什么?简单来说,Ambari是一种支持Hadoop生态圈集群创建、管理和支持的大数据运维平台,Ambari支持大部分Hadoop生态圈的组件,包括诸如HDFS、MapReduce、Oozie、Hive、Pig、Hbase、ZooKeeper、Sqoop、Kafka、Spark、Druid、Storm等几十个常用的Hadoop组件。
2.支持组件介绍
HDFS
HDFS,是Hadoop分布式文件系统。它是Hadoop技术体系中的核心基石,负责分布式存储数据。此分布式文件系统的主要特征是数据分散存储,一个文件存储在HDFS上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上,当多节点并发访问时,可以根据就近原则为其提供副本数据,提高集群的吞吐量。
MapReduce
MapReduce是一种编程模型,用于大规模数据集的并行运算并为其提供安全、低成本、高可靠、安全的任务管理、集群管理、监控与告警等大数据处理分析服务。
Oozie
Oozie是一个开源的工作流和协作服务引擎,基于Hadoop的数据处理任务。Oozie是可扩展的、可伸缩的面向数据的服务,运行在Hadoop平台上。
Hive
Hive是用于解决海量结构化数据分析的一种数据统计工具。本质是将SQL语句解析成MapReduce程序运行在Hadoop上,分析处理海量架构化数据。
Pig
用于简化Hadoop任务,对MapReduce进行更高层次的封装,执行效率快,适用于实时分析。
Hbase
分布式列式数据库。
适用实时数据分析,属于NoSql数据库。
ZooKeeper
针对大型分布式系统的可靠协调系统。
提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
Sqoop
用于传统数据库与HBase数据转移存储,即利用Sqoop可以将传统数据库上的数据转移到Hbase上。
Kafka
一种高吞吐量的分布式发布订阅消息系统。
Spark
大数据内存计算框架。
可以基于Hadoop上存储的大数据进行计算。
Druid
是一个实时分析型数据库,旨在对大型数据集进行快速查询和分析(“OLAP”查询)。
Storm
分布式实时大数据处理系统,它是一个流数据框架。
Flume
Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
Flink
大数据内存计算框架。用于实时计算的场景较多。
Atlas
数据治理和元数据框架。
Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。
3.说明
3.1系统信息
3.2源码信息
3.3其他软件信息
3.4软件网盘下载地址
链接: