源码编译安装Ambari274之基础 - 竹笋 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2023/6/25 21:23:00

源码编译安装Ambari2.7.4

之基础环境搭建

-12-06

1.简介

Ambari是什么？简单来说，Ambari是一种支持Hadoop生态圈集群创建、管理和支持的大数据运维平台，Ambari支持大部分Hadoop生态圈的组件，包括诸如HDFS、MapReduce、Oozie、Hive、Pig、Hbase、ZooKeeper、Sqoop、Kafka、Spark、Druid、Storm等几十个常用的Hadoop组件。

2.支持组件介绍

HDFS

HDFS，是Hadoop分布式文件系统。它是Hadoop技术体系中的核心基石，负责分布式存储数据。此分布式文件系统的主要特征是数据分散存储，一个文件存储在HDFS上时会被分成若干个数据块，每个数据块分别存储在不同的服务器上，当多节点并发访问时,可以根据就近原则为其提供副本数据,提高集群的吞吐量。

MapReduce

MapReduce是一种编程模型，用于大规模数据集的并行运算并为其提供安全、低成本、高可靠、安全的任务管理、集群管理、监控与告警等大数据处理分析服务。

Oozie

Oozie是一个开源的工作流和协作服务引擎，基于Hadoop的数据处理任务。Oozie是可扩展的、可伸缩的面向数据的服务，运行在Hadoop平台上。

Hive

Hive是用于解决海量结构化数据分析的一种数据统计工具。本质是将SQL语句解析成MapReduce程序运行在Hadoop上，分析处理海量架构化数据。

Pig

用于简化Hadoop任务，对MapReduce进行更高层次的封装，执行效率快，适用于实时分析。

Hbase

分布式列式数据库。

适用实时数据分析，属于NoSql数据库。

ZooKeeper

针对大型分布式系统的可靠协调系统。

提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

Sqoop

用于传统数据库与HBase数据转移存储，即利用Sqoop可以将传统数据库上的数据转移到Hbase上。

Kafka

一种高吞吐量的分布式发布订阅消息系统。

Spark

大数据内存计算框架。

可以基于Hadoop上存储的大数据进行计算。

Druid

是一个实时分析型数据库,旨在对大型数据集进行快速查询和分析(“OLAP”查询)。

Storm

分布式实时大数据处理系统，它是一个流数据框架。

Flume

Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据。

Flink

大数据内存计算框架。用于实时计算的场景较多。

Atlas

数据治理和元数据框架。

Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。

3.说明

3.1系统信息

3.2源码信息

3.3其他软件信息

3.4软件网盘下载地址

链接：