竹笋

首页 » 问答 » 常识 » 源码编译安装Ambari274之基础
TUhjnbcbe - 2023/6/25 21:23:00

源码编译安装Ambari2.7.4

之基础环境搭建

-12-06

1.简介

Ambari是什么?简单来说,Ambari是一种支持Hadoop生态圈集群创建、管理和支持的大数据运维平台,Ambari支持大部分Hadoop生态圈的组件,包括诸如HDFS、MapReduce、Oozie、Hive、Pig、Hbase、ZooKeeper、Sqoop、Kafka、Spark、Druid、Storm等几十个常用的Hadoop组件。

2.支持组件介绍

HDFS

HDFS,是Hadoop分布式文件系统。它是Hadoop技术体系中的核心基石,负责分布式存储数据。此分布式文件系统的主要特征是数据分散存储,一个文件存储在HDFS上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上,当多节点并发访问时,可以根据就近原则为其提供副本数据,提高集群的吞吐量。

MapReduce

MapReduce是一种编程模型,用于大规模数据集的并行运算并为其提供安全、低成本、高可靠、安全的任务管理、集群管理、监控与告警等大数据处理分析服务。

Oozie

Oozie是一个开源的工作流和协作服务引擎,基于Hadoop的数据处理任务。Oozie是可扩展的、可伸缩的面向数据的服务,运行在Hadoop平台上。

Hive

Hive是用于解决海量结构化数据分析的一种数据统计工具。本质是将SQL语句解析成MapReduce程序运行在Hadoop上,分析处理海量架构化数据。

Pig

用于简化Hadoop任务,对MapReduce进行更高层次的封装,执行效率快,适用于实时分析。

Hbase

分布式列式数据库。

适用实时数据分析,属于NoSql数据库。

ZooKeeper

针对大型分布式系统的可靠协调系统。

提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

Sqoop

用于传统数据库与HBase数据转移存储,即利用Sqoop可以将传统数据库上的数据转移到Hbase上。

Kafka

一种高吞吐量的分布式发布订阅消息系统。

Spark

大数据内存计算框架。

可以基于Hadoop上存储的大数据进行计算。

Druid

是一个实时分析型数据库,旨在对大型数据集进行快速查询和分析(“OLAP”查询)。

Storm

分布式实时大数据处理系统,它是一个流数据框架。

Flume

Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。

Flink

大数据内存计算框架。用于实时计算的场景较多。

Atlas

数据治理和元数据框架。

Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。

3.说明

3.1系统信息

3.2源码信息

3.3其他软件信息

3.4软件网盘下载地址

链接:

1
查看完整版本: 源码编译安装Ambari274之基础