作者
chen_01_c
责编
Carol
来源
CSDN博客
封图
CSDN付费下载于视觉中国
Hadoop介绍
Hadoop是Lucene创始人DougCutting,根据Google的相关内容山寨出来的分布式文件系统和对海量数据进行分析计算的基础框架系统,其中包含MapReduce程序,hdfs系统等![它受到最先由GoogleLab开发的Map/Reduce和GoogleFileSystem(GFS)的启发。]
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。
Hadoop的框架最核心的设计:HDFS和mapreduce
HDFS:为海量数据提供存储
MapReduce:为海量数据提供了计算cluster:集群
LB:负载均衡
LVSSLBHAPROXY,nginx
HA:高可用
MHA,keepalived,hearebeat
HPC、Hadoop:大批量的计算辅助存储和运算
什么是分布式:分散的
Hadoop的集群优点
Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度
Hadoop还是可伸缩的,能够处理PB级数据。
PB级别的数据换算成G?
IPB=TB
1TB=G
Hadoop依赖于社区服务,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性:hadoop按位存储和处理数据的能力值得人们信赖高扩展性:节点比较多,方便计算和分配数据。什么是节点?
节点是一个术语,代指一类设备.他们可以是主机(pc),服务器,也可以是构成传输网络的交换机,路由器,防火墙等等.
高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
raid容错性是什么意思,raid几没有容错性?raid几有容错性。
低成本:与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低
注意:hadoop框架开发语言:java,在linux上运行效果比较理想。