竹笋

首页 » 问答 » 环境 » 第五大安全之Linux架构师Hadoo
TUhjnbcbe - 2023/10/29 17:20:00
北京白癜风治疗方法 https://mip.yyk.99.com.cn/fengtai/68389/
我的功力不只一方面够你入高手之境

一、MapReduce理论基础

每个MapReducejob都是Hadoop客户端想要执行的一个工作单元,它一般由输入数据、MapReduce程序和配置信息组成,而Hadoop会把每个job分隔成两类任务(task):map任务和reduce任务。在Hadoop集群中有两类节点来执行两类job进程的执行

1.1大数据处理

任何基础业务包含了收集、分析、监控、过滤、搜索或组织web内容的公司或组织都面临着所谓的“大数据”问题:“web规模”处理即海量数据处理的代名词。社交类网站的兴起也使得这些组织面临着另一个问题:用户行为数据分析,这涉及到通过日志文件记录用户的对web页面浏览、点击、停留时长等,而后对日志文件中的大量数据进行分析以支持进行合理、正确的商业决策。

那么,大数据处理究竟意味着对多大规模的数据进行处理?一个简单的例子:Google在年平均每天利用MapReduce处理GB的数据,到年平均每天处理的数据已经达到20PB;年,Facebook的数据量达到2.5PB,且以每天15TB的速度在增长。PB级别的数据集正变得越来越常见,大数据时代的到来已然是不争的事实,密集数据处理也正迅速成为现实需求。

大数据问题的处理需要以与传统数据处理方式所不同的方法去实现,这正是MapReduce思想得以大放光彩的核心所在。MapReduce在实现大数据处理上有着多个基础理论思想的支撑,然而这些基础理论甚至实现方法都未必是MapReduce所创,它们只是被MapReduce采用独特的方式加以利用而已。

(1)向外扩展(Scaleout)而非向上扩展(Scaleup):大数据的处理更适合采用大量低端商业服务器(scaleout)而非少量高端服务器(scaleup)。后者正是向上扩展的系统性能提升方式,它通常采用有着SMP架构的主机,然而有着大量的CPU插槽(成百上千个)及大量的共享内存(可以多达数百GB)的高端服务器非常昂贵,但其性能的增长却非线性上升的,因此性价比很一般。而大量的低端商业服务器价格低廉、易于更换和伸缩等特性有效避免了向上扩展的敝端。

(2)假设故障很常见(Assumefailuresare

1
查看完整版本: 第五大安全之Linux架构师Hadoo