提起大数据技术,我们常常会想到大数据技术所需要的生态平台Hadoop和Spark,其中的Spark的概念及学习路线是如何的呢?一起来跟小编看看吧~
一、Spark概念
1、Spark描述
ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。
Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,因为Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。
Spark和Scala能够紧密集成,其中的Scalable可以像操作本地集合对象一样轻松地操作分布式数据集。
2、Spark特点
① 高级API将焦点从集群本身剥离出来,spark应用程序开发人员可以将焦点放在应用程序需要执行的计算本身。
② Spark速度快,支持交互式计算和复杂算法。
③ Spark是一个通用的引擎,它可以用来完成各种操作,包括SQL查询、文本处理、机器学习等,在Spark出现之前,我们一般需要学习各种引擎来处理这些需求。
二、Spark学习路线
Spark的学习路线可以分成编程语言、Linux、Spark三个阶段来学习。
1、编程语言
学习Spark主要学习Java和Scala这两种编程语言。
① Java学习:JavaSE基础语法、Java面向对象、JavaSEAPI、线程、网络编程、反射基本原理。
② Scala学习:Scala基础语言、Scala类、Scala对象、Scala特征、Scala模式匹配,其中需要重点掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等。
2、Linux
Spark是基于Linux系统开发并运行的,因此需要学习Linux系统。
Linux:Linux基础知识、CentOS、Maven。
3、Spark
在Spark阶段中主要学习Spark编程模型、Spark内核、SparkSQL、SparkStreaming。
① Spark编程模型:Spark模型组成、Spark弹性分布式数据集RDD、Spark转换Transformation、Spark操作Actions。
② Spark内核:Spark专业术语定义、Spark运行原理、Spark运行基本流程、Spark运行架构特点、Spark核心原理透视、Spark运行模式、Standalone运行模式、Yarn-Client运行模式、Yarn-Cluster运行模式。
③ SparkSQL:SparkSQL概念、Overview、SparkSQL程序开发数据源、SparkSQL程序开发DataFrame、SparkSQL程序开发DataSet、SparkSQL程序开发数据类型。
④ SparkStreaming:SparkStreming概念、SparkStreaming执行步骤、SparkStreaming程序开发DStream的输入源、SparkStreaming程序开发Dstream的操作、SparkStreaming程序开发程序开发--性能优化、SparkStreaming程序开发容错容灾。
Spark作为大数据技术的重要内容之一,是每一个学习大数据的同学所要必学的生态框架,通过这篇文章大家掌握到Spark的概念及学习路线了吗?