市面上活跃的大数据处理框架,Spark一定是其中之一,尤其是随着近年来大数据实时数据流处理、批处理等概念的兴起,Spark框架得到进一步的重用。很多时候,Spark常常被拿来与Hadoop做比较。下面海牛学院就来为大家介绍一下,Spark框架有哪些特点?
Spark相对于Hadoop的MapReduce计算框架,同样是基于分布式架构,Spark做了比较大的一个改变,那就是基于内存进行计算,也正是因为Spark基于内存计算的特性,Spark的计算性能得到极大的提升。
Spark的特点:
一、
早期的Hadoop MapReduce计算框架,受限于磁盘读/写性能和网络I/O性能的约束,在处理迭代计算、实时计算、交互式数据查询等方面并不,而这些问题正是Spark开发的方向。Spark基于内存进行存储,能够为多个不同数据源的数据提供近乎实时的处理性能。
综合各种实验表明,Spark在处理迭代计算问题上,要比MapReduce快20多倍,计算数据分析类报表的速度可提高40多倍,能够在5~7秒的延时内交互式扫描1TB数据集。
二、简洁易用
易用性是Spark设计之初就考虑进去的,Spark支持多种语言的API,包括Scala、Java、Python、R等,这使得大数据工程师在进行程序开发时更加便捷。Spark基于Scala语言开发,其强大的类型推断、模式匹配、隐式转换等一系列功能,结合丰富的描述能力,使得Spark应用程序代码非常简洁。
另外,Spark的易用性还体现在其针对数据处理提供丰富的操作。Spark提供80多个针对数据处理的基本操作,如map、flatMap、reduceByKey、filter、cache、collect、textFile等,这使得用户基于Spark进行应用程序开发非常简洁。
三、通用
Spark发展至今,已经形成了相对完备的生态圈,基于核心Spark Core,Spark提供了一系列面向不同应用需求的组件,Spark SQL、Spark Streaming、MLlib、GraphX,面对大数据处理场景上的各种问题,都能给出相应的解决方案。
Spark框架有哪些特点?需要注意的是,作为大数据主流的应用框架之一,Spark确实表现不错,但是也并非完美,只能说在计算性能上,确实很强势。
海牛学院专注于大数据课程开发及培训,"因为专注,所以专业"。如果您想要了解更多大数据的知识,您可以浏览我们的网站,我们会为您提供更专业服务。