随着互联网、物联网、5G、人工智能、云计算等技术的不断发展,越来越多的数据在互联网上产生,对互联网运营的也要求开始精细化,因此大数据、数据分析、数字营销开始变成互联网企业的重点。
Spark初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的、通用引擎。
2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。
Spark初的设计目标是使数据分析更快——不仅运行速度快,也要能、容易地编写程序。
为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。
虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域热门的大数据计算平台。
据小编了解企业在面试Spark工程师的时候,至少需要达到1~3年工作经验的,那我们的课程可以为你带来什么呢?如果你有一定的基础,但是苦于没有找到合适的进阶课程,不妨学习一下,我们针对有Scala基础的同学们,精心准备的进阶课程。
本课程将从Spark基础、原理到优化,从浅到深,层层深入递进,讲解Spark体系。原理分析和性能优化经验都是对于Spark的重要加分项,在实际工作中也能起到非常重要作用。通过一个教育平台大数据分析系统来进行实战演练,将所学即所用,在真正的需求分析实现过程中完成对Spark体系的掌控。
我们课程的重点内容
Apache Spark基础及架构 | 认识Spark和Spark技术栈 Spark架构设计 Spark运行环境 Spark核心数据结构—RDD RDD的数据变换及操作 |
Apache Spark | RDD依赖 DAG工作原理 Spark Shuffle原理 RDD优化 装载CSV数据源 装载JSON数据源 使用IDEA开发Spark应用程序 |
Spark SQL精华及与Hive的集成 | Spark SQL原理 Spark SQL优化器 – Catalyst Optimizer Dataset与DataFrame的操作 Spark SQL操作外部数据源 Spark函数应用与开发 Spark-SQL Shell Spark性能优化 |
教育平台大数据分析系统 | 日志数据清洗 用户留存分析 活跃用户分析 活跃用户地域信息分析 用户浏览深度分析 |