【课程内容】
1、Java入门、Java基本语法、流程控制语句、数组、面向对象、常用类、集合、多线程、网络编程等;
2、MySQL数据库、JDBC、数据库连接池等;
3、HTML、CSS、JavaScript、JSP与Servlet、maven、S框架等;
4、Web实训项目、Linux实训项目、Hadoop实训项目等。
5、hadoop概述、hadoop服务器基础环境、zookeeper安装与使用、hadoop伪分布式环境、hadoop安装、hdfs分布式文件系统等。
6、hive介绍与安装、hive数据类型与基础语法、hive表操作、hive大数据查询等。
7、hbase概述、hbase安装、hbase原理、hbase的shell操作等。
8、oozie原理与安装、oozie任务调度、oozie的任务配置等。
9、flume概述与安装、flume应用、fume定制开发等。
【spark介绍】
1. rdd原理:
RDD设计背景、RDD概念、RDD转换、RDD行为、RDD血缘关系、RDD容错性、RDD内存使用、RDD缓存数据、RDD依赖关系、宽依赖、窄依赖、宽依赖与窄依赖的区别、RDD的阶段划分、RDD缓存、RDD数据倾斜解决、RDD优化
2. spark常用Transformations算子:
map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、aggregateByKey、sortByKey、join、cogroup、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions
3. spark常用Actions算子
reduce、collect、count、first、take、takeSample、takeOrdered、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、countByKey、foreach
4. spark-core
rdd常用操作、pairRdd常用操作、sparkconf配置对象、sparkcontext设置、spark-core的java版API、spark-core的scala版API、集合操作、cache函数、persist函数、unpersist函数、广播变量、累加器、spark编程wordCount、spark编程排序、spark编程二次排序、spark编程mapjoin、spark使用hadoop序列化方法、spark读写hive的ORC文件
5.spark-sql
hive与spark-sql对比、配置spark-sql使用hive元数据库、spark-sql在yarn上运行driver、spart-sql在yarn上运行thriftserver、beeline与thriftserver通信、缓存表、spark-jdbc编程、spark-sql读写json文件、spark-sql自定义schema、spark-sql对象化schema、spark-sql读写hive的orc格式文件、spark-sql的标准sql支持、spark-sql的hive sql支持、spark-sql使用JDBC访问mysql、dataFrame使用、dataSet使用、spark-sql与常用rdd的转换
6. spark-hbase
spark-hbase的java版API、spark-hbase的scala版API、spark写入hbase、spark批量写入hbase、spark中使用tableoutputformat多分区写入、spark的hadoopDataSet操作、spark批量读取hbase、spark使用filter过滤hbase数据、spark生成hbase的hfile文件、spark整合hbase的bulk load功能、spark-hbase集群运行调优
7. spark-streaming
流式计算的特点、spark-streaming的原理、spark-streaming的生态组件、storm与Spark Streming对比、spark-streaming的优缺点、spark-streaming的数据处理流程、spark-streaming的架构与抽象、spark-streaming的java版API、spark-streaming的scala版API、spark-streaming的DStream对象、DStream的Transformations操作、DStream的Output Operations操作、updateStateByKey原理与使用、DStream使用transform转换成RDD、windows函数原理、windows函数窗口间隔、windows滑动间隔、spark-streaming保存压缩文件、spark-streaming保存hive的ORC文件、spark-streaming数据导入到hbase、spark-streaming的socket模式、ncat工具的使用、spark-streaming的checkpoint原理、spark-streaming的文件模式、spark-streaming的kafka模式、spark-streaming编程在windows函数中使用updateStateByKey、spark-streaming编程使用历史数据中新值、spark-streaming编程使用checkpoint恢复历史数据、spark-streaming编程spark-streaming-kafka cogroup spark-streaming-file
8. spark调优
内存:对象头内存、String内存、集合内存、虚拟机垃圾回收原理、虚拟机垃圾回收调优、虚拟机对象内存空间分配、垃圾回收检测、优化executor内存比例
序列化:Java序列化机制、Kryo序列化机制、优化Kryo类库缓存大小、注册自定义类型、禁用Kryo序列化引用
数据结构:数组代替集合、字符串代替集合、JSON代替对象
持久化:持久化、Checkpoint冗余
并行度:算子并行度设置、conf默认并行度设置、cpu core与task并行度比例
共享数据:共享数据优点、共享数据代替外部变量、使用共享数据shuffle
数据本地化:数据本地化性能影响、PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY、数据本地方调化方案
算子优化reduceByKey优点、shuffle排序的取舍、groupByKey.map使用场景、cogroup使用场景、join方案代替cogroup、combiner的使用
数据倾斜:spark-sql数据倾斜group场景、spark-sql数据倾斜join场景、倾斜数据的清洗、随机前缀多次聚合、倍数扩容与倍数冗余、mapjoin、数据倾斜shuffle取舍
shuffle:consolidate机制、reduce task的拉取缓存、map task的写磁盘缓存、失败重试次数、失败重试间隔、reduce端内存聚合比例、sortShuffleManager
streaming:DStream接收并行度调优、block接收并行度调优、task接收并行度调优、处理并行度调优、序列化调优、batch间隔调优、streaming算子调化、内存调优、streaming执行化方案选择、压缩机制
spark-streaming-kafka:直连模式并行度调优、kafka分区offerset管理、offerset丢失容灾机制
【Flink介绍】
1. flink概述:
flink介绍、Flink生态、Flink的发展与未来趋势、与Hadoop Spark Storm的对比、flink的反压机制、Flink的DataFlow原理、Flink的带状态编程、flink的barrier、flink的exactly-once机制、flink的内存管理、flink的排序机制、flink的分布式原理、flink的计算资源、flink的Graph原理、flink的Operator Chains、flink的Slot共享机制、TaskSlot、Task与subtask、parallelism、SlotSharingGroup、CoLocationGroup、flink的Connector
2. flink安装:
local模式安装、Standalone模式安装、HA模式安装、yarn模式安装、TaskManger原理、JobManagers原理、Client原理、使用Flink集群运行WordCount、Flink Job的启动过程
3. flink窗口:
统计Windows、滚动Window、滑动Window、事件Window、自定义Windows、事件Time、获取Time、处理Time、Operator State、Keyed State、原始状态和托管状态、State Backend
4. flink开发:
Flink Scala/Java开发环境搭建、flink支持的数据类型、Processing Function、Operator基本算子介绍 、flink的流式计算、DataStream Api、flink的批量计算、DataSet Api、flink的checkpoint与savepoint、Evaluation、DataSource、Transformation Functions、Sink、Accumulators & Counters、broadcast、Connector、Window Join、Interval Join、异步IO、Side Outputs、分布式缓存、Table & SQL、Flink批处理容错机制、Flink与Kafka集成开发实战、Flink与HDFS集成开发实战、Flink与HBASE集成开发实战、Flink与Redis集成开发实战
【授课方式】
线下纯面授。学习周期6个月,周一至周六(周三自习,周日休息),上2天课辅导自习1天,上3天课,休息1天,每天可在校学习时长15小时左右。
【教学特色】
1、真正大数据课程---打造企业求贤若渴的你
杜绝千篇一律的教学,只教你企业主流的大数据开发技术,创始人亲力亲为,所有技术都是出自企业真实的在线运行项目,让你真正搞懂Hadoop/spark/flink生态架构,真正做到独立搭建和设计大型商业项目,融合多种技术,从架构师的思维给你剖析,力争做到人人都是架构师。
2、拒绝纯讲师---技术精湛又懂学生心理的讲师才是你的 爱
培训中心的大数据阶段讲师全部来自国内互联网企业技术大牛,为什么要花重金请互联网企业技术大牛?因为只有成熟的互联网产品才能产生上TB,PB级的数据量,对于互联网企业来讲数据就是生存的本钱,也只有互联网企业才懂得什么是数据的流量变现,所以只有做过这样业务的人,才懂得什么是大数据真正的价值。只有真正处理过TB,PB级数据量并做过真正大数据价值项目的人,才叫做大数据界的老司机。创始人来自猎豹的前身---金山公司的大数据开发核心人员,其他讲师以下也会有逐一介绍。
3、硬件环境---拒绝一直电脑上跑虚拟机,那不是在学真正的大数据
海牛培训中心服务器单台配置:48核 128G内存,16T硬盘,同时可以跑几十亿条的数据,共计11台的服务器,全天24小时免费提供给学员使用,学员毕业后还可再使用2个月。
4、暖心教育---高就业好口碑
以小组带动个人,不放弃任何一个想学习的人,讲师+助教全程关注跟进教学;学员钉钉考勤打卡形成自我管理;学员学习有红包+有礼品+有荣誉,正向激励促进学习风气。
就业率95%以上,每期班平均就业月薪15K左右,真实就业数据可以加过往期小海牛就业群一探究竟。学员可直接进入名企内推,辅导简历、面试,直到找到高薪工作。