大数据开发工程师是指专门从事大数据开发工作的技术工程师,他们可以通过各种工具和技术,对数据进行收集、存储、处理和分析。他们往往需要掌握一些计算机科学和数据技术相关的知识,如数据建模、数据库编程和数据算法等。同时,大数据开发工程师还需要具备解决复杂数据问题的能力,这些问题可能要求这些工程师们具备丰富的编程技能和数据分析能力。
数据获取
大数据开发工程师需要从数据源获取数据。他们需要了解一些数据存储技术,如Hadoop,同时还需要掌握一些数据库技术来将数据存储在数据库中。
数据处理
在数据处理阶段,大数据开发工程师需要懂得如何编写大数据算法,并通过使用这些算法,将数据转换成更有用和易于分析的格式。
数据展示
在数据展示阶段,大数据开发工程师需要设计和实现可视化工具,帮助分析师和客户以更直观的方式为数据注入新的解释。
LINUX | 基本命令
常见配置文件
文件操作命令和权限
安装软件
Shell脚本
AWK和sed脚本
内核加载流程
Docker介绍和操作
服务器调优项 |
分布式储存 | Hadoop概述
HBase背景、简介以及系统架构和原理
HBase逻辑模型:行键、列族、timeStamp,HBase物理模型。
HBase环境搭建:伪分布式安装、完全分布式安装
HBase Shell 、HBase客户端API 、HBase表结构设计
HBase之Mapreduce、HDFS数据导入HBase
HBase二级索引、WAL机制、HBase集群迁移方案、导入方案、协处理器
HBase性能调优:JVM优化、查询优化、写优化、配置参数优化 |
Zookeeper | Zookeeper概述
Zookeeper系统架构
Zookeeper数据模型
Zookeeper写数据流程
Zookeeper安装部署
Zookeeper中shell操作
Zookeeper选举机制
Zookeeper监 听操作
Zookeeper 分布式锁实践
Zookeeper应用场景
API操作 |
纱 | YARN介绍
YARN系统架构
YARN作业提交流程
YARN三种调度策略
YARN队列配置
YARN的Node Label机制 |
MapReduce培训 | MapReduce介绍
MapReduce基础案例
MapReduce分片
MapReduce运行流程及shuftle
MapReduce案例
MapReduce相关参数 |
Scala培训 | Scala介绍
Scala基础语法
数组和集合
泛型
隐式转换
IO操作 |
Spark培训 | Spark概述、整体架构、Spark vs Mapreduce 、Spark vs Hive 、Spark Streaming vs Storm等
Spark 环境搭建:hive搭建、kafka搭建、安装apark
Spark 核心编程:基本工作原理、RDD弹性数据集
开发wordcount程序
Spark 创建RDD、各种算子操作(Transformation、Actions)、共享变量(广播、累加)
复杂一些的Spark编程:、二次排序、TopN分析
Spark架构分析:宽窄依赖、基于YARN的提交模式、SparkContext原理剖析、注册机制原理、Executor原理剖析、Task原理剖析、shuffer优化、BlockManager原理剖析、CacheManager原理剖析、Checkpoint原理剖析等
Spark Core调优:内存、判断耗时、优化数据结构、RDD与checkpoint、序列化、JVM、提高并行度、广播共享等
SparkSql
概述、Spark SQL与DataFrame 常用操作
RDD转换DataFrame的两种方式:反射方式、编程方式
通用的load和save操作
数据源:Parquet数据源、JSON数据源、Hive数据源、JDBC数据源
各种复杂案例
Spark Streaming
简介概述 与storm和spark对比、helloword
StreamingContext、DStream与Receiver
DStream基于数据源与HDFS的实时程序
DStream之Kafka数据源、Direct模式 、Transformation操作、与SparkSQL结合使用 |
Hive培训 | Hive背景、介绍
Hive环境安装:内嵌模式、独立模式
Hive 的DDL
Hive 的 DML
Hive常见内置函数
Hive数据类型
Hive窗口函数
Hive自定义函数(UDF、UDAF、UDTF)
Hive 分区表、桶操作
Hive数据装载与导出
Hive动态分区、Hive查询、Hive索引、Hive视图
Hive之IO负载策略、HIVE sql优化、压缩、分布式缓存 |
数据采集 | Sqoop介绍
Sqoop导入和导出命令
Sqoop增量和全量操作
Sqoop优化
Flume介绍
Flume离线采集、实时采集、多路采集
Flume拦截器
Flume优化 |
离线数仓 | 某大型电商项目数据仓库介绍
数据仓库规范
数据粒度
数据仓库模型以及分层
建模介绍
维度建模(维度建模和范式建模)
事实、星座模型
数据需求分析介绍
数据应用操作
数据抽取
数据清洗
数据转化
数据加载 |
调度 | Azkaban介绍
Azkaban系统结构
Azkaban定时案例
Azkaban性能优化 |