济南大数据开发工程师培训-黑之猫

济南大数据开发工程师培训

400-800-2178

在线咨询

课程级别

入门级

培训周期

2-3个月

培训时间

全日制

课程价格

询价

黑之猫

课程(4) 校区(1) 入驻(2)年

上课地址

济南市槐荫区西元大厦2号楼1308

课程详情

大数据开发工程师是指专门从事大数据开发工作的技术工程师，他们可以通过各种工具和技术，对数据进行收集、存储、处理和分析。他们往往需要掌握一些计算机科学和数据技术相关的知识，如数据建模、数据库编程和数据算法等。同时，大数据开发工程师还需要具备解决复杂数据问题的能力，这些问题可能要求这些工程师们具备丰富的编程技能和数据分析能力。

数据处理三阶段

数据获取
大数据开发工程师需要从数据源获取数据。他们需要了解一些数据存储技术，如Hadoop，同时还需要掌握一些数据库技术来将数据存储在数据库中。
数据处理
在数据处理阶段，大数据开发工程师需要懂得如何编写大数据算法，并通过使用这些算法，将数据转换成更有用和易于分析的格式。
数据展示
在数据展示阶段，大数据开发工程师需要设计和实现可视化工具，帮助分析师和客户以更直观的方式为数据注入新的解释。

需要掌握的技能

核心技术
大数据开发工程师需要掌握一些核心技术，如大数据存储技术、数据挖掘技术和新兴技术。大数据存储技术包括Hadoop、NoSQL和列数据库等。数据挖掘技术包括机器学习、聚类和分类等核心技术。新兴技术包括云计算、容器化和分布式技术等。
软技能
大数据开发工程师不仅需要具备技术能力，还需要具备一些软技能，如团队合作，沟通能力和时间管理等。因为大数据开发的过程往往是由多个开发团队协作完成的。

培训课程内容

LINUX	基本命令常见配置文件文件操作命令和权限安装软件 Shell脚本 AWK和sed脚本内核加载流程 Docker介绍和操作服务器调优项
分布式储存	Hadoop概述 HBase背景、简介以及系统架构和原理 HBase逻辑模型：行键、列族、timeStamp，HBase物理模型。 HBase环境搭建：伪分布式安装、完全分布式安装 HBase Shell 、HBase客户端API 、HBase表结构设计 HBase之Mapreduce、HDFS数据导入HBase HBase二级索引、WAL机制、HBase集群迁移方案、导入方案、协处理器 HBase性能调优：JVM优化、查询优化、写优化、配置参数优化
Zookeeper	Zookeeper概述 Zookeeper系统架构 Zookeeper数据模型 Zookeeper写数据流程 Zookeeper安装部署 Zookeeper中shell操作 Zookeeper选举机制 Zookeeper监听操作 Zookeeper 分布式锁实践 Zookeeper应用场景 API操作
纱	YARN介绍 YARN系统架构 YARN作业提交流程 YARN三种调度策略 YARN队列配置 YARN的Node Label机制
MapReduce培训	MapReduce介绍 MapReduce基础案例 MapReduce分片 MapReduce运行流程及shuftle MapReduce案例 MapReduce相关参数
Scala培训	Scala介绍 Scala基础语法数组和集合泛型隐式转换 IO操作
Spark培训	Spark概述、整体架构、Spark vs Mapreduce 、Spark vs Hive 、Spark Streaming vs Storm等 Spark 环境搭建：hive搭建、kafka搭建、安装apark Spark 核心编程：基本工作原理、RDD弹性数据集开发wordcount程序 Spark 创建RDD、各种算子操作(Transformation、Actions)、共享变量(广播、累加) 复杂一些的Spark编程：、二次排序、TopN分析 Spark架构分析：宽窄依赖、基于YARN的提交模式、SparkContext原理剖析、注册机制原理、Executor原理剖析、Task原理剖析、shuffer优化、BlockManager原理剖析、CacheManager原理剖析、Checkpoint原理剖析等 Spark Core调优：内存、判断耗时、优化数据结构、RDD与checkpoint、序列化、JVM、提高并行度、广播共享等 SparkSql 概述、Spark SQL与DataFrame 常用操作 RDD转换DataFrame的两种方式：反射方式、编程方式通用的load和save操作数据源：Parquet数据源、JSON数据源、Hive数据源、JDBC数据源各种复杂案例 Spark Streaming 简介概述与storm和spark对比、helloword StreamingContext、DStream与Receiver DStream基于数据源与HDFS的实时程序 DStream之Kafka数据源、Direct模式、Transformation操作、与SparkSQL结合使用
Hive培训	Hive背景、介绍 Hive环境安装：内嵌模式、独立模式 Hive 的DDL Hive 的 DML Hive常见内置函数 Hive数据类型 Hive窗口函数 Hive自定义函数（UDF、UDAF、UDTF） Hive 分区表、桶操作 Hive数据装载与导出 Hive动态分区、Hive查询、Hive索引、Hive视图 Hive之IO负载策略、HIVE sql优化、压缩、分布式缓存
数据采集	Sqoop介绍 Sqoop导入和导出命令 Sqoop增量和全量操作 Sqoop优化 Flume介绍 Flume离线采集、实时采集、多路采集 Flume拦截器 Flume优化
离线数仓	某大型电商项目数据仓库介绍数据仓库规范数据粒度数据仓库模型以及分层建模介绍维度建模（维度建模和范式建模）事实、星座模型数据需求分析介绍数据应用操作数据抽取数据清洗数据转化数据加载
调度	Azkaban介绍 Azkaban系统结构 Azkaban定时案例 Azkaban性能优化

校区安排（1）

黑之猫

济南市槐荫区西元大厦2号楼1308