大数据HCIE认证培训-深圳泰克教育

该校与厚学网暂未合作,平台不保证课程的真实有效性,如有侵权等争议,请及时与厚学网联系处理

大数据HCIE认证培训

在线咨询

课程级别

初级

培训周期

1-2个月

培训时间

电话咨询

课程价格

询价

深圳泰克教育

课程(41) 校区(1) 入驻(4)年

上课地址

深圳市南山区粤海街道麻雀岭工业区9栋(厂房)第二层211物业

课程详情

HCIE-Big Data-Data Mining，培训与认证具备通过华为FusionInsight HD或开源技术平台进行大数据端到端建模，解决业务实际问题能力的。
通过HCIE-Big Data-Data Mining华为大数据挖掘认证，将证明您掌握大数据挖掘主流技术和复杂数据挖掘方法，具备通过华为FusionInsight HD或开源技术平台进行大数据端到端建模，解决业务实际问题的能力，实现数据蕴含的商业价值变现。

培训对象

l 大数据开发工程师

l 大数据分析工程师

l 大数据挖掘工程师

入学要求

l 了解大数据组件

l 了解python语言

培训目标

完成该项目培训后，您将能够：

l 掌握数据挖掘方法

l 掌握FusionInsight MRS使用方法

l 掌握Spark MLlib使用方法

课程大纲

内容提要	授课详细内容	培训形式
大数据行业与技术趋势 FusionInsight解决方案介绍	1、大数据时代的特征以及大数据的概念 2、大数据的应用领域 3、大数据时代的机遇和挑战 4、华为大数据解决方案	理论
FusionInsight HD 集成设计 FusionInsight HD 集群安装部署	1、集群组网设计 2、集群节点部署规划 3、磁盘规划 4、配置规划工具使用设计案例 5、实验环境FusionInsight HD 集群安装部署 6、集群维护	理论
HDFS分布式文件系统技术	1、HDFS概述以及应用场景 2、HDFS在FusionInsight产品当中的位置 3、HDFS系统架构 4、HDFS的关键特性介绍 5、HDFS Shell应用开发	理论
MapReduce和Yarn分布式计算引擎技术 Zookeeper协调服务	1、MR的基本定义和特点 2、MR工作模式介绍 3、Yarn的基本定义 4、Yarn工作模式介绍 5、Yarn的资源管理和任务调度 6、Yarn的增强特性 7、ZooKeeper简介 8、ZooKeeper的系统架构 9、ZooKeeper的关键特性介绍 10、ZooKeeper与其它组件的关系	理论
HBase分布式数据库	1、HBase的定义以及与传统数据库的对比 2、HBase的功能与架构 3、HBase的工作流程 4、HBase的华为增强特性	理论
Hive数据仓库	1、Hive简介 2、Hive架构 3、Hive工作模式 4、Hive功能特性 5、HQL介绍+命令行演示演示	理论
Streaming实时计算技术及应用	1、Streaming的定义与应用场景 2、Streaming在FusionInsight产品的位置 3、Streaming的关键特性介绍 4、StreamingCQL介绍	理论
Flume海量日志聚合判断题 Kafka分布式消息订阅系统 Loader数据转换	1、Flume简介及架构 2、Flume关键特性介绍 3、Flume应用举例 4、Kafka简介 5、Kafka架构与功能 6、Kafka关键流程 7、Loader简介 8、Loader作业管理	理论
Spark基于内存的分布式计算技术	1、Spark的简要介绍 2、Spark基本功能和技术架构 3、Spark Core的工作原理 4、Spark SQL和Dataset 5、Spark Structured Streaming 6、Spark Streaming工作原理 7、Spark在FusionInsight中的集成情况	理论
Flink流处理和批处理的数据处理引擎	1、Flink概述 2、Flink原理与技术架构 3、Flink在FusionInsight HD中的集成情况 4、总结前面所讲过的知识点	理论
数据挖掘介绍	1、数据挖掘概述 2、数据挖掘流程 3、数据、属性和度量 4、数据挖掘开发工具 5、数据挖掘学习路径	理论
数学基础	1、线性代数（行列式、矩阵及其变换、矩阵分解、线性变换、向量空间） 2、概率论与数理统计 3、信息熵与基尼指数 4、优化	理论
Python基础	1、什么是Python 2、Python基础知识 3、Python中数据类型 4、判断与循环语句	理论+实验
Python基础	1、函数和面向对象 2、Python常用模块 3、正则表达式 4、文件操作	理论+实验
数据采集	1、什么是爬虫 2、爬虫的工作及工作流程 3、爬虫常用的工具	理论+实验
数据采集	1、数据提取与存储 2、常见的反爬虫机制和应对措施 3、爬虫程序的实现	理论+实验
数据可视化	1、什么是数据可视化 2、数据可视化的作用及使用场景 3、数据可视化的常用工具 4、数据可视化的实现流程	理论+实验
数据预处理	1、ETL、ELT 2、常用工具（Kattle、Datastage、Informatica） 3、数据清洗 4、特征处理	理论+实验
特征选择和降维	1、特征选择概述 2、Filter 3、wrapper 4、Embedded(嵌入法) 5、其他方法和特征扩增 6、降维导入 7、SVD奇异值分解 8、PCA主成分分析 9、LDA线性判断分析 10、LLE局部线性嵌入	理论+实验
有监督学习	1、有监督学习的预备知识 2、线性回归 3、逻辑回归 4、KNN 5、朴素贝叶斯 6、SVM	理论+实验
有监督学习	1、决策树 2、集成算法	理论+实验
无监督学习	1、无监督学习 2、聚类算法（K-Means、K-Means++Hierarchical-Clustering、BIRCH、DBScan）	理论+实验
无监督学习	关联算法（Apriori、FP-growth）	理论+实验
模型评估与优化	1、模型优化与评估预备知识 2、优化模型 3、模型评估与选择 4、正则化	理论+实验
数据挖掘综合应用	数据挖掘流程美国公民个人收入预测的综合应用案例分析	理论+实验
Spark Mllib	1、Spark MLlib基础入门 2、Spark MLlib基础统计分析 3、Spark MLlib分类与回归	理论+实验
Spark Mllib	1、Spark MLlib聚类与降维 2、Spark MLlib关联规则与推算法 3、Spark MLlib评估矩阵	理论+实验
华为机器学习服务MLS	1、华为MLS服务介绍 2、申请华为MLS服务 3、创建华为MLS工作流 4、典型算法的应用 5、机器学习平台 FusionInsight Miner	理论
大数据架构和数据治理	1、大数据架构概述 2、大数据架构在大数据中的重要性 3、大数据架构师具备的能力 4、如何构建大数据架构平台 5、大数据业务层通用架构 6、大数据治理	理论

考试科目

考试代码	考试名称
H13-731	HCIE-Big Data-Data Mining(笔试)
H13-732	HCIE-Big Data-Data Mining(实验)
H13-733	HCIE-Big Data-Data Mining(面试)

校区安排（1）

深圳泰克教育校区

深圳市南山区粤海街道麻雀岭工业区9栋(厂房)第二层211物业