返回
深圳泰克教育
置顶
该校与厚学网暂未合作,平台不保证课程的真实有效性,如有侵权等争议,请及时与厚学网联系处理
厚学网
大数据HCIE认证培训
咨询 在线咨询
课程级别
初级
培训周期
1-2个月
培训时间
电话咨询
课程价格
询价
上课地址
深圳市南山区粤海街道麻雀岭工业区9栋(厂房)第二层211物业
课程详情

HCIE-Big Data-Data Mining培训与认具备通过华为FusionInsight HD或开源技术平台进行大数据端到端建模,解决业务实际问题能力的。
通过HCIE-Big Data-Data Mining华为大数据挖掘认,将您掌握大数据挖掘主流技术和复杂数据挖掘方法,具备通过华为FusionInsight HD或开源技术平台进行大数据端到端建模,解决业务实际问题的能力,实现数据蕴含的商业价值变现

培训对象

大数据开发工程师

大数据分析工程师

大数据挖掘工程师

入学要求

了解大数据组件

了解python语言

培训目标

完成该项目培训后,您将能够

掌握数据挖掘方法

掌握FusionInsight MRS使用方法

掌握Spark MLlib使用方法

课程大纲

内容提要

授课详细内容

培训形式

大数据行业与技术趋势
FusionInsight解决方案介绍

1、大数据时代的特征以及大数据的概念 
2、大数据的应用领域 
3、大数据时代的机遇和挑战 
4、华为大数据解决方案

理论

FusionInsight HD 集成设计
FusionInsight HD 集群安装部署

1、集群组网设计
2、集群节点部署规划
3、磁盘规划
4、配置规划工具使用设计案例
5、实验环境FusionInsight HD 集群安装部署
6、集群维护

HDFS分布式文件系统技术

1HDFS概述以及应用场景 
2HDFSFusionInsight产品当中的位置 
3HDFS系统架构 4HDFS的关键特性介绍 
5HDFS Shell应用开发

理论

MapReduce和Yarn分布式计算引擎技术
Zookeeper协调服务

1MR的基本定义和特点 
2MR工作模式介绍 
3Yarn的基本定义 
4Yarn工作模式介绍 
5Yarn的资源管理和任务调度 
6Yarn的增强特性
7ZooKeeper简介
8ZooKeeper的系统架构
9ZooKeeper的关键特性介绍
10ZooKeeper与其它组件的关系

HBase分布式数据库

1HBase的定义以及与传统数据库的对比 
2HBase的功能与架构 
3HBase的工作流程 
4HBase的华为增强特性 

理论

Hive数据仓库

1Hive简介
2Hive架构 
3Hive工作模式 
4Hive功能特性 
5HQL介绍+命令行演示演示

Streaming实时计算技术及应用

1Streaming的定义与应用场景 
2StreamingFusionInsight产品的位置 
3Streaming的关键特性介绍 
4StreamingCQL介绍

理论

Flume海量日志聚合判断题
Kafka分布式消息订阅系统
Loader数据转换

1Flume简介及架构
2Flume关键特性介绍
3Flume应用举例
4Kafka简介
5Kafka架构与功能
6Kafka关键流程
7Loader简介
8Loader作业管理

Spark基于内存的分布式计算技术

1Spark的简要介绍 
2Spark基本功能和技术架构 
3Spark Core的工作原理 
4Spark SQLDataset 
5Spark Structured Streaming 
6Spark Streaming工作原理 
7SparkFusionInsight中的集成情况

理论

Flink流处理和批处理的数据处理引擎

1Flink概述
2Flink原理与技术架构
3FlinkFusionInsight HD中的集成情况
4、总结前面所讲过的知识点

数据挖掘介绍

1、数据挖掘概述
2、数据挖掘流程
3、数据、属性和度量
4、数据挖掘开发工具
5、数据挖掘学习路径

理论

数学基础

1、线性代数(行列式、矩阵及其变换、矩阵分解、线性变换、向量空间)
2、概率论与数理统计
3、信息熵与基尼指数
4

Python基础

1、什么是Python
2、Python基础知识
3、Python中数据类型
4、判断与循环语句

理论+实验

1、函数和面向对象
2、Python常用模块
3、正则表达式
4、文件操作

数据采集

1、什么是爬虫
2、爬虫的工作及工作流程
3、爬虫常用的工具

理论+实验

1、数据提取与存储
2、常见的反爬虫机制和应对措施
3、爬虫程序的实现

数据可视化

1、什么是数据可视化
2、数据可视化的作用及使用场景
3、数据可视化的常用工具
4、数据可视化的实现流程

理论+实验

数据预处理

1ETLELT
2、常用工具(KattleDatastageInformatica
3、数据清洗
4、特征处理

特征选择和降维

1、特征选择概述
2Filter
3wrapper
4Embedded(嵌入法)
5、其他方法和特征扩增
6、降维导入
7SVD奇异值分解
8PCA主成分分析
9LDA线性判断分析
10LLE局部线性嵌入

理论+实验

有监督学习

1、有监督学习的预备知识
2、线性回归
3、逻辑回归
4、KNN
5、朴素贝叶斯
6、SVM

有监督学习

1、决策树
2、集成算法

理论+实验

无监督学习

1、无监督学习
2、聚类算法(K-MeansK-Means++Hierarchical-ClusteringBIRCHDBScan

无监督学习

关联算法(Apriori、FP-growth)

理论+实验

模型评估与优化

1、模型优化与评估预备知识
2化模型
3、模型评估与选择
4、正则化

数据挖掘综合应用

数据挖掘流程

美国公民个人收入预测的综合应用案例分析

理论+实验

Spark Mllib

1Spark MLlib基础入门
2Spark MLlib基础统计分析
3Spark MLlib分类与回归

理论+实验

1、Spark  MLlib聚类与降维
2、Spark  MLlib关联规则与算法
3、Spark  MLlib评估矩阵

华为机器学习服务MLS

1、华为MLS服务介绍
2、申请华为MLS服务
3、创建华为MLS工作流
4、典型算法的应用
5、机器学习平台 FusionInsight Miner

理论

大数据架构和数据治理

1、大数据架构概述
2、大数据架构在大数据中的重要性
3、大数据架构师具备的能力
4、如何构建大数据架构平台
5、大数据业务层通用架构
6、大数据治理

 

考试科目

考试代码

考试名称

H13-731

HCIE-Big Data-Data Mining(笔试)

H13-732

HCIE-Big Data-Data Mining(实验)

H13-733

HCIE-Big Data-Data Mining(面试)



校区安排(1) 更多
校区
深圳泰克教育校区
地址
深圳市南山区粤海街道麻雀岭工业区9栋(厂房)第二层211物业
预约报名
立即获取报价
刷新
图形验证
关闭
>>
拖动左边滑块完成上方拼图
机器人