内容提要 | 授课详细内容 | 培训形式 |
大数据行业与技术趋势 FusionInsight解决方案介绍 | 1、大数据时代的特征以及大数据的概念 2、大数据的应用领域 3、大数据时代的机遇和挑战 4、华为大数据解决方案 | 理论 |
FusionInsight HD 集成设计 FusionInsight HD 集群安装部署 | 1、集群组网设计 2、集群节点部署规划 3、磁盘规划 4、配置规划工具使用设计案例 5、实验环境FusionInsight HD 集群安装部署 6、集群维护 |
HDFS分布式文件系统技术 | 1、HDFS概述以及应用场景 2、HDFS在FusionInsight产品当中的位置 3、HDFS系统架构 4、HDFS的关键特性介绍 5、HDFS Shell应用开发 | 理论 |
MapReduce和Yarn分布式计算引擎技术 Zookeeper协调服务 | 1、MR的基本定义和特点 2、MR工作模式介绍 3、Yarn的基本定义 4、Yarn工作模式介绍 5、Yarn的资源管理和任务调度 6、Yarn的增强特性 7、ZooKeeper简介 8、ZooKeeper的系统架构 9、ZooKeeper的关键特性介绍 10、ZooKeeper与其它组件的关系 |
HBase分布式数据库 | 1、HBase的定义以及与传统数据库的对比 2、HBase的功能与架构 3、HBase的工作流程 4、HBase的华为增强特性 | 理论 |
Hive数据仓库 | 1、Hive简介 2、Hive架构 3、Hive工作模式 4、Hive功能特性 5、HQL介绍+命令行演示演示 |
Streaming实时计算技术及应用 | 1、Streaming的定义与应用场景 2、Streaming在FusionInsight产品的位置 3、Streaming的关键特性介绍 4、StreamingCQL介绍 | 理论 |
Flume海量日志聚合判断题 Kafka分布式消息订阅系统 Loader数据转换 | 1、Flume简介及架构 2、Flume关键特性介绍 3、Flume应用举例 4、Kafka简介 5、Kafka架构与功能 6、Kafka关键流程 7、Loader简介 8、Loader作业管理 |
Spark基于内存的分布式计算技术 | 1、Spark的简要介绍 2、Spark基本功能和技术架构 3、Spark Core的工作原理 4、Spark SQL和Dataset 5、Spark Structured Streaming 6、Spark Streaming工作原理 7、Spark在FusionInsight中的集成情况 | 理论 |
Flink流处理和批处理的数据处理引擎 | 1、Flink概述 2、Flink原理与技术架构 3、Flink在FusionInsight HD中的集成情况 4、总结前面所讲过的知识点 |
数据挖掘介绍 | 1、数据挖掘概述 2、数据挖掘流程 3、数据、属性和度量 4、数据挖掘开发工具 5、数据挖掘学习路径 | 理论 |
数学基础 | 1、线性代数(行列式、矩阵及其变换、矩阵分解、线性变换、向量空间) 2、概率论与数理统计 3、信息熵与基尼指数 4、优化 |
Python基础 | 1、什么是Python 2、Python基础知识 3、Python中数据类型 4、判断与循环语句 | 理论+实验 |
1、函数和面向对象 2、Python常用模块 3、正则表达式 4、文件操作 |
数据采集 | 1、什么是爬虫 2、爬虫的工作及工作流程 3、爬虫常用的工具 | 理论+实验 |
1、数据提取与存储 2、常见的反爬虫机制和应对措施 3、爬虫程序的实现 |
数据可视化 | 1、什么是数据可视化 2、数据可视化的作用及使用场景 3、数据可视化的常用工具 4、数据可视化的实现流程 | 理论+实验 |
数据预处理 | 1、ETL、ELT 2、常用工具(Kattle、Datastage、Informatica) 3、数据清洗 4、特征处理 |
特征选择和降维 | 1、特征选择概述 2、Filter 3、wrapper 4、Embedded(嵌入法) 5、其他方法和特征扩增 6、降维导入 7、SVD奇异值分解 8、PCA主成分分析 9、LDA线性判断分析 10、LLE局部线性嵌入 | 理论+实验 |
有监督学习 | 1、有监督学习的预备知识 2、线性回归 3、逻辑回归 4、KNN 5、朴素贝叶斯 6、SVM |
有监督学习 | 1、决策树 2、集成算法 | 理论+实验 |
无监督学习 | 1、无监督学习 2、聚类算法(K-Means、K-Means++Hierarchical-Clustering、BIRCH、DBScan) |
无监督学习 | 关联算法(Apriori、FP-growth) | 理论+实验 |
模型评估与优化 | 1、模型优化与评估预备知识 2、优化模型 3、模型评估与选择 4、正则化 |
数据挖掘综合应用 | 数据挖掘流程 美国公民个人收入预测的综合应用案例分析 | 理论+实验 |
Spark Mllib | 1、Spark MLlib基础入门 2、Spark MLlib基础统计分析 3、Spark MLlib分类与回归 | 理论+实验 |
1、Spark MLlib聚类与降维 2、Spark MLlib关联规则与推算法 3、Spark MLlib评估矩阵 |
华为机器学习服务MLS | 1、华为MLS服务介绍 2、申请华为MLS服务 3、创建华为MLS工作流 4、典型算法的应用 5、机器学习平台 FusionInsight Miner | 理论 |
大数据架构和数据治理 | 1、大数据架构概述 2、大数据架构在大数据中的重要性 3、大数据架构师具备的能力 4、如何构建大数据架构平台 5、大数据业务层通用架构 6、大数据治理 |