上海数据分析师:Pig、Hive和Impala课程哪家好?
数据分析师:Pig、Hive 和 Impala
通过 Cloudera 公司的 Apache Hadoop 培训将您的知识提升到一个新的水平。
Cloudera 大学提供的为期 4 天的数据分析培训课程专注于 Apache Pig、Hive 和
Cloudera Impala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。
Cloudera 为数据专业人员提供了基于 SQL 和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。
学习掌握现代大数据分析工具
学员在本课程中将学习掌握以下现代大数据分析工具 :
Ø Apache Impala(孵化项目)作为一个 SQL 运行环境提供对 Hadoop 里的数据进行即时交互式分析的能力。
Ø Apache Hive 为数据分析师、数据库管理员以及其他非 Java 编程人员提供了一个类-SQL 的查询语言 HiveQL 来分析处理 Hadoop 数据。
Ø Apache Pig 提供脚本编程工具来分析处理 Hadoop 数据。
一. 培训内容
通过讲师在课堂上的讲解,以及实操练习,学员将熟悉 Hadoop 生态系统,学习主题包括:
Ø 使用 Pig,Hive 及 Impala 获取、存储及分析数据。
Ø 使用 Hadoop 工具执行基本的 ETL 工作(抽取-extract,转换-transform 和加载-load)。
Ø 使用 Pig、Hive 及 Impala 改善典型分析任务的效率。
Ø 关联不同及丰富的数据源以获取和真实的商业价值。
Ø 对数据集进行交互式和复杂查询。
二. 培训对象及学员基础
本课程是专为数据分析师、商业智能、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备 Apache Hadoop 知识。
Ø 需具备一定的 SQL 知识水平。
Ø 基本熟悉 Linux 命令行。
Ø 培训学员至少熟悉一种脚本语言知识(例如,Bash 脚本编程、Perl、Python 和Ruby)将会更有帮助,但不是必需的。
三. 认证
结束本课程培训后,我们建议学员准备并注册参加 Cloudera CCA 数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在 Hadoop 数据分析领域的技术和专长的有力依据。
四. 课程大纲
1. Hadoop 基础知识
l Hadoop 动机
l Hadoop 概览
l 数据存储:HDFS
l 分布式数据处理:YARN、MapReduce 和 Spark
l 数据处理与分析:Pig、Hive 和 Impala
l 数据集成:Sqoop
l 其它的 Hadoop 数据工具
l 练习分析场景说明
2. Pig 简介
l Pig 是什么
l Pig 的特点
l Pig 使用案例
l 与 Pig 的交互
3. Pig 基本数据分析
l PigLatin 语法
l 加载数据
l 简单数据类型
l 字段定义
l 数据输出
l 架构查看
l 数据筛选和排序
l 常用函数
4. 使用 Pig 处理复杂的数据
l 数据存储格式
l 复合/嵌套数据类型
l 数据分组
l 复杂数据内置函数
l 遍历分组数据
5. Pig 多数据集操作
l 数据集合并技术
l 在 Pig 中联接数据集
l 集合运算
l 拆分数据集
6. Pig 故障诊断和性能优化
l Pig 故障排除
l 日志
l 使用 Hadoop 的 Web UI
l 数据采样及调试
l 性能概述
l 了解执行计划
l 提高 Pig 作业性能的技巧
7. Hive 和 Impala 简介
l 什么是 Hive
l 什么是 Impala
l 为什么使用 Hive 和 Impala
l 架构和数据存储
l Hive 及 Impala 与传统数据库的比较
l Hive 使用案例
8. 使用 Hive 和 Impala 进行数据查询
l 数据库和表
l 基本的 Hive 和 Impala 查询语言语法
l 数据类型
l 使用 Hue 来执行查询
l 使用 Beeline(Hive Shell)
l 使用 Impala Shell
9. Hive 及 Impala 数据管理
l 数据存储
l 创建数据库和表
l 加载数据
l 修改数据库和表
l 使用视图简化查询
l 存储查询结果
10. 数据存储和性能
l 对表进行分区
l 分区表的数据加载
l 何时使用分区
l 文件格式的选取
l 使用 Avro 及 Parquet 文件格式
11. 使用 Hive 和 Impala 进行关系数据分析
l 连接数据集
l 常见的内置函数
l 聚合和窗口函数
12. 复杂数据类型
l 在 Hive 里使用复杂数据
l 在 Impala 里使用复杂数据
13. 使用 Hive 及 Impala 分析文本数据
l 在 Hive 及 Impala 里使用正则表达式
l 在 Hive 里通过 SerDe 加载处理文本
l 情感分析及 n-gram
14. Hive 优化
l 了解查询性能
l Bucketing(分桶)
l 索引数据
l Hive on Spark
15. Impala 优化
l Impala 如何执行查询
l 改善 Impala 性能
16. 扩展 Hive 及 Impala
l 使用 SerDe 加载特殊格式文件
l 通过定制脚本来转换数据
l 用户自定义函数
l 参数化查询
17. 选择佳工具
l 比较 Pig、Hive、Impala 和关系数据库该选择哪一个
18. 总结
以上就是大数据培训课程的全部内容介绍,如需了解更多的大数据培训班、课程、价格、试听等信息,也可以点击进入 大数据 相关频道,定制专属课程,开始您的学习之旅。
申请免费试听
只要一个电话
我们为您免费回电