上海数据分析师：Pig、Hive和Impala课程哪家好？-腾科IT教育新闻

上海数据分析师：Pig、Hive和Impala课程哪家好？

　　数据分析师：Pig、Hive 和 Impala

　　通过 Cloudera 公司的 Apache Hadoop 培训将您的知识提升到一个新的水平。

　　Cloudera 大学提供的为期 4 天的数据分析培训课程专注于 Apache Pig、Hive 和

　　Cloudera Impala，将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。

　　Cloudera 为数据专业人员提供了基于 SQL 和其它熟悉的脚本编程语言的工具，用来访问、操作、转换和分析复杂数据集。

　　学习掌握现代大数据分析工具

　　学员在本课程中将学习掌握以下现代大数据分析工具：

　　Ø Apache Impala(孵化项目)作为一个 SQL 运行环境提供对 Hadoop 里的数据进行即时交互式分析的能力。

　　Ø Apache Hive 为数据分析师、数据库管理员以及其他非 Java 编程人员提供了一个类-SQL 的查询语言 HiveQL 来分析处理 Hadoop 数据。

　　Ø Apache Pig 提供脚本编程工具来分析处理 Hadoop 数据。

　　一. 培训内容

　　通过讲师在课堂上的讲解，以及实操练习，学员将熟悉 Hadoop 生态系统，学习主题包括：

　　Ø 使用 Pig，Hive 及 Impala 获取、存储及分析数据。

　　Ø 使用 Hadoop 工具执行基本的 ETL 工作(抽取-extract，转换-transform 和加载-load)。

　　Ø 使用 Pig、Hive 及 Impala 改善典型分析任务的效率。

　　Ø 关联不同及丰富的数据源以获取和真实的商业价值。

　　Ø 对数据集进行交互式和复杂查询。

　　二. 培训对象及学员基础

　　本课程是专为数据分析师、商业智能、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备 Apache Hadoop 知识。

　　Ø 需具备一定的 SQL 知识水平。

　　Ø 基本熟悉 Linux 命令行。

　　Ø 培训学员至少熟悉一种脚本语言知识(例如，Bash 脚本编程、Perl、Python 和Ruby)将会更有帮助，但不是必需的。

　　三. 认证

　　结束本课程培训后，我们建议学员准备并注册参加 Cloudera CCA 数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在 Hadoop 数据分析领域的技术和专长的有力依据。

　　四. 课程大纲

　　1. Hadoop 基础知识

　　l Hadoop 动机

　　l Hadoop 概览

　　l 数据存储：HDFS

　　l 分布式数据处理：YARN、MapReduce 和 Spark

　　l 数据处理与分析：Pig、Hive 和 Impala

　　l 数据集成：Sqoop

　　l 其它的 Hadoop 数据工具

　　l 练习分析场景说明

　　2. Pig 简介

　　l Pig 是什么

　　l Pig 的特点

　　l Pig 使用案例

　　l 与 Pig 的交互

　　3. Pig 基本数据分析

　　l PigLatin 语法

　　l 加载数据

　　l 简单数据类型

　　l 字段定义

　　l 数据输出

　　l 架构查看

　　l 数据筛选和排序

　　l 常用函数

　　4. 使用 Pig 处理复杂的数据

　　l 数据存储格式

　　l 复合/嵌套数据类型

　　l 数据分组

　　l 复杂数据内置函数

　　l 遍历分组数据

　　5. Pig 多数据集操作

　　l 数据集合并技术

　　l 在 Pig 中联接数据集

　　l 集合运算

　　l 拆分数据集

　　6. Pig 故障诊断和性能优化

　　l Pig 故障排除

　　l 日志

　　l 使用 Hadoop 的 Web UI

　　l 数据采样及调试

　　l 性能概述

　　l 了解执行计划

　　l 提高 Pig 作业性能的技巧

　　7. Hive 和 Impala 简介

　　l 什么是 Hive

　　l 什么是 Impala

　　l 为什么使用 Hive 和 Impala

　　l 架构和数据存储

　　l Hive 及 Impala 与传统数据库的比较

　　l Hive 使用案例

　　8. 使用 Hive 和 Impala 进行数据查询

　　l 数据库和表

　　l 基本的 Hive 和 Impala 查询语言语法

　　l 数据类型

　　l 使用 Hue 来执行查询

　　l 使用 Beeline(Hive Shell)

　　l 使用 Impala Shell

　　9. Hive 及 Impala 数据管理

　　l 数据存储

　　l 创建数据库和表

　　l 加载数据

　　l 修改数据库和表

　　l 使用视图简化查询

　　l 存储查询结果

　　10. 数据存储和性能

　　l 对表进行分区

　　l 分区表的数据加载

　　l 何时使用分区

　　l 文件格式的选取

　　l 使用 Avro 及 Parquet 文件格式

　　11. 使用 Hive 和 Impala 进行关系数据分析

　　l 连接数据集

　　l 常见的内置函数

　　l 聚合和窗口函数

　　12. 复杂数据类型

　　l 在 Hive 里使用复杂数据

　　l 在 Impala 里使用复杂数据

　　13. 使用 Hive 及 Impala 分析文本数据

　　l 在 Hive 及 Impala 里使用正则表达式

　　l 在 Hive 里通过 SerDe 加载处理文本

　　l 情感分析及 n-gram

　　14. Hive 优化

　　l 了解查询性能

　　l Bucketing(分桶)

　　l 索引数据

　　l Hive on Spark

　　15. Impala 优化

　　l Impala 如何执行查询

　　l 改善 Impala 性能

　　16. 扩展 Hive 及 Impala

　　l 使用 SerDe 加载特殊格式文件

　　l 通过定制脚本来转换数据

　　l 用户自定义函数

　　l 参数化查询

　　17. 选择佳工具

　　l 比较 Pig、Hive、Impala 和关系数据库该选择哪一个

　　18. 总结

以上就是大数据培训课程的全部内容介绍，如需了解更多的大数据培训班、课程、价格、试听等信息，也可以点击进入大数据相关频道，定制专属课程，开始您的学习之旅。

文中图片素材来源网络，如有侵权请联系删除

上海数据分析师：Pig、Hive和Impala课程哪家好？

学习笔记

合肥Oracle数据库OCP认证培训

扬州高邮Python培训

哈尔滨博艺JAVA培训

青岛Java+Android工程师培训

新华三认证H3CIE-RS+认证培训

相关新闻推荐

上海OCP/OCM 数据库认证培训哪家好？2020-01-08

上海红帽 Linux 认证培训哪家好？2020-01-08

上海华为认证培训哪家好？2020-01-08

上海思科认证培训哪家好？2020-01-08

上海数据分析师：Pig、Hive和Impala课程哪家好？2018-08-28