返回
腾科IT教育
置顶
该校与厚学网暂未合作,平台不保证课程的真实有效性,如有侵权等争议,请及时与厚学网联系处理
招生热线:400-656-1450

学校地址:上海市徐汇区文定路200号盛源恒华大厦803

上海数据分析师:Pig、Hive和Impala课程哪家好?

147 2018-08-28 10:11:08
数据分析师:Pig、Hive和Impala课程

学习笔记

上海数据分析师:Pig、Hive和Impala课程哪家好?

  数据分析师:Pig、Hive 和 Impala

  通过 Cloudera 公司的 Apache Hadoop 培训将您的知识提升到一个新的水平。

  Cloudera 大学提供的为期 4 天的数据分析培训课程专注于 Apache Pig、Hive 和

  Cloudera Impala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。

  Cloudera 为数据专业人员提供了基于 SQL 和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。


  学习掌握现代大数据分析工具

  学员在本课程中将学习掌握以下现代大数据分析工具 :

  Ø Apache Impala(孵化项目)作为一个 SQL 运行环境提供对 Hadoop 里的数据进行即时交互式分析的能力。

  Ø Apache Hive 为数据分析师、数据库管理员以及其他非 Java 编程人员提供了一个类-SQL 的查询语言 HiveQL 来分析处理 Hadoop 数据。

  Ø Apache Pig 提供脚本编程工具来分析处理 Hadoop 数据。


  一. 培训内容

  通过讲师在课堂上的讲解,以及实操练习,学员将熟悉 Hadoop 生态系统,学习主题包括:

  Ø 使用 Pig,Hive 及 Impala 获取、存储及分析数据。

  Ø 使用 Hadoop 工具执行基本的 ETL 工作(抽取-extract,转换-transform 和加载-load)。

  Ø 使用 Pig、Hive 及 Impala 改善典型分析任务的效率。

  Ø 关联不同及丰富的数据源以获取和真实的商业价值。

  Ø 对数据集进行交互式和复杂查询。


  二. 培训对象及学员基础

  本课程是专为数据分析师、商业智能、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备 Apache Hadoop 知识。

  Ø 需具备一定的 SQL 知识水平。

  Ø 基本熟悉 Linux 命令行。

  Ø 培训学员至少熟悉一种脚本语言知识(例如,Bash 脚本编程、Perl、Python 和Ruby)将会更有帮助,但不是必需的。


  三. 认证

  结束本课程培训后,我们建议学员准备并注册参加 Cloudera CCA 数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在 Hadoop 数据分析领域的技术和专长的有力依据。


  四. 课程大纲

  1. Hadoop 基础知识

  l Hadoop 动机

  l Hadoop 概览

  l 数据存储:HDFS

  l 分布式数据处理:YARN、MapReduce 和 Spark

  l 数据处理与分析:Pig、Hive 和 Impala

  l 数据集成:Sqoop

  l 其它的 Hadoop 数据工具

  l 练习分析场景说明

  2. Pig 简介

  l Pig 是什么

  l Pig 的特点

  l Pig 使用案例

  l 与 Pig 的交互

  3. Pig 基本数据分析

  l PigLatin 语法

  l 加载数据

  l 简单数据类型

  l 字段定义

  l 数据输出

  l 架构查看

  l 数据筛选和排序

  l 常用函数

  4. 使用 Pig 处理复杂的数据

  l 数据存储格式

  l 复合/嵌套数据类型

  l 数据分组

  l 复杂数据内置函数

  l 遍历分组数据

  5. Pig 多数据集操作

  l 数据集合并技术

  l 在 Pig 中联接数据集

  l 集合运算

  l 拆分数据集

  6. Pig 故障诊断和性能优化

  l Pig 故障排除

  l 日志

  l 使用 Hadoop 的 Web UI

  l 数据采样及调试

  l 性能概述

  l 了解执行计划

  l 提高 Pig 作业性能的技巧

  7. Hive 和 Impala 简介

  l 什么是 Hive

  l 什么是 Impala

  l 为什么使用 Hive 和 Impala

  l 架构和数据存储

  l Hive 及 Impala 与传统数据库的比较

  l Hive 使用案例

  8. 使用 Hive 和 Impala 进行数据查询

  l 数据库和表

  l 基本的 Hive 和 Impala 查询语言语法

  l 数据类型

  l 使用 Hue 来执行查询

  l 使用 Beeline(Hive Shell)

  l 使用 Impala Shell

  9. Hive 及 Impala 数据管理

  l 数据存储

  l 创建数据库和表

  l 加载数据

  l 修改数据库和表

  l 使用视图简化查询

  l 存储查询结果

  10. 数据存储和性能

  l 对表进行分区

  l 分区表的数据加载

  l 何时使用分区

  l 文件格式的选取

  l 使用 Avro 及 Parquet 文件格式

  11. 使用 Hive 和 Impala 进行关系数据分析

  l 连接数据集

  l 常见的内置函数

  l 聚合和窗口函数

  12. 复杂数据类型

  l 在 Hive 里使用复杂数据

  l 在 Impala 里使用复杂数据

  13. 使用 Hive 及 Impala 分析文本数据

  l 在 Hive 及 Impala 里使用正则表达式

  l 在 Hive 里通过 SerDe 加载处理文本

  l 情感分析及 n-gram

  14. Hive 优化

  l 了解查询性能

  l Bucketing(分桶)

  l 索引数据

  l Hive on Spark

  15. Impala 优化

  l Impala 如何执行查询

  l 改善 Impala 性能

  16. 扩展 Hive 及 Impala

  l 使用 SerDe 加载特殊格式文件

  l 通过定制脚本来转换数据

  l 用户自定义函数

  l 参数化查询

  17. 选择佳工具

  l 比较 Pig、Hive、Impala 和关系数据库该选择哪一个

  18. 总结


以上就是大数据培训课程的全部内容介绍,如需了解更多的大数据培训班、课程、价格、试听等信息,也可以点击进入 大数据 相关频道,定制专属课程,开始您的学习之旅。


文中图片素材来源网络,如有侵权请联系删除
文中图片素材来源网络,如有侵权请联系删除
热门课程 全部课程

相关新闻推荐

申请免费试听

只要一个电话

我们为您免费回电

立即申请