杭州Cloudera 数据分析师培训

授课机构：杭州博学国际教育培训中心

关注度：123

课程价格：请咨询客服

上课地址：请咨询客服

开课时间：滚动开班

咨询热线：400-850-8622

在线报名

课程详情在线报名

更新时间：2024-11-15

Cloudera 数据分析师培训培训班型：公开课课程长度： 3天/18小时培训日期：待定认证考试：暂无培训地点：博学国际教育培训中心环境要求：投影仪、白板、大白纸培训形式：实例讲授，现场演、练、及时沟通培训资料：培训教材课程内容课程概述：了解Apache Pig、Apache Hive及Apache Impala如何通过删选、连接进行数据转换和数据分析，以及利用其它常见技术自定义用户功能。培训前提：建议需具备SQL、简单Unix/Linux命令和脚本编程经验。无需Hadoop基础和其他经验。授课对象：需要使用Hadoop来进行数据分析的数据分析员，商业分析员，开发员以及系统管理员。培训目标： Apache Hadoop基础及数据ETL（包括数据提取、转换及加载）、如何通过使用Hadoop相关工具将数据载入Hadoop并进行分析处理如何使用Apache Pig对多个关联的数据集进行join操作以及如何分析不同的独立数据如何使用Apache Hive：通过定义合适的表来组织数据、执行各种数据变换、简化复杂查询如何使用Impala来对存储在HDFS里的大规模数据进行实时和交互式的分析查询如何根据数据分析任务来选择合适的数据分析工具环境准备： 1、操作系统：Linux 2、java环境：jdk6以上 3、硬件环境：电脑内存4G以上课程内容： > 关于该课程 > 关于 Cloudera > 课程的逻辑介绍 Hadoop 基础 > Hadoop的动机 > Hadoop 概况 > HDFS > MapReduce > Hadoop 生态圈 > 实验场景介绍 > 实验: 用Hadoop工具导入数据 Pig简介 > 什么是 Pig? > Pig的特性 > Pig使用案例 > 和Pig交互用Pig进行基本数据分析 > Pig Latin 语法 > 数据装载 > 简单数据类型 > Field 定义 > 数据输出 > 表结构视图 > 数据过滤和排序 > 常用功能 > 实验: 用Pig 执行ETL流程 Pig处理复杂数据 > 存储格式 > 复杂/Nested嵌套的数据类型 > 成群 > 处理复杂数据的内置功能 > 迭代成群的数据 > 实验: 用Pig分析广告战役的数据 Pig的多数据组操作 > 集成多数据组的技术 > Pig链接多数据组 > 组操作 > 数据组分裂 > 实验: 用Pig分析离散的数据组扩展 Pig > 用参数带来灵活性 > Macros 和 Imports > UDFs > Contributed Functions > 用其他语言和Pig一起处理数据 > 实验: 用流处理和UDFs扩展Pig Pig 故障排查和优化 > Pig故障排查> 记录日志 > 使用Hadoop Web 界面 > 演示: 用Web 界面排查一个故障的任务 > Data 采样和故障排查 > 性能简介 > 理解执行计划（Execution Plan） > 提高你Pig任务性能的窍门 Hive简介 > 什么是 Hive? > Hive 表结构和数据存储 > 对比Hive和传统数据库 > Hive vs. Pig > Hive 使用案例 > 和Hive的互操作 Hive的关系数据分析 > Hive 数据库和表 > 基本HiveQL 语法 > 数据类型 > 链接数据组 > 通用内建功能 > 实验: 在Shell, 脚本和Hue上运行运行Hive 查询 Hive 数据管理 > Hive 数据格式 > 创建数据库和由 Hive管理的表 > 向 Hive装载数据 > 改变数据库和表 > 自治表格 > 用视图简化查询 > 排列查询结果 > 数据的访问控制 > 实验: Hive的数据管理 Hive 的文本处理 > 文本处理简介 > 重要的字符串（String）功能 > 使用Hive 的标准表达式（Regular Expressions） > Sentiment Analysis and N-Grams > 实验: 通过敏感性分析（Sentiment Analysis）收获洞察 Hive 优化 > 理解查询性能 > 控制任务执行计划 > 分区 > Bucketing > 索引数据 Hive扩展 > SerDes > 用定制脚本完成数据转型 > 自定义功能 > Parameterized Queries > 实验: Hive的数据转型 Impala 简介 > 什么是 Impala? > Impala 和 Hive和 Pig的不同 > 局限和未来方向 > 使用Impala Shell 采样Impala分析数据 > 基本语法 > 数据类型 > 过滤, 排序, and Limiting Results > 链接和组队数据 > 提升 Impala 性能 > 实验: Impala的交互式分析为任务选择*的工具 > 对比 MapReduce, Pig, Hive, Impala和关系数据库 > 选择哪个?