Cloudera认证Apache Hadoop开发者培训(CCA)
培训班型: 公开课
课程长度: 4天/24小时
培训日期: 待定
认证考试: 北京、上海、广州、杭州、福州、深圳、
西安、南京、天津、武汉、成都、重庆
培训地点: 博学国际教育培训中心
环境要求: 投影仪、白板、大白纸
培训形式: 实例讲授,现场演、练、及时沟通
培训资料: 培训教材
课程内容
认证描述:
4天的课程包涵了解Apache Spark的基础知识及其与Hadoop整体生态系统的集成方式。本课程将重温HDFS的基础内容,学习如何使用Sqoop/Flume摄取数据,利用Spark处理分布式数据,学习在Impala和Hive上数据建模,以及在数据存储方面的*实践。
课程概述:
•Hadoop 核心
•HDFS 和 MapReduce 工作原理
•如何开发 MapReduce 应用
•如何单元测试 MapReduce 应用
•如何使用 MapReduce combiners, partitioners 和 distributed cache
•开发调试 MapReduce 应用
•如何实现 MapReduce 应用中的输入/输出
•常见 MapReduce 算法
•如何用 MapReduce 来联结数据集
•如何把 Hadoop 嵌入到企业已有的计算环境里
•如何使用 Hive、Impala 和 Pig 来快速开发数据分析应用
•如何使用 Oozie 来创建管理工作流
培训前提: 企业管理者、CIO、CTO、*信息*官员、项目(开发)经理、咨询顾
问;IT经理,IT咨询顾问,IT支持专家;系统工程师、数据中心管理员、云
计算管理员及想加入云计算队伍的您。
授课对象:具备编程经验的开发人员;熟悉面向对象高级编程语言,如Java;不需要事先掌握Hadoop相关知识
培训目标:
通过考试可获得Cloudera Certified Developer for Apache Hadoop (CCDH) 证书
Using the Spark shell for interactive data analysis
The features of Spark’s Resilient Distributed Datasets
How Spark runs on a cluster
How Spark parallelizes task execution
Writing Spark applications
Processing streaming data with Spark
环境准备:
1. 操作系统:Linux
2. java环境:jdk6以上
硬件环境:电脑内存4G以上
课程内容:
介绍
Hadoop 起源和动机
Hadoop 基本概念和 HDFS
MapReduce 介绍
Hadoop 集群和 Hadoop 生态系统
使用 Java 编写 MapReduce 程序
使用 Streaming 编写 MapReduce 程序
MapReduce 单元测试
深入 Hadoop API
开发技巧
Reducer 和 Partitioner
数据输入/输出
常见 MapReduce 算法
用 MapReduce 来联结数据集
把 Hadoop 嵌入到企业已有的计算环境里
Hive、Impala 和 Pig 简介
Oozie 简介
结论
附录: Cloudera Enterprise
Introduction to Spark
What is Spark?
Review: From Hadoop MapReduce to Spark
Review: HDFS
Review: YARN
Spark Overview
Spark Basics
Using the Spark Shell
RDDs (Resilient Distributed Datasets)
Functional Programming in Spark
Working with RDDs in Spark
Creating RDDs
Other General RDD Operations
Aggregating Data with Pair RDDs
Key-Value Pair RDDs
Map-Reduce
Other Pair RDD Operations
Writing and Deploying Spark Applications
Spark Applications vs. Spark Shell
Creating the SparkContext
Building a Spark Application (Scala and Java)
Running a Spark Application
The Spark Application Web UI
Hands-On Exercise: Write and Run a Spark Application
Configuring Spark Properties
Logging
Parallel Processing
Review: Spark on a Cluster
RDD Partitions
Partitioning of File-based RDDs
HDFS and Data Locality
Executing Parallel Operations
Stages and Tasks
Spark RDD Persistence
RDD Lineage
RDD Persistence Overview
Distributed Persistence
Basic Spark Streaming
Spark Streaming Overview
Example: Streaming Request Count
DStreams
Developing Spark Streaming Applications
Advanced Spark Streaming
Multi-Batch Operations
State Operations
Sliding Window Operations
Advanced Data Sources
Common Patterns in Spark Data Processing
Common Spark Use Cases
Iterative Algorithms in Spark
Graph Processing and Analysis
Machine Learning
Example: k-means
Improving Spark Performance
Shared Variables: Broadcast Variables
Shared Variables: Accumulators
Common Performance Issues
Diagnosing Performance Problems
Spark SQL and DataFrames
Spark SQL and the SQL Context
Creating DataFrames
Transforming and Querying DataFrames
Saving DataFrames
DataFrames and RDDs
Comparing Spark SQL, Impala and Hive-on-Spark