114培训网欢迎您来到杭州博学国际教育培训中心!

400-850-8622

全国统一学习专线 8:30-21:00

杭州Cloudera认证Apache Hadoop开发者培训(CCA)

授课机构:杭州博学国际教育培训中心

关注度:70

课程价格: 请咨询客服

上课地址:请咨询客服

开课时间:滚动开班

咨询热线:400-850-8622

在线报名

课程详情在线报名

更新时间:2024-12-23
Cloudera认证Apache Hadoop开发者培训(CCA) 培训班型: 公开课 课程长度: 4天/24小时 培训日期: 待定 认证考试: 北京、上海、广州、杭州、福州、深圳、 西安、南京、天津、武汉、成都、重庆 培训地点: 博学国际教育培训中心 环境要求: 投影仪、白板、大白纸 培训形式: 实例讲授,现场演、练、及时沟通 培训资料: 培训教材 课程内容 认证描述: 4天的课程包涵了解Apache Spark的基础知识及其与Hadoop整体生态系统的集成方式。本课程将重温HDFS的基础内容,学习如何使用Sqoop/Flume摄取数据,利用Spark处理分布式数据,学习在Impala和Hive上数据建模,以及在数据存储方面的*实践。 课程概述: •Hadoop 核心 •HDFS 和 MapReduce 工作原理 •如何开发 MapReduce 应用 •如何单元测试 MapReduce 应用 •如何使用 MapReduce combiners, partitioners 和 distributed cache •开发调试 MapReduce 应用 •如何实现 MapReduce 应用中的输入/输出 •常见 MapReduce 算法 •如何用 MapReduce 来联结数据集 •如何把 Hadoop 嵌入到企业已有的计算环境里 •如何使用 Hive、Impala 和 Pig 来快速开发数据分析应用 •如何使用 Oozie 来创建管理工作流 培训前提: 企业管理者、CIO、CTO、*信息*官员、项目(开发)经理、咨询顾 问;IT经理,IT咨询顾问,IT支持专家;系统工程师、数据中心管理员、云 计算管理员及想加入云计算队伍的您。 授课对象:具备编程经验的开发人员;熟悉面向对象高级编程语言,如Java;不需要事先掌握Hadoop相关知识 培训目标: 通过考试可获得Cloudera Certified Developer for Apache Hadoop (CCDH) 证书 Using the Spark shell for interactive data analysis  The features of Spark’s Resilient Distributed Datasets  How Spark runs on a cluster  How Spark parallelizes task execution  Writing Spark applications  Processing streaming data with Spark 环境准备: 1. 操作系统:Linux 2. java环境:jdk6以上 硬件环境:电脑内存4G以上 课程内容:  介绍  Hadoop 起源和动机  Hadoop 基本概念和 HDFS  MapReduce 介绍  Hadoop 集群和 Hadoop 生态系统  使用 Java 编写 MapReduce 程序  使用 Streaming 编写 MapReduce 程序  MapReduce 单元测试  深入 Hadoop API  开发技巧  Reducer 和 Partitioner  数据输入/输出  常见 MapReduce 算法  用 MapReduce 来联结数据集  把 Hadoop 嵌入到企业已有的计算环境里  Hive、Impala 和 Pig 简介  Oozie 简介  结论  附录: Cloudera Enterprise Introduction to Spark  What is Spark?  Review: From Hadoop MapReduce to Spark  Review: HDFS  Review: YARN  Spark Overview Spark Basics  Using the Spark Shell  RDDs (Resilient Distributed Datasets)  Functional Programming in Spark Working with RDDs in Spark  Creating RDDs  Other General RDD Operations Aggregating Data with Pair RDDs  Key-Value Pair RDDs  Map-Reduce  Other Pair RDD Operations Writing and Deploying Spark Applications  Spark Applications vs. Spark Shell  Creating the SparkContext  Building a Spark Application (Scala and Java)  Running a Spark Application  The Spark Application Web UI  Hands-On Exercise: Write and Run a Spark Application  Configuring Spark Properties  Logging Parallel Processing  Review: Spark on a Cluster  RDD Partitions  Partitioning of File-based RDDs  HDFS and Data Locality  Executing Parallel Operations  Stages and Tasks Spark RDD Persistence  RDD Lineage  RDD Persistence Overview  Distributed Persistence Basic Spark Streaming  Spark Streaming Overview  Example: Streaming Request Count  DStreams  Developing Spark Streaming Applications Advanced Spark Streaming  Multi-Batch Operations  State Operations  Sliding Window Operations  Advanced Data Sources Common Patterns in Spark Data Processing  Common Spark Use Cases  Iterative Algorithms in Spark  Graph Processing and Analysis  Machine Learning  Example: k-means Improving Spark Performance  Shared Variables: Broadcast Variables  Shared Variables: Accumulators  Common Performance Issues  Diagnosing Performance Problems Spark SQL and DataFrames  Spark SQL and the SQL Context  Creating DataFrames  Transforming and Querying DataFrames  Saving DataFrames  DataFrames and RDDs  Comparing Spark SQL, Impala and Hive-on-Spark 
姓名不能为空
手机号格式错误