114培训网欢迎您来到深圳IT认证机构!

13140882082

全国统一学习专线 9:00-21:00

深圳大数据开发技巧与调优培训

授课机构:深圳IT认证机构

关注度:418

课程价格: 请咨询客服

上课地址:请咨询客服

开课时间:滚动开班

咨询热线:13140882082

在线报名

课程详情在线报名

更新时间:2024-12-22

课程亮点

师资:专职讲师团队,丰富行业经验和企业培训经验

特色:小班培训,精品课程,面授+直播+录播,上课方式多样

培训:免费重听


适用对象

不限


课程内容

主题1:大数据平台方案与实施


大数据基础与发展过程


传统大规模数据处理与分析存在的问题


大数据计算框架


离线计算框架;流式计算框架;内存计算框架;


大数据平台方案


CDH 、Hortonworks、MapR;传统IT公司方案:Oracle Exadata,SAP HANA;核心组件;Hadoop 1.0与2.0版本关联与区别;Hadoop生态系统;Apache Hadoop方案;国外主流大数据平台方案;国内主流大数据平台方案与厂商;大数据平台方案比较;


大数据的行业应用


大数据的落地实施挑战


主题2:大数据计算模型(一)–批处理MapReduce


MapReduce编程模型


Map处理;Reduce处理;MapReduce主程序设置;


MapReduce处理流程


数据读取collect;中间数据sort;中间数据spill;中间数据shuffle;聚合分析reduce;


MapReduce开发高级应用


Combiner技术与应用场景;Partitioner技术与应用场景;多Reducers应用;


MapReduce开发与应用实践


Hadoop平台搭建与运行;MapReduce安装与部署;应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行;


主题3:大数据存储系统


HDFS分布式文件系统


NameNode单点故障解决方案;NFS冷备份;block的备份策略;fsimage和editslog;HDFS系统架构与原理;NameNode功能详解;DataNode功能详解;HDFS读写机制;HDFS高可用方案;


第二天


主题4:Hadoop软件框架与优化


Hadoop1.0框架


Hadoop JobTracker;Hadoop TaskTracker;


Hadoop 2.0 框架


ResourceManager组件;NodeManager组件;ApplicationMaster组件;YARN组件;


Hadoop 2.0 资源调度优化


YARN调度原理;CapacityScheduler;FairScheduler;


Hadoop框架组件调优


慢启动优化;心跳优化;容错优化;MR计算框架参数调优;


HDFS调优


RPC线程调优;本地文件系统调优;RAID与卷管理调优;小文件优化;


主题5:大数据计算模型(二)实时交互计算– Spark


Spark编程模型


Scala:面向函数的编程;Scala常见函数与开发;Scala编译和运行;


Spark RDD开发模型


宽依赖;窄依赖;count;collect;saveAsTextFile;map;flatmap;filter;union;reduceByKey;groupByKey;Spark RDD运行机制;Spark RDD主要Transformation;Spark RDD主要Action;Spark RDD依赖关系;


Spark集群架构与关键组件


Spark作业运行机制


执行DAG图;任务集;executor执行模型;


Spark开发与应用实践


基于HDFS+Flume+Spark的服务器运行日志实时分析Spark程序实例开发与运行;Spark运行环境搭建与部署;应用案例;


主题6:SQL on Hadoop大数据查询


基于MapReduce的大数据查询Hive


列存储和行存储;Hive架构与工作原理;Hive数据加载;Hive内部表和外部表;Hive分区表和分通表;Hive的存储方式;Hive SQL基本操作;


基于Spark的大数据查询SparkSQL


数据表读取、查询与结果保存;json;Hive table;Parquet file;RDD;SparkSQL工作原理与执行机制;SparkSQL数据模型Dataframe;SparkSQL数据读取与结果保存;SparkSQL和Hive的区别与联系;实践SparkSQL操作;


第三天


主题7:大数据计算模型(三) 流计算


流数据处理应用场景


流数据处理特点;流计算系统:SparkStreaming,Storm对比;


流数据计算框架:Spark Streaming


基于文件流的SparkStraeming程序;基于socket流的SparkStraeming程序;Spark Streaming基本概念;Spark Streaming数据模型DStream;Spark Streaming架构与工作机制;Spark Streaming数据源操作;Spark Streaming开发示例;


流数据计算框架:Storm


Spout,Bolt, Topology;Storm基本概念;Storm编程模型;数据流分组;并发度设置;容错机制;


主题8:NoSQL数据库


NoSQL数据库


Hbase,MongoDB,Redis;关系型数据库瓶颈;NoSQL数据库概念,分类与适用场景;


列存储NoSQL数据库Hbase


高表与宽表;rowkey设计;LSM结构的数据组织与读写;Hmaster;RegionServer;Zookeeper;行、列簇、时间戳;Hbase原理与数据模型;Hbase系统架构;Hbase的读写机制;Hbase表的设计原则;Hbase适用场景;


主题9:大数据采集


RDBMS与Hadoop数据转换工具Sqoop


Sqoop工作原理;


文件采集工具Flume


Flume组件与运行;Flume常用配置;


Kafka


Kafka基本概念: producer, broker, consumer;Kafka集群架构;Kafka运行机制;Kafka应用场景;


姓名不能为空
手机号格式错误