致力于提升研发企业的持续创新能力

课程内容：理解大数据和面临大数据带来的挑战，互联网网时代数据已经是公司的成败，对海量数的存储、计算、分析和挖掘等目前是很多互联网公司的核心，例如广告的推荐、商品推荐等，还可以挖掘数据来分析用户的潜在价值，面对数据快速的增长，存储和计算变得很重要，课程中我们使用hadoop来解决海量数据所带来的一些问题，Hadoop目前已经备受互联网的亲耐，hadoop已经成为海量数据处理必不可少的一个工具，也是最流行的一个海量数据存储和计算的框架，此外还有hive、Hbase、sqoop等框架的培训。

学员收益

Hadoop这门课程从理论到实战再到公司的项目，还有hadoop集群的搭建和性能的调优，再到HDFS性能的测试和MapReduce性能的测试再到网络的需求等全面的详解Hadoop的开发和维护，深刻理解MapReduce的原理，能过使用mapreduce进行高级编程，使用Hive进行数据分析，使用Hbase进行线上分析，关系型数据和HDFS、hive之间的相互迁移，理解Hadoop的使用场景，面对一个需求适不适合使用hadoop。

面向对象

大数据爱好者、程序员、数据分析师，项目经理和对已经使用hadoop，想提高的用户。

学员基础

学员学习本课程应具备下列基础知识：

1)了解Java或者python和shell语言；

2)了解Linux系统；

课程模块	课程主题	主要内容	案例和演示
模块一	Hadoop集群规划	1.Hadoop 集群内存要求 Namenode的机器配置 Datanode的机器配置 SNN的机器配置 2.Hadoop集群磁盘分区 3.集群和网络拓扑要求 4.集群软件的端口配置 5.Hadoop的网络设计	针对NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同组件需求推荐服务器配置
模块二	Hadoop组件介绍	1.Hadoop NameNode 介绍 2.Hadoop SecondaryNameNode 介绍 3.Hadoop DataNode 介绍 4.Hadoop JobTracker 介绍 5.Hadoop TaskTracker 介绍 6. HA原理介绍 7. Yarn原理介绍 resourceManage介绍 applicationMaster介绍 NodeManage介绍
模块三	Hadoop的HDFS模块	1.HDFS架构介绍 2.HDFS原理介绍 3.NameNode功能详解 4.DataNode功能详解 5.SecondaryNameNode功能详解 6.HSFD的fsimage和editslog详解 7.HDFS的block详解 8.HDFS的block的备份策略 9.Hadoop的机架感知配置 10.HDFS的shell命令介绍 11.HDFS的thrift server服务介绍 12.HDFS的API接口介绍 13.HDFS的权限详解 14.Hadoop的客服端接入案例	Ø Hadoop的shell命令演示 Ø Hadoop的API接口演示 Ø Hadoop的客服端接入案例
模块四	MapReducer入门和高级开发实战	1.Mapreduce原理 2.MapReduce流程 3.剖析一个MapReduce程序 4.Mapper和Reducer抽象类详解 5.Mapreduce的最小驱动类 6.MapReduce自带的类型 7.自定义Writables和WritableComparables 8.Mapreduce的输入InputFormats 9.MapReduce的输出OutputFormats 10.自定义InputFormat 11.自定义InputSPlits 12.自定义RecorderReader 13.Combiner详解 14.Partitioner详解 15.DistributeFileSystem详解 16.Hadoop Tools工具介绍 17.Counter计数器详解 18.自定义Counter计数器 19.基于Hadoop二次开发实战 20.MapReduce的优化 21.Map和Reduce的个数设置 22.Hadoop小文件优化 23.任务调度 24.默认的任务调度 25.公平任务调度 26.能力任务调度 27.使用 Hadoop MapReduce Streaming 编程 28.MapReduce的单元测试	Ø MapReduce实现海量数据比较大小案例 Ø 自定义Hadoop类型案例 Ø 自定义Partitioner案例 Ø 实现在内存随机生成100个数，分成两个Map来比较大小 Ø 自定义inputFormat和InputSplit和RecorderReader来实现MapReduce读取Redis里面的数据。 Ø 多文件输出和自动定义MapReduce的输出名 Ø MapReduce实现Join算法案例 Ø MapReduce实现海量文档相似度算法 Ø 自定义Counter案例实现 Ø MapReduce实现Pangrank算法。 Ø MapReduce单元测试：Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。 Ø 某公司使用MapReduce分析日志案例（10T数据以上） Ø MapReducer日志连续性验证 Ø MapReduce加密解密 Ø MapReduce索引倒排 Ø 配置公平调度器案例实战
模块五	Hadoop安全和性能优化	1.Hadoop的可伸缩性应用 2.Hadoop的线性伸缩性 3. Hadoop的最佳实战 4.Map/Reduce性能测试 5.HDFS的性能测试 6.Hadoop企业级架构 7.Hadoop的安全实战 8.Hadoop的运维知识总结	实战： MapReduce性能测试案例实战，找出mapreduce的瓶颈和优化的参数
模块六	Hadoop集群配置介绍和维护	1.Hadoop集群的部署要点 2.NameNode和SecondaryNameNode和JobTracker机器的配置要求 3.dataNode与tasktracker机器的配置要求 4.Hadoop集群管理的工具介绍 5.Ganglia和nigos监控Hadoop集群介绍 6.Ambri介绍 7.添加和删除节点演示 8.Namenode的单点解决方案 9.NameNode的NFS备份介绍 10.集群所有dataNode挂掉的故障介绍 11.集群NameNode的fsimage丢掉恢复方法 12.Hadoop集群维护的注意点

找到所需课程了吗？即刻填写申请表格与我们联络吧

地址: 天津市和平区西康路35号康岳大厦418室
电话: 022-59182500
邮编: 300051
E-mail: support@firstcase.com.cn