结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。
刘刚
3天
6000元
课程简介:
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。
课程收益:
本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, Spark、Hadoop实战技巧,Spark、Hadoop经典案例等。
通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握Spark、Hadoop等初中级应用开发技能;搭建稳定可靠的Spar、Hadoop集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
培训对象:
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳
学员基础:
了解Linux系统及相关语言环境
主题 | 内容 | |
Hadoop简介和生态系统介绍 |
传统大规模数据分析存在的问题 Hadoop概述 Hadoop与分布式文件系统 Hadoop生态系统 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系 Hadoop版本介绍 Hadoop与Google FS的关系 Hadoop在国内的使用情况和未来 |
|
Hadoop安装和主要配置文件介绍 |
Hadoop安装所需软件介绍 Hadoop单机安装 Hadoop伪分布式安装 Hadoop完全分布式安装 Hadoop三个节点安装的配置介绍 Hahoop多节点ssh配置 Hadoop格式化详解 Hadoop核心配置文件介绍 核心配置文件core-site.xml HDFS配置文件hdfs-site.xml Mapreduce配置文件mapred-site.xml master文件配置详解 slave文件配置详解 Hadoop启动和停止方法一 —start-all.sh详解 —stop-all.sh详解 Hadoop的启动和停止方法二 —hadoop-deamon.sh详解 Hadoop安装的常见错误介绍和解决方案 使用自带的wordcount和pi测试集群安装是否成功 使用Streaming来测试集群安装是否成功 |
|
Hadoop组件介绍 |
Hadoop NameNode 介绍 Hadoop SecondaryNameNode 介绍 Hadoop DataNode 介绍 Hadoop JobTracker 介绍 Hadoop TaskTracker 介绍 |
|
Hadoop的HDFS模块 |
HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详解 SecondaryNameNode功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Hadoop的机架感知配置 HDFS的shell命令介绍 HDFS的thrift server服务介绍 HDFS的API接口介绍 HDFS的权限详解 Hadoop的客服端接入案例 |
|
MapReducer入门 |
Mapreduce原理 MapReduce流程 剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Mapreduce的最小驱动类 MapReduce自带的类型 自定义Writables和WritableComparables Mapreduce的输入InputFormats MapReduce的输出OutputFormats Combiner详解 Partitioner详解 DistributeFileSystem详解 Hadoop Tools工具介绍 Counter计数器详解 自定义Counter计数器 基于Hadoop二次开发实战 MapReduce的优化 Map和Reduce的个数设置 Hadoop小文件优化 任务调度 默认的任务调度 公平任务调度 能力任务调度 使用 Hadoop MapReduce Streaming 编程 MapReduce的单元测试 |
|
Hive |
Hive和Pig基础 Hive、Impala和presto的比较 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive部署和安装 HiveCli的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive的UDF和UDAF Hive的transform详解 Hive的JDBC连接 |
|
Sqoop介绍 |
Sqoop是什么 Sqoop安装 Sqoop把mysql数据导入HDFS Sqoop把HDFS数据导入Mysql Sqoop吧Mysql数据导入Hive Sqoop吧Mysql数据导入Hive分区 |
|
Hadoop集群配置和维护 |
Hadoop集群的部署要点 NameNode和SecondaryNameNode和JobTracker机器的配置要求 dataNode与tasktracker机器的配置要求 Hadoop集群管理的工具介绍 Ganglia和nigos监控Hadoop集群介绍 Ambri介绍 添加和删除节点演示 Namenode的单点解决方案 NameNode的NFS备份介绍 集群所有dataNode挂掉的故障介绍 集群NameNode的fsimage丢掉恢复方法 Hadoop集群维护的注意点 |
|
Hbase使用 |
Hbase原理 Hmaster详解 RegionServer详解 Zookeeper介绍 Hbase安装 Hbase逻辑视图介绍 Hbase物理视图介绍 Hbase的二级索引介绍 Hbase的DDL和DML Hbase表的设计案例 Hbase的import功能介绍 MapReduce操作Hbase Hbase的thriftServer介绍 Hbase的API介绍 Hbase使用场景介绍 Hbase案例分析 |
|
大数据在国内的运用 |
大数据在国内的使用介绍 离线计算框架介绍 流式计算框架介绍 内存计算框架介绍 内存流式计算介绍 大数据实时请求框架介绍 大数据在移动的案例介绍 大数据在银行的案例介绍 大数据在阿里的案例介绍 |
|
Spark生态介绍 |
Spark产生背景 Spark(内存计算框架) SparkSteaming(流式计算框架) SparkSQL(ad-hoc) Mllib(MachineLearning) GraphX(bagel将被代) |
|
spark安装部署 |
Spark安装简介 Spark的源码编译 SparkStandalone安装 SparkStandaloneHA安装 Spark应用程序部署工具spark-submit |
|
Spark运行架构和解析 |
Spark的运行架构 基本术语 运行架构 SparkonStandalone运行过程 SparkonYARN运行过程 Spark运行实例解析 SparkonStandalone实例解析 SparkonYARN实例解析 |
|
SparkSQL原理和实践 |
SparkSQL原理 SparkSQL的Catalyst优化器 SparkSQL内核 SparkSQL和Hive SparkSQL的实例和编程 SparkSQL的实例操作demo SparkSQL的编程 |
|