致力于提升研发企业的持续创新能力

课程内容：当下是大数据时代，为构建大数据平台，需要对分布式数据收集，大数据存储，分布式计算，资源管理等系统有全面而又深入的理解。众所周知，大数据源自于互联网行业，目前互联网公司已有一套完善的大数据平台建设方案，大部分选用开源的Hadoop和Spark两大生态系统，本课程正是以这两套系统为主介绍大数据平台及架构的构建策略及经验。

二、目标收益

本课程将为大家全面而又深入的介绍大数据平台的构建流程，涉及分布式数据收集，大数据存储，资源管理及分布式计算框架等。本课程重点以Hadoop和Spark两大生态系统作为基准进行介绍，涉及Flume， HDFS, Hbase，YARN，MapReduce，Hive， Zookeeper， Spark，Storm，Spark Streaming等主流的大数据开源系统架构及应用经验。

三、培训对象

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。

四、学员基础

学员学习本课程应具备下列基础知识：

1) 了解Java语言；

2) 了解Linux系统；

主题	授课内容
大数据架构概述	1. 1介绍大数据层级架构及各层软件设计要求，包括数据收集，大数据存储，大数据计算框架，大数据应用等 1.2. Hadoop生态系统概述以及版本演化概要介绍Hadoop生态系统及其版本演化历史，并给出hadoop版本选择建议。 1.3. Spark生态系统概述概要介绍Spark生态系统及其特点，并与Hadoop对比
数据收集系统Flume与Sqoop	2、介绍如何使用flume和sqoop两个系统将外部流式数据（比如网站日志，用户行为数据等）、关系型数据库（比如MySQL、Oracle等）中的数据导入Hadoop中进行分析和挖掘
大数据存储系统HDFS与HBase	3.1 HDFS 2.0 原理、特性与基本架构介绍HDFS 2.0原理与架构，并与HDFS 1.0进行对比。介绍HDFS 2.0新特性，包括快照、缓存、异构存储架构等 3.2 HBase原理，基本架构与案例分析介绍HBase应用场景、原理和架构，介绍几个HBase典型应用案例，包括互联网应用案例和银行应用案例。
集群资源管理与调度系统	4. 介绍 YARN应用场景、基本架构与资源调度
Zookeeper部署及典型应用	5. 介绍Zookeeper是什么，基本原理及在应用
大数据计算平台	介绍主流的三大类大数据计算框架，分别是批处理、交互式计算和流式计算框架，并选取当下主流的开源实现进行介绍。 6.1 批处理计算框架（1）MapReduce 2.0基本原理与架构，编程实践（涉及多语言编程）介绍计算框架MapReduce基本原理与架构，手把手介绍如何用java、C++、php等语言编写MapReduce程序（2）数据分析系统Hive与Pig应用与比较介绍如何使用hive和pig分析hadoop中的海量数据（3）Spark计算框架介绍Spark背景，使用以及应用案例 6.2 交互式计算框架介绍Impala和presto应用场景，基本架构和典型应用案例 6.3 流式/实时计算框架介绍storm以及Spark Streaming基本架构与特点，及典型应用案例
数据挖掘与机器学习库	7. 介绍Mahout与MLlib两个主流的分布式数据挖掘与机器学习库的实现以及应用案例。

找到所需课程了吗？即刻填写申请表格与我们联络吧

地址: 天津市和平区西康路35号康岳大厦418室
电话: 022-59182500
邮编: 300051
E-mail: support@firstcase.com.cn