结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。
刘刚
3天
4800元/人
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。
培训对象:
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
学员基础:
了解Linux系统及相关语言环境
关键词:
Hadoop、Spark、NoSQL、大数据
时间 | 模块 | 大纲 | |
第一天 |
大数据在 国外的运用 |
大数据在国外的发展情况 大数据在国外的应用 Hadoop在国外的使用 大数据在金融业的使用案例 大数据的发展与展望 |
|
大数据在国内的运用 |
大数据在国内的使用介绍 离线计算框架介绍 流式计算框架介绍 内存计算框架介绍 内存流式计算介绍 大数据实时请求框架介绍 大数据在证券的案例介绍 大数据在银行的案例介绍 |
||
大数据生态 | 分布式存储—HDFS | ||
系统介绍 |
分布式并行计算—MapReduce 基于Hadoop的数据仓库—Hive 集群管理工具—ambari 工作流工具—Oozie 数据的并行采集—Flume MapReduce脚本工具—Pig 与关系型数据库之间的数据迁移—Sqoop 资源管理平台—Yarn 数据挖掘算法—Mahout 分布式统一服务—Zookeeper Hadoop安全工具—Knox 流式计算框架—Storm 内存计算框架—Spark 数据挖掘框架—Mahout、Mllib和Graphx |
||
Hadoop核心组件详解 |
HDFS 基本结构 HDFS 副本存放策略 NameNode 详解 SecondaryNameNode 详解 HA的架构和原理 DataNode 详解 MapReduce并行计算架构 JobTracker 详解 TaskTracker 详解 Yarn原理详解 Resourcemanger详解 Nodemanager详解 ApplicationMaster详解 |
||
Hadoop的HDFS模块 |
HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详解 SecondaryNameNode功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Hadoop的机架感知配置 HDFS的shell命令介绍 HDFS的thrift server服务介绍 HDFS的API接口介绍 HDFS的权限详解 Hadoop的客服端接入案例 |
Hadoop的shell命令演示 Hadoop的API接口演示 Hadoop的客服端接入案例 |
|
MapReducer入门 |
Mapreduce原理 MapReduce流程 剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Mapreduce的最小驱动类 MapReduce自带的类型 Combiner详解 Partitioner详解 DistributeFileSystem详解 Hadoop Tools工具介绍 Counter计数器详解 自定义Counter计数器 基于Hadoop二次开发实战 MapReduce的优化 |
实现在内存随机生成100个数,分成两个Map来比较大小 多文件输出和自动定义MapReduce的输出名 MapReduce实现Join算法案例 MapReduce实现海量文档相似度算法 自定义Counter案例实现 |
|
第二天 |
Map和Reduce的个数设置 Hadoop小文件优化 任务调度 默认的任务调度 公平任务调度 能力任务调度 使用 HadoopMapReduce Streaming 编程 MapReduce的单元测试 |
MapReduce实现Pangrank算法。 MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。 某公司使用MapReduce分析日志案例(10T数据以上) 配置公平调度器案例实战 |
|
Yarn实战 |
Yarn架构和原理 ResourceManager工作原理 NodeManager工作原理 ApplicationMaster工作原理 Yarn的资源控制机制 基于内存的控制设置 基于CPU的控制设置 基于Yarn的程序开发步骤 Yarn为某个运用独立分配资源 Yarn与Messos的区别 |
基于Yarn资源控制实战 基于Yarn的程序开发实战 MapReduce on Yarn实战 Hbase on Yarn 实战 |
|
Hive、impala和Tez实战 |
Hive和Pig基础 Hive、Impala和presto的比较 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive 部署和安装 Hive Cli 的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive的UDF和UDAF Hive的transform详解 Hive的JDBC连接 Impala实战 Tez实战 |
Hive和Pig基础 | |
Hbase使用 |
Hbase原理 Hmaster详解 RegionServer详解 Zookeeper介绍 Hbase安装 Hbase逻辑视图介绍 Hbase物理视图介绍 Hbase的二级索引介绍 Hbase 的DDL和DML Hbase表的设计案例 Hbase的import功能介绍 MapReduce操作Hbase Hbase的 thrift Server介绍 Hbase 的API介绍 Hbase使用场景介绍 Hbase案例分析 |
MapReduce操作Hbase实战 Hbase的API实战 Hbase表结构设计实战 银行信用卡刷卡记录的查询 |
|
第三天 | 互联网大数案例分享 |
淘宝大数据平台深度解析 基于大数据平台的实时营销架构 淘宝大数据推荐架构介绍 大数据实时分析架构 |
|
某城商行大数据案例 |
大数据架构详解 POS商户的分析和交易流水分析 架构:Hadoop+Hive+Hbase+Storm 交易风险预测和实时营销 架构: Hadoop+Flume+Storm+ Redis+Esper+Hbase |
||
某国字头银行大数据案例 |
大数据架构详解 基于Hadoop的数据仓库 架构:Hadoop+Hive+Hcatalog+oozie 担保圈分析、资金链上下游分析 架构:Hadoop+SparkGraphx+Mllib+R 网址选择 架构:Hadoop+Hive+高德地图 |