致力于提升研发企业的持续创新能力

结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。

课程分类列表

Hadoop大数据实战课程
课程类别:大数据

大数据

课程讲师:

刘刚

课程周期:

3天

课程费用:

4800元/人


当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

培训对象:

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

学员基础:

了解Linux系统及相关语言环境

关键词:

Hadoop、Spark、NoSQL、大数据

时间 模块 大纲
第一天 大数据在
国外的运用
大数据在国外的发展情况
大数据在国外的应用
Hadoop在国外的使用
大数据在金融业的使用案例
大数据的发展与展望
大数据在国内的运用 大数据在国内的使用介绍
离线计算框架介绍
流式计算框架介绍
内存计算框架介绍
内存流式计算介绍
大数据实时请求框架介绍
大数据在证券的案例介绍
大数据在银行的案例介绍
大数据生态 分布式存储—HDFS
系统介绍 分布式并行计算—MapReduce
基于Hadoop的数据仓库—Hive
集群管理工具—ambari
工作流工具—Oozie
数据的并行采集—Flume
MapReduce脚本工具—Pig
与关系型数据库之间的数据迁移—Sqoop
资源管理平台—Yarn
数据挖掘算法—Mahout
分布式统一服务—Zookeeper
Hadoop安全工具—Knox
流式计算框架—Storm
内存计算框架—Spark
数据挖掘框架—Mahout、Mllib和Graphx
Hadoop核心组件详解 HDFS 基本结构
HDFS 副本存放策略
NameNode 详解
SecondaryNameNode 详解
HA的架构和原理
DataNode 详解
MapReduce并行计算架构
JobTracker 详解
TaskTracker 详解
Yarn原理详解
Resourcemanger详解
Nodemanager详解
ApplicationMaster详解
Hadoop的HDFS模块 HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详解
SecondaryNameNode功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Hadoop的机架感知配置
HDFS的shell命令介绍
HDFS的thrift server服务介绍
HDFS的API接口介绍
HDFS的权限详解
Hadoop的客服端接入案例
Hadoop的shell命令演示
Hadoop的API接口演示
Hadoop的客服端接入案例
MapReducer入门 Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Mapreduce的最小驱动类
MapReduce自带的类型
Combiner详解
Partitioner详解
DistributeFileSystem详解
Hadoop Tools工具介绍
Counter计数器详解
自定义Counter计数器
基于Hadoop二次开发实战
MapReduce的优化
实现在内存随机生成100个数,分成两个Map来比较大小
多文件输出和自动定义MapReduce的输出名
MapReduce实现Join算法案例
MapReduce实现海量文档相似度算法
自定义Counter案例实现
第二天 Map和Reduce的个数设置
Hadoop小文件优化
任务调度
默认的任务调度
公平任务调度
能力任务调度
使用 HadoopMapReduce Streaming 编程
MapReduce的单元测试
MapReduce实现Pangrank算法。
MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。
某公司使用MapReduce分析日志案例(10T数据以上)
配置公平调度器案例实战
Yarn实战 Yarn架构和原理
ResourceManager工作原理
NodeManager工作原理
ApplicationMaster工作原理
Yarn的资源控制机制
基于内存的控制设置
基于CPU的控制设置
基于Yarn的程序开发步骤
Yarn为某个运用独立分配资源
Yarn与Messos的区别
基于Yarn资源控制实战
基于Yarn的程序开发实战
MapReduce on Yarn实战
Hbase on Yarn 实战
Hive、impala和Tez实战 Hive和Pig基础
Hive、Impala和presto的比较
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive 部署和安装
Hive Cli 的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hive的UDF和UDAF
Hive的transform详解
Hive的JDBC连接
Impala实战
Tez实战
Hive和Pig基础
Hbase使用 Hbase原理
Hmaster详解
RegionServer详解
Zookeeper介绍
Hbase安装
Hbase逻辑视图介绍
Hbase物理视图介绍
Hbase的二级索引介绍
Hbase 的DDL和DML
Hbase表的设计案例
Hbase的import功能介绍
MapReduce操作Hbase
Hbase的 thrift Server介绍
Hbase 的API介绍
Hbase使用场景介绍
Hbase案例分析
MapReduce操作Hbase实战
Hbase的API实战
Hbase表结构设计实战
银行信用卡刷卡记录的查询
第三天 互联网大数案例分享 淘宝大数据平台深度解析
基于大数据平台的实时营销架构
淘宝大数据推荐架构介绍
大数据实时分析架构
某城商行大数据案例 大数据架构详解
POS商户的分析和交易流水分析
架构:Hadoop+Hive+Hbase+Storm
交易风险预测和实时营销
架构: Hadoop+Flume+Storm+
Redis+Esper+Hbase
某国字头银行大数据案例 大数据架构详解
基于Hadoop的数据仓库
架构:Hadoop+Hive+Hcatalog+oozie
担保圈分析、资金链上下游分析
架构:Hadoop+SparkGraphx+Mllib+R
网址选择
架构:Hadoop+Hive+高德地图
找到所需课程了吗?即刻 填写申请表格 与我们联络吧