致力于提升研发企业的持续创新能力

结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。

课程分类列表

Spark开发实战
课程类别:大数据

大数据 Spark

课程讲师:

刘刚

课程周期:

2天

课程费用:

4800

时间安排 模块 培训大纲
上午 大数据生态系统介绍 分布式存储—HDFS
分布式并行计算—MapReduce
基于Hadoop的数据仓库—Hive
集群管理工具—ambari
工作流工具—Oozie
数据的并行采集—Flume
MapReduce脚本工具—Pig
与关系型数据库之间的数据迁移—Sqoop
资源管理平台—Yarn
数据挖掘算法—Mahout
分布式统一服务—Zookeeper
Hadoop安全工具—Knox
流式计算框架—Storm
内存计算框架—Spark
数据挖掘框架—Mahout、Mllib和Graphx
Spark生态介绍 Mapreduce、storm和spark模型的比较和使用场景介绍
Spark产生背景
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel将被代)
DlinkDB介绍
SparkR介绍
Spark运行架构和解析 Spark的运行架构
基本术语
运行架构
Spark on Standalone运行过程
Spark on YARN 运行过程
Spark应用程序的配置
Spark运行实例解析
Spark on Standalone实例解析
Spark on YARN实例解析
下午 Spark编程模型和解析 python开发环境搭建
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
— lineage和checkpoint详解
Spark2.0的特性 Spark 2.0 和1.6的区别
SparkSession详解
StructedStreaming原理
DateFrame和DataSet的优化
文件读写操作 Spark支持哪些文件的读写
Spark读Hive的数据
Spark读Json格式的数据
Spark读Hbase的数据
Spark应用优化 partition优化详解
文件压缩格式(ORC、Parquet)
持久化类型选择
灵活使用Join操作
Spark配置参数的优化
RDD的优化
上午 Spark SQL原理和实践 Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL内核
Spark SQL和Hive
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
Spark SQL的实例操作demo
Spark SQL的编程
Structured Streaming实战 Spark Streaming原理剖析
Spark Streaming流数据处理框架介绍
Spark Streaming编程剖析
初始化StreamingContext
Discretized Streams (DStreams)
输入DStreams与Receivers
基于DStreams的Transformations
基于DStreams的输出操作
Accumulators和Broadcast Variables
DataFrame和SQL操作
DStream的特点
Dstream的操作和RDD的区别
SatefulRDD和windowRDD实战
Kafka+Spark Steaming实战
—Receiver
—Direct
Structured Streaming介绍
Structured Streaming和Spark Streaming的比较
Spark 数据挖掘基于 SparkMllib和SparkR原理
基于Spark Mllib和SparkR数据挖掘的流程
数据的抽取
数据降维和升维
稠密向量和稀疏向量数据处理
基于DataFrame和DataSet的数据挖掘过
SparkMllib和SparkR挖掘实战
聚类算法Kmeans的实战和应用场景
决策树算法的实战和应用场景
逻辑回归算法实战和应用场景
随机森林算法实战和应用场景
协同过滤推荐算法实战案例
下午 Hands-on项目实操 Spark SQL项目实战(电信行业)
—项目需求
—数据ELT
—SparkSQL和Hive整合
—SparkSQL内存表的使用
—JDBC连接SparkSQL
Spark Mllib项目实战(电信行业)
—Spark Mllib挖掘的步骤
—数据去噪
—模型的选择
—基于校园用户的数据建模案例
—模型的保存和优化
案例详解 基于spark日志分析
Spark SQL实战(证券业)
Spark在大型互联网使用案例分享
200+Spark集群的案例介绍
找到所需课程了吗?即刻 填写申请表格 与我们联络吧