致力于提升研发企业的持续创新能力

时间安排	模块	培训大纲
上午	大数据生态系统介绍	分布式存储—HDFS 分布式并行计算—MapReduce 基于Hadoop的数据仓库—Hive 集群管理工具—ambari 工作流工具—Oozie 数据的并行采集—Flume MapReduce脚本工具—Pig 与关系型数据库之间的数据迁移—Sqoop 资源管理平台—Yarn 数据挖掘算法—Mahout 分布式统一服务—Zookeeper Hadoop安全工具—Knox 流式计算框架—Storm 内存计算框架—Spark 数据挖掘框架—Mahout、Mllib和Graphx
	Spark生态介绍	Mapreduce、storm和spark模型的比较和使用场景介绍 Spark产生背景 Spark（内存计算框架） SparkSteaming（流式计算框架） Spark SQL（ad-hoc） Mllib（MachineLearning） GraphX（bagel将被代） DlinkDB介绍 SparkR介绍
	Spark运行架构和解析	Spark的运行架构基本术语运行架构 Spark on Standalone运行过程 Spark on YARN 运行过程 Spark应用程序的配置 Spark运行实例解析 Spark on Standalone实例解析 Spark on YARN实例解析
下午	Spark编程模型和解析	python开发环境搭建 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 — lineage和checkpoint详解
	Spark2.0的特性	Spark 2.0 和1.6的区别 SparkSession详解 StructedStreaming原理 DateFrame和DataSet的优化
	文件读写操作	Spark支持哪些文件的读写 Spark读Hive的数据 Spark读Json格式的数据 Spark读Hbase的数据
	Spark应用优化	partition优化详解文件压缩格式(ORC、Parquet) 持久化类型选择灵活使用Join操作 Spark配置参数的优化 RDD的优化
上午	Spark SQL原理和实践	Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程
	Structured Streaming实战	Spark Streaming原理剖析 Spark Streaming流数据处理框架介绍 Spark Streaming编程剖析初始化StreamingContext Discretized Streams (DStreams) 输入DStreams与Receivers 基于DStreams的Transformations 基于DStreams的输出操作 Accumulators和Broadcast Variables DataFrame和SQL操作 DStream的特点 Dstream的操作和RDD的区别 SatefulRDD和windowRDD实战 Kafka+Spark Steaming实战 —Receiver —Direct Structured Streaming介绍 Structured Streaming和Spark Streaming的比较
	Spark 数据挖掘基于	SparkMllib和SparkR原理基于Spark Mllib和SparkR数据挖掘的流程数据的抽取数据降维和升维稠密向量和稀疏向量数据处理基于DataFrame和DataSet的数据挖掘过 SparkMllib和SparkR挖掘实战聚类算法Kmeans的实战和应用场景决策树算法的实战和应用场景逻辑回归算法实战和应用场景随机森林算法实战和应用场景协同过滤推荐算法实战案例
下午	Hands-on项目实操	Spark SQL项目实战（电信行业） —项目需求 —数据ELT —SparkSQL和Hive整合 —SparkSQL内存表的使用 —JDBC连接SparkSQL Spark Mllib项目实战(电信行业) —Spark Mllib挖掘的步骤 —数据去噪 —模型的选择 —基于校园用户的数据建模案例 —模型的保存和优化
	案例详解	基于spark日志分析 Spark SQL实战(证券业) Spark在大型互联网使用案例分享 200+Spark集群的案例介绍

找到所需课程了吗？即刻填写申请表格与我们联络吧

地址: 天津市和平区西康路35号康岳大厦418室
电话: 022-59182500
邮编: 300051
E-mail: support@firstcase.com.cn