结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。
刘刚
2天
4800
时间安排 | 模块 | 培训大纲 |
---|---|---|
上午 | 大数据生态系统介绍 |
分布式存储—HDFS 分布式并行计算—MapReduce 基于Hadoop的数据仓库—Hive 集群管理工具—ambari 工作流工具—Oozie 数据的并行采集—Flume MapReduce脚本工具—Pig 与关系型数据库之间的数据迁移—Sqoop 资源管理平台—Yarn 数据挖掘算法—Mahout 分布式统一服务—Zookeeper Hadoop安全工具—Knox 流式计算框架—Storm 内存计算框架—Spark 数据挖掘框架—Mahout、Mllib和Graphx |
Spark生态介绍 |
Mapreduce、storm和spark模型的比较和使用场景介绍 Spark产生背景 Spark(内存计算框架) SparkSteaming(流式计算框架) Spark SQL(ad-hoc) Mllib(MachineLearning) GraphX(bagel将被代) DlinkDB介绍 SparkR介绍 |
|
Spark运行架构和解析 |
Spark的运行架构 基本术语 运行架构 Spark on Standalone运行过程 Spark on YARN 运行过程 Spark应用程序的配置 Spark运行实例解析 Spark on Standalone实例解析 Spark on YARN实例解析 |
|
下午 | Spark编程模型和解析 |
python开发环境搭建 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 — lineage和checkpoint详解 |
Spark2.0的特性 |
Spark 2.0 和1.6的区别 SparkSession详解 StructedStreaming原理 DateFrame和DataSet的优化 |
|
文件读写操作 |
Spark支持哪些文件的读写 Spark读Hive的数据 Spark读Json格式的数据 Spark读Hbase的数据 |
|
Spark应用优化 |
partition优化详解 文件压缩格式(ORC、Parquet) 持久化类型选择 灵活使用Join操作 Spark配置参数的优化 RDD的优化 |
|
上午 | Spark SQL原理和实践 |
Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 |
Structured Streaming实战 |
Spark Streaming原理剖析 Spark Streaming流数据处理框架介绍 Spark Streaming编程剖析 初始化StreamingContext Discretized Streams (DStreams) 输入DStreams与Receivers 基于DStreams的Transformations 基于DStreams的输出操作 Accumulators和Broadcast Variables DataFrame和SQL操作 DStream的特点 Dstream的操作和RDD的区别 SatefulRDD和windowRDD实战 Kafka+Spark Steaming实战 —Receiver —Direct Structured Streaming介绍 Structured Streaming和Spark Streaming的比较 |
|
Spark 数据挖掘基于 |
SparkMllib和SparkR原理 基于Spark Mllib和SparkR数据挖掘的流程 数据的抽取 数据降维和升维 稠密向量和稀疏向量数据处理 基于DataFrame和DataSet的数据挖掘过 SparkMllib和SparkR挖掘实战 聚类算法Kmeans的实战和应用场景 决策树算法的实战和应用场景 逻辑回归算法实战和应用场景 随机森林算法实战和应用场景 协同过滤推荐算法实战案例 |
|
下午 | Hands-on项目实操 |
Spark SQL项目实战(电信行业) —项目需求 —数据ELT —SparkSQL和Hive整合 —SparkSQL内存表的使用 —JDBC连接SparkSQL Spark Mllib项目实战(电信行业) —Spark Mllib挖掘的步骤 —数据去噪 —模型的选择 —基于校园用户的数据建模案例 —模型的保存和优化 |
案例详解 |
基于spark日志分析 Spark SQL实战(证券业) Spark在大型互联网使用案例分享 200+Spark集群的案例介绍 |