致力于提升研发企业的持续创新能力

结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。

课程分类列表

Hive&Spark性能优化实战
课程类别:大数据

Hive优化 SparkSQL Spark

课程讲师:

刘刚

课程周期:

2天

课程费用:

4800

培训对象

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

课程大纲

模块 内容
基础知识 Hive的作用和原理说明
Hive的MetaStore详解
Hive的基本用法
Hive的server2启动
HQL基本语法
Hive的基本类型和复合类型介绍
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hive常用自带函数介绍
Hive的JDBC连接
Hive的架构和核心知识点介绍 Hive作业基本运行原理
Hive on mapreduce、Spark、Tez介绍
Hive内部表、外部表的比较
Hive分区表和分桶表的应用场景
Hive临时表应用场景
基于Hive建数据仓库分层思想介绍
Hive自定义UDF、UDAF
Hive复合类型应用场景和介绍
Hive优化实战 Map个数优化
reduce个数优化
Hive shuffle优化
Hive Join优化
Hive数据倾斜优化
行式存储vs列式存储
Hive动态分区优化
Hive ORC和Parquet文件格式比较
Hive使用索引优化
Hive的执行计划剖析
Hive合并小文件
Hive的咧裁剪和分区裁剪介绍
模式选择
本地模式
并行模式
严格模式
Spark基础 Spark的特点
Spark技术栈介绍
Spark和Mapreduce的比较
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
DataFrame和Dataset编程接口介绍
RDD、DataFrame和Dataset的区别
Spark编程模型和解析 Spark的累加器详解
Spark的广播变量详解
Spark容错机制
lineage和checkpoint详解
Spark的运行方式
Spark的Shuffle原理详解
Sort-Based原理
Hash-Based原理
Spark Partition详解
Spark2.0的新特性
Spark 优化 小文件优化
文件类型优化
常用算子比较和优化
RDD存储序列化
Spark DAG原理和优化
GC垃圾回收分析
减少任务使用内存
广播大变量
数据本地化
Spark shuffle原理和优化
Spark内存模型设计原理
Spark堆内内存管理
Spark堆外内存管理
Spark任务执行过程分析和资源占用详解
Hive和SparkSQL优化案例实战 某银行hive和spark任务执行过程分析实践
任务优化的步骤
通过Hive运行日志和spark任务的Web UI监控查看任务运行慢的原因
小文件优化策略
文件格式、文件压缩格式的选型
shuffle阶段的优化(减少数据量、修改shuffle的参数)
数据倾斜的优化策略实战(常用4种解决方案)
Hive主要性能提升参数的实战
Spark主要性能提升参数的实战
任务延迟调度的优化(调整资源调度策略)
找到所需课程了吗?即刻 填写申请表格 与我们联络吧