结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。
刘刚
2天
4800
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
课程大纲
模块 | 内容 |
---|---|
基础知识 |
Hive的作用和原理说明 Hive的MetaStore详解 Hive的基本用法 Hive的server2启动 HQL基本语法 Hive的基本类型和复合类型介绍 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive常用自带函数介绍 Hive的JDBC连接 |
Hive的架构和核心知识点介绍 |
Hive作业基本运行原理 Hive on mapreduce、Spark、Tez介绍 Hive内部表、外部表的比较 Hive分区表和分桶表的应用场景 Hive临时表应用场景 基于Hive建数据仓库分层思想介绍 Hive自定义UDF、UDAF Hive复合类型应用场景和介绍 |
Hive优化实战 |
Map个数优化 reduce个数优化 Hive shuffle优化 Hive Join优化 Hive数据倾斜优化 行式存储vs列式存储 Hive动态分区优化 Hive ORC和Parquet文件格式比较 Hive使用索引优化 Hive的执行计划剖析 Hive合并小文件 Hive的咧裁剪和分区裁剪介绍 模式选择 本地模式 并行模式 严格模式 |
Spark基础 |
Spark的特点 Spark技术栈介绍 Spark和Mapreduce的比较 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 DataFrame和Dataset编程接口介绍 RDD、DataFrame和Dataset的区别 |
Spark编程模型和解析 |
Spark的累加器详解 Spark的广播变量详解 Spark容错机制 lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 Sort-Based原理 Hash-Based原理 Spark Partition详解 Spark2.0的新特性 |
Spark 优化 |
小文件优化 文件类型优化 常用算子比较和优化 RDD存储序列化 Spark DAG原理和优化 GC垃圾回收分析 减少任务使用内存 广播大变量 数据本地化 Spark shuffle原理和优化 Spark内存模型设计原理 Spark堆内内存管理 Spark堆外内存管理 Spark任务执行过程分析和资源占用详解 |
Hive和SparkSQL优化案例实战 |
某银行hive和spark任务执行过程分析实践 任务优化的步骤 通过Hive运行日志和spark任务的Web UI监控查看任务运行慢的原因 小文件优化策略 文件格式、文件压缩格式的选型 shuffle阶段的优化(减少数据量、修改shuffle的参数) 数据倾斜的优化策略实战(常用4种解决方案) Hive主要性能提升参数的实战 Spark主要性能提升参数的实战 任务延迟调度的优化(调整资源调度策略) |