结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。
刘刚
3天
5800
此课程是长期工作在一线Hadoop架构师精心设计的课程,7年左右的大数据平台深度开发和运维的宝贵经验。
随着大数据平台使用的深入,会出现横多问题,《大数据平台管理员课程》专门为您定制化一套大数据平台管理的课程,让您使用大数据平台能够游刃有余,高效、快乐的运维您的大数据平台。
您的大数据平台是否遇到如下一些问题:
1. 大数据平台的硬件平台如何优化和选型?
2. 出现问题不知道如何入手?
3. 随着节点、数据量、任务数的增多集群不稳定?
4. 集群的计算资源还有很多,但是运行任务特别慢?
5. 想把不同的节点计算资源定向的分配给某些任务(如:30节点搭建的集群,10个节点分配给MapReduce、Hive离线计算;10各节点分配给Hbase任务;10个节点分配给Spark任务?)
6. 集群的安全不知道如何控制?
7. Hbase随着数据量的增加新能快速的下降?
8. 不同用户、部门如何高效、安全的接入大数据平台?
9. 等等等………
这门课程帮助您解决上面所有常见的问题。和300节点大数据平台的运维、优化实战经验。
1. 大数据运维工程师
2. 大数据开发工程师
3. 对大数据运维、优化感兴趣的同学
1. 从事大数据平台的开发和运维人员
2. 熟悉linux系统和Shell
3. 有一定的大数据开发或者运维的基础
4. 未来从事Hadoop管理员的工作者
关键词:
大数据、运维、管理、优化、Hadoop、Mapreduce、HDFS、Spark、Storm
时间安排 | 模块 | 培训大纲 |
---|---|---|
第一天 | 大数据的整体技术架构 |
开源大数据技术架构 开源大数据常用组件之间的依赖关系 离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin 实时查询框架介绍 —NoSQL、Hbase 实时计算框架介绍 —Kafka、Strom、Spark Streaming 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR 前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平台优化点 |
Linux系统的优化 最佳硬件的选择和建议 HDFS架构和原理 HDFS的优化、维护和经常出现的问题 MapReduce架构和原理 MapReduce的优化、维护和经常出现的问题 Yarn的内存、CPU和IO的优化 Hbase的优化和生产环境常见的问题 Hive的优化和Hive的改进工具介绍 Impala、Kylin、Presto工具介绍 RCFile、ORC和parquet格式介绍 |
|
第二天 | Hadoop核心组件的运维 |
HDFS的元数据管理 FSimage和Edit文件解析 手动修改FSimage和Edit文件 HDFS HA的架构运维解析 Yarn服务运维详解 Yarn核心配置参数的详解 Hbase服务运维详解 手动设置Split和Compaction操作 RS宕机的运维处理 Hbase 超大表的优化实践 |
Yarn资源管理 |
Yarn的原理和架构 Yarn资源调度策略 CPU、内存和IO三种资源调度优化 Yarn资源调度Capacity详解 JobHistory的功能介绍 Yarn动态资源的设置 动态分配特定节点给每个应用(MR、Strom、Spark、Hbase等) 基于Yarn平台任务的监控实现 — 统计每个任务运行的时间、在哪个队列、哪个用户、平均执行时间等等 |
|
第三天 | Hbase运维和优化 |
Hbase重要参数优化 Hbase读性能优化 Hbase写性能优化 Hbase表优化 Hbase split优化 Hbase compaction优化 RS Group多租户原理 RS失败的无痛恢复机制 |
大数据平台安全设置 |
Kerberos原理介绍 Hadoop与Kerberos集成 Sentry、Ranger工具介绍 大数据平台资源安全控制 HDFS安全控制实践 Hive安全控制实践 Hbase安全控制实践 |
|
300个节点大数据运维实战 |
300节点的Hadoop平台介绍 平台的优化介绍 平台的动态资源分配 平台的安全控制介绍 客户端连接Hadoop平台介绍 集群的安全控制介绍 |