致力于提升研发企业的持续创新能力

结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。

课程分类列表

基于 Hadoop、Spark 数据分析和挖掘实战
课程类别:大数据

大数据

课程讲师:

刘刚

课程周期:

2天

课程费用:

4800元/人

培训特色

 以主流大数据系统的原理、架构、部署、运维为脉络,分别介绍 Hadoop, Spark,Kafka,HBase 等主流大数据平台系统;

 通过经典机器学习模型,以 Spark MLlib 为主要介绍框架,揭示机器分类, 回归,聚类,推荐等算法的原理与实践,并深入分布式算法的原理与工作机 制,机器学习算法与模型优化。

  目标收益

 深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机 制;


了解大数据平台常用的以希望数据分析和挖掘的技术,如:Hadoop、Hive、Spark 等

 深度了解机器学习算法,及其 Spark MLlib 基本算法原理,以及机器学习算 法实践与优化。

了解目前主流的数据分析和挖掘平台

 了解基于 Python 数据分析和挖掘的技术栈

 能够使用 Python 基于 Spark 额 mllib 上面进行数据分析和挖掘。

 培训对象

 具有 1 年及以上工作经验,并期望掌握大数据系统与机器学习算法,大数据 系统架构,机器学习算法运行机制的研发工程师,算法工程师,及其架构 师。

利用大数据平台数据分析挖掘的同学

 了解基于大数据平台常用数据分析和挖掘的流程和方法

 学员基础

  至少熟悉掌握如下一名程序设计语言:Java,Python;

 了解数据分析和挖掘的相关概念。

课程模块 课程主题 课程内容
第一天 第一章:大数据的整体技术架构 开源大数据技术架构
 开源大数据常用组件之间的依赖关系
 大数据生态系统介绍
 离线计算框架介绍
—Mapreduce、Hive、Tez、Presto、Kylin
 实时查询框架介绍
—NoSQL、Hbase
 实时计算框架介绍
—Kafka、Strom、Spark Streaming
 内存计算框架介绍
—Spark、SparkSQL、SparkMllib、SparkR
 前沿大数据技术介绍
—Flink、Drill、Druid、KUDU等
 海量日志快速检索架构
—ELK(Elasticsearch、Logstash、Kibana)
hadoop平台核心技术介绍 HDFS架构介绍
 HDFS原理介绍
 Mapreduce原理
 MapReduce流程
 剖析一个MapReduce程序
 Yarn的原理和架构
 Yarn资源调度策略
 CPU、内存和IO三种资源调度策略
Hadoop数据分析工具Hive Hive的作用和原理说明
 Hadoop仓库和传统数据仓库的协作关系
 Hadoop/Hive仓库数据数据流
 Hive的MetaStore详解
 Hive的基本用法
 Hive的server启动
 HQL基本语法
 Hive的加载数据本地加载和HDFS加载
 Hive的partition详解
 Hive的存储方式详解
 RCFILE、TEXTFILE和SEQUEUEFILE
 Hive的UDF和UDAF
 Hive的JDBC连接
Python常用库基本使用 Numpy基本使用
 Pandas基本使用
 数据加载与处理
 Pandas分组与合并
 Pandas时间序列
 Matplotlib基本使用
 Scikit-Learn基本使用
第二天 Spark 编程模型和 解析 Spark的编程模型
 Spark编程模型解析
 Partition实现机制
 RDD的特点、操作、依赖关系
 Transformation RDD详解
 Action RDD详解
 Spark的累加器详解
 Spark的广播变量详解
 Spark容错机制
— lineage和checkpoint详解
 Spark的运行方式
 Spark2.0的新特性
 Spark SQL使用介绍
 Structured Streaming使用介绍
Spark mllib 数据挖掘平台介绍 spark mllib的原理
 spark mllib与spark之间的关系
 spark mllib常用数据类型
—RDD
—Dataframe
—稀疏向量
—稠密向量
 spark mllib与HDFS、Hive的整合
 Python+Spark数据分析挖掘平台集成
基于Spark mllib 数据清洗 数据的升维和降维
 去除噪声
 特征的筛选和提取
 特征转换
 数据的缺省值处理
 特征的分类和合并
 特征TF-IDF值转换和计算
用户流失模型实战 技术架构介绍
 流失模型构建
 数据清洗和转换(Spark)
— 空值和异常值处理
— 数据归一化— 特征提取
— 特征的降维和升维
— 文本的数据化
 决策树和随机森林介绍
 基于Spark的用户流失模型开发
 模型测试
用户细分模型实战 技术架构介绍
 用户细分模型构建
 基于Hive数据的清洗和转换
 分类算法的介绍(Kmeans)
 特征值提取
 基于Spark的用户流失模型开发
 模型测试
找到所需课程了吗?即刻 填写申请表格 与我们联络吧