结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。
刘刚
2天
4800元/人
以主流大数据系统的原理、架构、部署、运维为脉络,分别介绍 Hadoop, Spark,Kafka,HBase 等主流大数据平台系统;
通过经典机器学习模型,以 Spark MLlib 为主要介绍框架,揭示机器分类, 回归,聚类,推荐等算法的原理与实践,并深入分布式算法的原理与工作机 制,机器学习算法与模型优化。
目标收益
深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机 制;
了解大数据平台常用的以希望数据分析和挖掘的技术,如:Hadoop、Hive、Spark 等
深度了解机器学习算法,及其 Spark MLlib 基本算法原理,以及机器学习算 法实践与优化。
了解目前主流的数据分析和挖掘平台
了解基于 Python 数据分析和挖掘的技术栈
能够使用 Python 基于 Spark 额 mllib 上面进行数据分析和挖掘。
培训对象
具有 1 年及以上工作经验,并期望掌握大数据系统与机器学习算法,大数据 系统架构,机器学习算法运行机制的研发工程师,算法工程师,及其架构 师。
利用大数据平台数据分析挖掘的同学
了解基于大数据平台常用数据分析和挖掘的流程和方法
学员基础
至少熟悉掌握如下一名程序设计语言:Java,Python;
了解数据分析和挖掘的相关概念。
课程模块 | 课程主题 | 课程内容 |
第一天 | 第一章:大数据的整体技术架构 |
开源大数据技术架构 开源大数据常用组件之间的依赖关系 大数据生态系统介绍 离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin 实时查询框架介绍 —NoSQL、Hbase 实时计算框架介绍 —Kafka、Strom、Spark Streaming 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR 前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana) |
hadoop平台核心技术介绍 |
HDFS架构介绍 HDFS原理介绍 Mapreduce原理 MapReduce流程 剖析一个MapReduce程序 Yarn的原理和架构 Yarn资源调度策略 CPU、内存和IO三种资源调度策略 |
|
Hadoop数据分析工具Hive |
Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive的MetaStore详解 Hive的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive的UDF和UDAF Hive的JDBC连接 |
|
Python常用库基本使用 |
Numpy基本使用 Pandas基本使用 数据加载与处理 Pandas分组与合并 Pandas时间序列 Matplotlib基本使用 Scikit-Learn基本使用 |
|
第二天 | Spark 编程模型和 解析 |
Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 — lineage和checkpoint详解 Spark的运行方式 Spark2.0的新特性 Spark SQL使用介绍 Structured Streaming使用介绍 |
Spark mllib 数据挖掘平台介绍 |
spark mllib的原理 spark mllib与spark之间的关系 spark mllib常用数据类型 —RDD —Dataframe —稀疏向量 —稠密向量 spark mllib与HDFS、Hive的整合 Python+Spark数据分析挖掘平台集成 |
|
基于Spark mllib 数据清洗 |
数据的升维和降维 去除噪声 特征的筛选和提取 特征转换 数据的缺省值处理 特征的分类和合并 特征TF-IDF值转换和计算 |
|
用户流失模型实战 |
技术架构介绍 流失模型构建 数据清洗和转换(Spark) — 空值和异常值处理 — 数据归一化— 特征提取 — 特征的降维和升维 — 文本的数据化 决策树和随机森林介绍 基于Spark的用户流失模型开发 模型测试 |
|
用户细分模型实战 |
技术架构介绍 用户细分模型构建 基于Hive数据的清洗和转换 分类算法的介绍(Kmeans) 特征值提取 基于Spark的用户流失模型开发 模型测试 |