致力于提升研发企业的持续创新能力

课程模块	课程主题	课程内容
第一天	第一章：大数据的整体技术架构	开源大数据技术架构  开源大数据常用组件之间的依赖关系  大数据生态系统介绍  离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin  实时查询框架介绍 —NoSQL、Hbase  实时计算框架介绍 —Kafka、Strom、Spark Streaming  内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR  前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等  海量日志快速检索架构 —ELK（Elasticsearch、Logstash、Kibana）
	hadoop平台核心技术介绍	HDFS架构介绍  HDFS原理介绍  Mapreduce原理  MapReduce流程  剖析一个MapReduce程序  Yarn的原理和架构  Yarn资源调度策略  CPU、内存和IO三种资源调度策略
	Hadoop数据分析工具Hive	Hive的作用和原理说明  Hadoop仓库和传统数据仓库的协作关系  Hadoop/Hive仓库数据数据流  Hive的MetaStore详解  Hive的基本用法  Hive的server启动  HQL基本语法  Hive的加载数据本地加载和HDFS加载  Hive的partition详解  Hive的存储方式详解  RCFILE、TEXTFILE和SEQUEUEFILE  Hive的UDF和UDAF  Hive的JDBC连接
	Python常用库基本使用	Numpy基本使用  Pandas基本使用  数据加载与处理  Pandas分组与合并  Pandas时间序列  Matplotlib基本使用  Scikit-Learn基本使用
第二天	Spark 编程模型和解析	Spark的编程模型  Spark编程模型解析  Partition实现机制  RDD的特点、操作、依赖关系  Transformation RDD详解  Action RDD详解  Spark的累加器详解  Spark的广播变量详解  Spark容错机制 — lineage和checkpoint详解  Spark的运行方式  Spark2.0的新特性  Spark SQL使用介绍  Structured Streaming使用介绍
	Spark mllib 数据挖掘平台介绍	spark mllib的原理  spark mllib与spark之间的关系  spark mllib常用数据类型 —RDD —Dataframe —稀疏向量 —稠密向量  spark mllib与HDFS、Hive的整合  Python+Spark数据分析挖掘平台集成
	基于Spark mllib 数据清洗	数据的升维和降维  去除噪声  特征的筛选和提取  特征转换  数据的缺省值处理  特征的分类和合并  特征TF-IDF值转换和计算
	用户流失模型实战	技术架构介绍  流失模型构建  数据清洗和转换（Spark） — 空值和异常值处理 — 数据归一化— 特征提取 — 特征的降维和升维 — 文本的数据化  决策树和随机森林介绍  基于Spark的用户流失模型开发  模型测试
	用户细分模型实战	技术架构介绍  用户细分模型构建  基于Hive数据的清洗和转换  分类算法的介绍(Kmeans)  特征值提取  基于Spark的用户流失模型开发  模型测试

找到所需课程了吗？即刻填写申请表格与我们联络吧

地址: 天津市和平区西康路35号康岳大厦418室
电话: 022-59182500
邮编: 300051
E-mail: support@firstcase.com.cn