结盟众多企业“教练”, 共同设计、开发及提供人才培养解决方案,通过新颖多样的学习方式,针对性的定制化内容,助力企业全面提升竞争优势。
目前互联网公司已有一套完善的大数据平台建设方案,大部分选用开源的Hadoop和Spark两大生态系统,本课程正是以这两套系统为主介绍大数据平台及架构的构建策略及经验。
本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。 通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
课程内容:理解大数据和面临大数据带来的挑战,互联网网时代数据已经是公司的成败,对海量数的存储、计算、分析和挖掘等目前是很多互联网公司的核心。
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。
本课程从作者多年实战经验出发,对分布式核心技术进行了大量归纳和总结,涉及了分布式主要功能的方方面面,并从中抽取出一套简化的框架思想和编程API来帮助落地。