当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。Apache Spark 作为MapReduce的新一代继承者。 是对map reduce从性能,易用性和复杂分析优化的强大的开源数据处理引擎。Spark框架支持流式数据处理, 复杂迭代算法,比传统Hadoop MapReduce 程序快100倍。
Python语言时当下数据领域的瑞士军刀,但是作为一门脚本语言python先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,Spark虽然是由Scala编写,但也提供了Pyspark,让熟悉Python者能够轻易熟悉操作大数据。
第一部份.spark介绍
hadoop、spark集群环境搭建
pyspark开发环境搭建
spark 1.x和2.x的对比
第二部份.pySpark核心编程模型
RDD、transformation、action
第三部份.pySpark核心编程实战
lineage、容错处理、宽依赖与窄依赖
第四部份.Spark内核详解剖析
Spark术语解释、集群概览、核心组件、数据本地性
第五部份.spark任务调度详解
RDD任务调度(DAGScheduler ,TaskScheduler)、Task细节、广播变量、累加器
第六部份.spark工程经验和性能调优
第七部份.spark SQL 详解
DataFrame、外部数据源API、与Spark其他组件的交互、
第八部份.spark sql编程实战
Catalyst查询优化器 、Tungsten 优化
第九部份.spark streaming 开发
Dstream、数据源、 容错
第十部份.spark运维技能
|