主要内容:
1.Spark在Ubuntu虚拟机上的分布式集群环境搭建
2.基于Python的Spark编程基础
3.Spark MLlib的使用(.py文件):回归预测、聚类、关联规则、神经网络预测
4.Spark在阿里云的使用(.py文件)
5.Spark在AWS亚马逊云的使用
6.预测算法介绍
课程大纲:
1.Spark入门及生态体系
概述
Spark生态
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
弹性分布式数据集(RDD)
2.Python Spark基础介绍
Spark 编程模型
RDD缓存策略
Spark Python编程入门
PySpark
惰性计算(Lazy Evaluation)
流水线(Pipelines)
3.分布式集群搭建
Spark-1.6.1、Hadoop-2.6.4、VMware Ubuntu分布式集群搭建全过程
Ubuntu基本环境配置
集群安装准备
安装配置Hadoop
安装配置Spark
4.基于Python的Spark编程实战
概述
连接Spark
初始化Spark
使用命令行
弹性分布式数据集(RDD)
RDD操作
RDD持久化
在集群上部署
用Python编写的一个简单Spark应用
5.Spark MLlib的使用
机器学习概念
Spark MLlib介绍
Spark MLlib架构解析
MLlib的算法库分析
用Spark Python构建分类模型
使用 Spark MLlib 做 K-means 聚类分析
6.Spark在阿里云的使用
阿里云服务介绍
阿里云搭建Spark集群过程
计算π值和Kmeans实验
7.spark在AWS亚马逊云的使用
亚马逊AWS云服务的内容
亚马逊的EMR中提供的3种主要组件
Spark on Amazon EMR架构解析
应用案例:构建1000个节点的Spark集群
Spark应用
8.预测算法介绍
用Spark Python构建回归模型
9.案例介绍
使用 Spark 模块解析