班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
坚持小班授课,为保证培训效果,增加互动环节,每期人数限3到5人。 |
上课时间和地点 |
上课地点:【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院 【上海】:同济大学(沪西)/新城金郡商务楼(11号线白银路站) 【北京分部】:北京中山学院/福鑫大楼 【南京分部】:金港大厦(和燕路) 【武汉分部】:佳源大厦(高新二路) 【成都分部】:领馆区1号(中和大道) 【沈阳分部】:沈阳理工大学/六宅臻品 【郑州分部】:郑州大学/锦华大厦 【广州分部】:广粮大厦 【西安分部】:协同大厦 【石家庄分部】:河北科技大学/瑞景大厦
最近开课时间(周末班/连续班/晚班):请点击此处咨询在线客服 |
实验设备 |
☆资深工程师授课
☆注重质量
☆边讲边练
☆合格学员免费推荐工作
★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供课后答疑。
3、培训合格学员可享受免费推荐就业机会。 |
课程大纲 |
|
《Spark大数据平台》课程
主要内容:
1.Spark在Ubuntu虚拟机上的分布式集群环境搭建
2.基于Python的Spark编程基础
3.Spark MLlib的使用(.py文件):回归预测、聚类、关联规则、神经网络预测
4.Spark在阿里云的使用(.py文件)
5.Spark在AWS亚马逊云的使用
6.预测算法介绍
课程大纲:
1.Spark入门及生态体系
概述
Spark生态
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
弹性分布式数据集(RDD)
2.Python Spark基础介绍
Spark 编程模型
RDD缓存策略
Spark Python编程入门
PySpark
惰性计算(Lazy Evaluation)
流水线(Pipelines)
3.分布式集群搭建
Spark-1.6.1、Hadoop-2.6.4、VMware Ubuntu分布式集群搭建全过程
Ubuntu基本环境配置
集群安装准备
安装配置Hadoop
安装配置Spark
4.基于Python的Spark编程实战
概述
连接Spark
初始化Spark
使用命令行
弹性分布式数据集(RDD)
RDD操作
RDD持久化
在集群上部署
用Python编写的一个简单Spark应用
5.Spark MLlib的使用
机器学习概念
Spark MLlib介绍
Spark MLlib架构解析
MLlib的算法库分析
用Spark Python构建分类模型
使用 Spark MLlib 做 K-means 聚类分析
6.Spark在阿里云的使用
阿里云服务介绍
阿里云搭建Spark集群过程
计算π值和Kmeans实验
7.spark在AWS亚马逊云的使用
亚马逊AWS云服务的内容
亚马逊的EMR中提供的3种主要组件
Spark on Amazon EMR架构解析
应用案例:构建1000个节点的Spark集群
Spark应用
8.预测算法介绍
用Spark Python构建回归模型
9.案例介绍
使用 Spark 模块解析
|