端海教育集团
全国免费热线:4008699035 微信号:shuhaipeixun
或15921673576(微 信 同 号) Q Q:849322415
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
Spark大数据平台应用实战课程

 
  班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
      每个班级的人数限3到5人,互动授课, 保障效果,小班授课。
  上间和地点
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山学院/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦
最近开间(周末班/连续班/晚班):请点击此处咨询在线客服
  实验设备
    ◆小班教学,教学效果好
       
       ☆注重质量☆边讲边练

       ☆合格学员免费推荐工作
       ★实验设备请点击这儿查看★
  质量保障

       1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
       2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供课后答疑。
       3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,端海学员的能力得到大家的认同,受到用人单位的广泛赞誉,端海的证书受到广泛认可。

部份程大纲
 

第一部份. Spark背景介绍与安装部署
1.1 Spark在大数据生态中的定位
1.2 Spark主要模块介绍
1.3 Spark部署模型介绍
1.4 Spark基于Ambari的安装
1.5 Spark Standalone下的HA

第二部份. 基于Java的Spark编程入门
2.1 Spark应用中的术语介绍
2.2 交互式工具spark-shell
2.3 从Word Count看Spark编程
2.4 spark-submit的几种用法

第三部份 Spark常用算子介绍
3.1 transform与action
3.2 广播变量与累加器
3.3 persist与checkpoint
3.4 数据本地性(Data locality)

第四部份. 一个Spark应用的一生
4.1 Spark应用的Stage划分
4.2 窄依赖 vs. Shuffle依赖
4.3 Job逻辑执行计划
4.4 Job物理执行计划

第五部份. Shuffle机制变迁
5.1 Hadoop Shuffle方案
5.2 Spark Hash Shuffle
5.3 Spark Sort Shuffle
5.4 Spark Tungsten Sort Shuffle

第六部份. Spark SQL实战
6.1 Spark SQL前世今生
6.2 RDD vs. Dataframe vs. Dataset
6.3 使用外部数据源
6.4 连接metastore
6.5 自定义函数
6.6 spark-sql与Spark thrift server

第七部份. Spark SQL原理
7.1 Spark SQL执行过程解析
7.2 Catalyst原理
7.3 SQL引擎原理
7.4 Spark SQL优化

第八部份. 例讲数据倾斜解决方案
8.1 为何需要处理数据倾斜
8.2 调整并行度,分散同一Task的不同Key
8.3 自定义Partitioner,分散同一Task的不同Key
8.4 Map Join代替Reduce Join消除数据倾斜
8.5 为倾斜key增加随机前缀
8.6 大表增加随机前缀,小表扩容

第九部份. Spark Streaming上
9.1 Spark Streaming示例
9.2 流式系统关键问题分析
9.3 Window操作
9.4 如何在流数据上做Join
9.5 Checkpoint机制

第十部份. Spark Streaming下
10.1 如何处理数据乱序问题
10.2 Spark Streaming容错机制
10.3 Spark与Kafka实现Exactly once
10.4 Spark Streaming vs. Storm vs. Kafka Stream
10.5 Spark Streaming性能优化
10.6 Structured Streaming

第十一部份. Spark MLlib
11.1 Pipeline
11.2 特征工程
11.3 模型选择
11.4 调优

第十二部份. Spark优化
12.1 应用代码优化
12.2 Spark统一内存模型
12.3 基于YARN的参数优化
12.4 其它优化项

 

-

 

  备案号:备案号:沪ICP备08026168号-1 .(2014年7月11)...................
友情链接:Cadence培训 ICEPAK培训 EMC培训 电磁兼容培训 sas容培训 罗克韦尔PLC培训 欧姆龙PLC培训 PLC培训 三菱PLC培训 西门子PLC培训 dcs培训 横河dcs培训 艾默生培训 robot CAD培训 eplan培训 dcs培训 电路板设计培训 浙大dcs培训 PCB设计培训 adams培训 fluent培训系列课程 培训机构课程短期培训系列课程培训机构 长期课程列表实践课程高级课程学校培训机构周末班培训 南京 NS3培训 OpenGL培训 FPGA培训 PCIE培训 MTK培训 Cortex训 Arduino培训 单片机培训 EMC培训 信号完整性培训 电源设计培训 电机控制培训 LabVIEW培训 OPENCV培训 集成电路培训 UVM验证培训 VxWorks培训 CST培训 PLC培训 Python培训 ANSYS培训 VB语言培训 HFSS培训 SAS培训 Ansys培训 短期培训系列课程培训机构 长期课程列表实践课程高级课程学校培训机构周末班 端海 教育 企业 学院 培训课程 系列班 长期课程列表实践课程高级课程学校培训机构周末班 短期培训系列课程培训机构 端海教育企业学院培训课程 系列班