端海教育集团
全国免费热线:4008699035 微信号:shuhaipeixun
或15921673576(微 信 同 号) Q Q:849322415
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
大数据spark生态体系课程培训

 
  班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
      每个班级的人数限3到5人,互动授课, 保障效果,小班授课。
  上间和地点
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山学院/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦
最近开间(周末班/连续班/晚班):2019年1月26日
  实验设备
    ◆小班教学,教学效果好
       
       ☆注重质量☆边讲边练

       ☆合格学员免费推荐工作
       ★实验设备请点击这儿查看★
  质量保障

       1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
       2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供课后答疑。
       3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,端海学员的能力得到大家的认同,受到用人单位的广泛赞誉,端海的证书受到广泛认可。

部份程大纲
 
  • 01 Scala入门
    安装Scala
    配置IDEA环境
    使用Scala REPL
    使用Scala Doc
    声明值和变量
    常用类型
    算术和操作符重载
    调用函数和方法
    apply、update方法
    option类型
    If else表达式、while表达式、for表达式
    函数
    过程、懒值、异常
    02 Scala数据结构
    主要的集合特质
    数组、映射、元组、队列、堆栈、列表、集
    添加去除元素操作符
    将函数映射到集合
    化简、折叠、扫描
    拉链操作
    迭代器
    流(不可变列表)
    懒视图
    与java集合的互操作总结
    线程安全的集合
    并行集合
    操作符概述
    03 Scala模式匹配
    更好的switch
    守卫
    模式中的变量
    类型模式
    匹配数组、列表和元组
    提取器
    变量声明中的模式
    For表达式中的模式
    样例类
    Copy方法和带名参数
    Case语句的中置表达式
    匹配嵌套结构
    密封类、模拟枚举、偏函数
    04 高阶函数 & 类 & 对象
    作为参数的函数
    匿名函数、高阶函数
    参数(类型)推断
    闭包、柯里化、控制抽象
    简单类和无参方法
    Getter、Setter方法
    对象私有字段
    Bean属性、构造器
    嵌套类
    单例对象、伴生对象
    Apply方法
    应用程序对象
    枚举
    05 Scala包和引入 & 继承
    包、作用域、包对象
    包可见性、引入
    重命名和隐藏方法
    继承类
    重写方法
    类型检查和转换
    受保护的字段和方法
    超类的构造
    重写字段
    匿名子类
    抽象类
    构造顺序和提前定义
    Scala继承层级

    06 Scala特质
    不允许多重继承
    当做接口使用的特质
    带有具体实现的特质
    带有特质的对象
    叠加在一起的特质
    在特质中重写抽象方法
    当做富接口使用的特质
    特质中的具体字段
    特质中的抽象字段
    07 注解 & 类型参数
    什么可以被注解
    注解参数
    注解实现
    针对java特性的注解
    用于优化的注解
    泛型类、泛型函数
    类型变量限定
    视图界定
    上下文界定
    08 Scala隐式转换
    隐式转换
    利用隐式转换丰富类库功能
    引入隐式转换
    隐式转换规则
    隐式参数
    利用隐式参数进行隐式转换
    上下文界定
    读取行、读取字符
    读取词法单元和数字
    09 Scala高级类型
    类型与类的区别
    classOf与getClass的区别
    单例类型
    类型投影
    类型别名
    结构类型
    复合类型
    中置类型
    自身类型
    10 Scala Akka实例实操
    需求分析
    业务需求分解
    项目源代码
    新建Maven项目AkkaSystem
    WorkInfo类抽象
    ActorMessage
    Master
    Worker
    案例运行
    第四阶段
    大数据spark生态体系
    11 Spark基础解析
    什么是Spark、Spark特点
    Spark的用户和用途
    Spark集群安装
    配置Job History Server
    配置Spark HA
    执行第一个spark程序
    Spark应用提交
    启动Spark Shell
    在IDEA中编写WordCount程序
    在IDEA中本地调试WordCount程序
    在IDEA中远程调试WordCount程序
    12 SparkCore应用解析(一)
    RDD概述
    RDD弹性
    RDD特点
    RDD编程模型
    RDD持久化
    RDD检查点机制
    RDD的依赖关系
    DAG的生成
    键值对RDD的转化操作
    键值对RDD的行动操作
    键值对RDD的数据分区
    13 SparkCore应用解析(二)
    文本文件输入输出
    JSON文件输入输出
    CSV文件输入输出
    SequenceFile文件输入输出
    对象文件输入输出
    Hadoop输入输出格式
    文件系统的输入输出
    数据库的输入输出
    RDD编程进阶
    累加器、自定义累加器
    广播变量
    14 SparkSQL应用解析(一)
    什么是Spark SQL
    RDD vs DataFrames vs DataSet
    SparkSQL命令行查询流程
    IDEA创建SparkSQL程序
    新的起始点SparkSession
    创建DataFrames
    DataFrame常用操作
    Dataset和RDD互操作
    类型之间的转换总结
    用户自定义UDF函数
    用户自定义聚合函数
    15 SparkSQL应用解析(二)
    SparkSQL数据源
    通用加载/保存方法
    Parquet文件
    Hive数据库
    JSON数据集
    JDBC
    JDBC/ODBC服务器
    运行Spark SQL CLI
    计算所有订单中每年的销售单数、销售总额案例
    计算所有订单每年最大金额订单的销售额案例
    计算所有订单中每年最畅销货品案例

    16 SparkStreaming应用解析
    什么是Spark Streaming
    Spark与Storm的对比
    运行Spark Streaming
    架构与抽象
    初始化StreamingContext
    什么是Dstreams
    DStreams输入
    DStreams转换
    DStreams输出
    累加器和广播变量
    DataFrame ans SQL Operations
    Caching / Persistence
    7x24 不间断运行
    性能考量
    17 SparkGraphX 应用解析(一)
    什么是Spark GraphX
    弹性分布式属性图
    运行图计算程序
    图存储模式
    GraphX存储模式
    vertices、edges以及triplets
    图的构建
    BSP计算模式
    图操作一览
    操作一览
    转换操作
    结构操作
    顶点关联操作
    聚合操作、缓存操作
    18 SparkGraphX 应用解析(二)
    Pregel API
    pregel计算模型
    pregel实现最短路径
    GraphX实例
    PageRank排名算法
    PageRank算法原理
    Spark GraphX实现
    广度优先遍历(参考)
    单源最短路径(参考)
    连通图(参考)
    三角计数(参考)
    PageRank实例


    19 Spark内核解析(一)
    RDD抽象
    计算抽象、集群模式
    RPC网络通信抽象
    启动Standalone集群
    核心组件
    核心组件交互流程
    Block管理
    整体应用
    start-daemon.sh脚本解析
    spark-class脚本解析
    start-master.sh脚本解析
    start-slaves.sh脚本解析
    start-all.sh脚本解析
    spark-submit脚本解析
    20 Spark内核解析(二)
    Spark通信架构
    Endpoint启动过程
    Endpoint Send & Ask流程
    Endpoint receive流程
    Endpoint Inbox处理流程
    Endpoint画像
    Master节点和Work节点启动流程
    Client启动流程
    Driver和DriverRunner
    SparkContext解析
    SparkContext创建过程
    SparkContext简易结构与交互关系
    Master对Application资源分配
    Worker创建Executor
    第四阶段
    大数据spark生态体系
    21 Spark内核解析(三)
    Job提交和Task的拆分
    Task的执行流程
    Task的回馈流程
    Task的迭代流程
    Spark的数据存储
    数据写入过程分析
    数据读取过程分析
    Partition如何转化为Block
    partition和block的对应关系
    Spark Shuffle过程
    Spill过程
    Collect、Sort
    Spill
    Merge
    Copy
    Merge Sort
    MapReduce与Spark过程对比
    22 Spark内核解析(四)
    Spark内存管理
    堆内内存、堆外内存
    内存管理接口、静态内存管理
    统一内存管理
    RDD 的持久化机制
    RDD 缓存的过程
    淘汰和落盘
    多任务间内存分配
    Shuffle 的内存占用
    部署模式解析
    standalone框架
    yarn集群模式、mesos集群模式
    spark 三种部署模式的区别
    异常分析1:worker异常退出
    异常分析2:executor异常退出
    异常分析3:master 异常退出
    wordcount程序运行原理窥探
    23 Spark优化解析(一)
    调优基本原则
    数据倾斜优化
    如何定位导致数据倾斜的代码
    如何缓解/消除数据倾斜
    Shuffle调优
    HashShuffleManager运行原理
    SortShuffleManager运行原理
    程序开发调优
    原则一:避免创建重复的RDD
    原则二:尽可能复用同一个RDD
    原则三:对多次使用的RDD进行持久化
    原则四:尽量避免使用shuffle类算子
    原则五:使用map-side预聚合的shuffle操作
    原则六:使用高性能的算子
    原则七:广播大变量
    原则八:使用Kryo优化序列化性能
    原则九:优化数据结构
    24 优化解析 & 机器学习
    运行资源调优
    JVM虚拟机优化
    GC优化
    Spark的内存管理优化
    根据日志进一步调优
    京东商城基于Spark的风控系统的实现
    Spark在美团的实践
    数据处理平台架构中的SMACK组合
    大数据架构选择
    机器学习算法常用指标
    机器学习凸优化算法分析及案例实操
    机器学习L1、L2正则化算法分析及案例实操
    PCA降维算法分析及案例实操
    ICA降维算法分析及案例实操
    非平衡数据处理
    模型优化
    损失函数
    25 机器学习(二)
    矩阵奇异值分解SVD
    线性回归算法
    逻辑回归算法
    贝叶斯分类算法
    SVM支持向量机算法
    决策树算法
    K近邻算法
    KMEANS聚类算法
    EM算法
    FPGrowth关联规则算法
    Apriori关联规则算法
    协同过滤推荐算法
    ALS交替最小二乘算法
    SVD推荐系统算法
    随机森林算法
    AdaBoost算法
    XgBoost算法、GBDT算法

    26 Flink入门
    流处理技术的演变
    初识Flink
    批处理与流处理
    Flink基本架构
    JobManager与TaskManager
    无界数据流与有界数据流
    数据流编程模型
    Flink集群搭建
    Standalone模式安装
    Yarn模式安装
    27 Flink运行架构
    任务提交流程
    任务调度原理
    Worker与Slots
    程序与数据流
    并行数据流
    task与operator chains
    Flink DataStream API
    Flink运行模型
    Flink程序架构
    执行环境
    28 Flink source & sink
    基于File的数据源
    基于Socket的数据源
    基于集合(Collection)的数据源
    writeAsText
    WriteAsCsv
    print/printToErr
    writeUsingOutputFormat
    writeToSocket
    Transformation
    Map
    29 Flink Transformation
    FlatMap、Filter
    Connect
    CoMap,CoFlatMap
    Split、Select
    Union、KeyBy
    Reduce、Fold
    Aggregations
    Time、Window
    CountWindow
    TimeWindow
    30 Time与Window
    Window Reduce
    Window Fold
    Aggregation on Window
    EventTime的引入
    Watermark
    EvnetTimeWindow API
    滚动窗口
    滑动窗口
    会话窗口
    总结
    第四阶段
    大数据spark生态体系
    31 Elasticsearch入门
    什么是Elasticsearch?
    Elasticsearch的适用场景、特点、核心概念
    Elasticsearch安装部署、head插件安装
    获取Transport Client案例
    创建索引案例
    删除索引案例
    新建文档(源数据json串)
    新建文档(源数据map方式添加json)
    新建文档(源数据es构建器添加json)
    搜索文档数据(单个索引)
    32 Elasticsearch案例实操
    搜索文档数据(多个索引)
    更新文档数据(update)
    更新文档数据(upsert)
    删除文档数据(prepareDelete)
    查询所有(matchAllQuery)
    对所有字段分词查询(queryStringQuery)
    通配符查询(wildcardQuery)
    词条查询(TermQuery)
    模糊查询(fuzzy)
    映射操作案例
    33 Python基础
    认识python
    编写第一个python程序
    注释
    变量以及类型
    标示符和关键字
    输入&输出
    运算符
    数据类型转换
    判断语句介绍
    if判断语句
    34 Python基础
    if嵌套
    while循环
    for循环
    break和continue
    字符串输入&输出
    下标和切片
    元组(tuple)
    函数
    文件操作
    类和对象
    35 Python基础
    封装
    继承
    多态
    设计模式
    异常
    模块
    列表推导式
    集合
    垃圾回收
    编码风格
 

-

 

  备案号:备案号:沪ICP备08026168号-1 .(2014年7月11)..............