分布式课程培训
分布式课程培训
本培训课程针对有一定编程基础的学员:了解Linux,熟悉Java编程。
通过本次课程,学员能够了解主流的分布式处理方案以及实际的实用案例,并能够根据自己的业务需要采用相应的方案解决实际的问题。
课程大纲:
内容
AM
分布式解决方案介绍
Hadoop Ecosystem与实际应用案例
- 分布式存储系统:HDFS
- 分布式计算系统:MapReduce
- 海量数据分析系统:Hive
- 分布式协调系统:Zookeeper
- 分布式实时读写数据存储系统:HBase
- 工作流调度系统:Ooize
NoSQL与实际应用案例
- NoSQL与SQL的关系
- NoSQL适合的场景
- 面向列的存储:Cassandra
- 文档数据库:MongoDB
- 优点
- 不足
- 图数据库:Neo4j
PM
海量数据分析技术-MAPREDUCE
Map Reduce编程详解
- map函数
- reduce函数
- 排序与分区
跨语言MR框架:Streaming
- 原理
- 实际应用
Hadoop文件压缩
- gzip
- bz2
- lzo
Hadoop文件格式
- TextFile
- SequenceFile
- RCFile
输入格式
- TextInputFormat
- SequenceFileInputFormat
- RCFileInputFormat
输出格式
- TextOutputFormat
- SequenceFileOutputFormat
- RCFileOutputFormat
- MultipleOutputs
海里网站日志分析系统示例
- 网站日志介绍
- 业务分析
- 系统实现
AM
Hadoop的架设与维护
生产环境部署
参数配置
运维操作
监控策略
PM
Cassandra的原理与实际应用
数据模型
编程接口
- 一致性模型与数据容错
- CAP
- ReadRepair
- Hint
- AntiPoint
底层文件存储格式
与Map Reduce的整合
实际应用案例
HBase
数据模型
编程接口
底层文件格式
集群管理
数据容错
与Map Reduce的整合