Hadoop EDW 数据库管理员培训
Hadoop EDW 数据库管理员培训
课程目标:
此课程面向公司系统管理员、数据库管理员,希望转型的DBA 等。以及对Hadoop感兴趣的各类技术人员。通过此课程的培训,学员可以深入理解Hadoop技术架构,对Hadoop
运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
目标学员:软件工程师、高级软件工程师、数据库开发人员、互联网服务后台开发人员、运维人员
培训大纲
一、集群安装和管理
模块一、Hadoop的来源和动机
·传统大规模系统存在的问题
· 对一种新的解决方案的需求
模块二、EasyHadoop安装和部署准备
·Hadoop系统模块组件概述
·Hadoop试验集群的部署结构
·Hadoop 安装依赖关系
·Hadoop 生产环境的部署结构
模块三、EasyHadoop集群安装和部署
·Red hat Linux基础环境搭建 上机实验
·Hadoop 单机系统版本 安装配置 上机实验
·Hadoop 集群系统版本 安装和启动配置 上机实验
·Hadoop 集群异常Debug 方法
·Hadoop 集群简单测试方法
·使用 Hadoop MapReduce Streaming 快速测试系统
模块四、Hadoop组件详解
·Hadoop HDFS 基本结构
·Hadoop HDFS 副本存放策略
·Hadoop NameNode 详解
·Hadoop SecondaryNameNode 详解
·Hadoop DataNode 详解
·Hadoop JobTracker 详解
·Hadoop TaskTracker 详解
模块五、EasyHadoop集群配置详解
·Hadoop core-site,hdfs-site,mapred-site 配置详解
·Hadoop 高可用配置方法
二、集群优化和管理
模块六、EasyHadoop集群配置:机架感知,开启压缩和任务均衡
·Hadoop 集群安装和开启LZO压缩 上机实验
·Hadoop 配置集群具备机架感知 上机实验
·Hadoop 集群开启公平任务调度器 上机实验
·Hadoop 集群开启能力任务调度器 上机实验
模块七、Hadoop 集群维护与管理
·查看集群状态
·HDFS数据管理
·Mapreduce 任务管理
·HDFS安全模式
·模拟集群Namenode,jobtrack失效
·添加删除节点
·数据平衡
·文件数据跨集群拷贝
·集群升级
模块八、Hadoop 集群规划和测试
·集群规划(硬件,系统,网络)
·集群性能测试"
模块九、Hadoop 集群监控和运维
·使用Ganglia 监控Hadoop集群
·使用Cacti 监控操作系统"
模块十、Hadoop HDFS高可用
·Hadoop 元数据NFS备份方案
·Hadoop SecondaryNameNode备份方案
·Hadoop CheckpointNode备份方案
·Hadoop BackupNode备份方案
·Hadoop Cloudera HA Namenode 方案
三、EasyHive EasyPig 数据仓库
模块一、EasyHive仓库集群
·Hive的作用和原理说明
·Hadoop仓库和传统数据仓库的协作关系
·Hadoop/Hive仓库数据数据流
·Hive 部署和安装
·Hive Cli 的基本用法
·HQL基本语法
模块二、EasyHive仓库集群高级
·使用JDBC 连接Hive进行查询和分析
·使用正则表达式加载数据
·HQL高级语法
·编写UDF函数
·编写UDAF自定义函数"
模块三、EasyHive仓库优化
·使用Hive分区优化查询
·使用Lzo压缩优化数据存储容量
·HiveServer HA (使用haproxy提高HiveServer可用性)
·编写Hive自定义MapReduce脚本优化查询
·Hive数据倾斜和查询性能优化"
模块四、EasyHive仓库外围系统
·使用Sqoop进行数据分析
·使用oozie配置工作流
·phpHiveAdmin 安装和使用