Hadoop是大数据平台处理的框架的基石,尤其在海量数据的存储HDFS、分布式资源管理和任务调度YARN及分布式计算框架MapReduce。现在Hadoop已经在大中小企业中广泛使用,Hadoop工程师的需求量也越来越大。
随着Python在数据分析、大数据和人工智能的广泛使用,越来越多的企业选择使用Python来编写Hadoop代码,从而达到代码的统一性。而目前市面上的Hadoop基本上是使用Java来写的。为适应更多企业的实际需求,特此推出Python大数据之Hadoop编程从入门到精通系列课程。
通过本课程的学习,学员可掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
此外,学员还可以学习刘声老师的另一个大数据课程《Python大数据之Spark编程从入门到精通》http://edu.51cto.com/course/12649.html
课程目录
一、Hadoop入门
hadoop介绍
二、Hadoop之HDFS
hadoop HDFS指令全解析
启动hadoop的方法与注意事项
三、Hadoop之MapReduce
Mapreduce -Python编程原理+实战
在Hadoop集群中实际运行MapReduce
【案例】使用Python编写MapReduce代码求最低温度
【案例】分析好友交际关系
Hadoop中的Shuffle&Sort原理与应用
四、多级MapReduce任务组合级联
MRstep构建多级MapReduce原理与实例
【案例】使用多级MapReduce分析城市年薪数据
五、Hadoop中Combiner的原理与应用
Combiner的原理解析
多级MapReduce任务的combiner
【案例】使用combiner分析顾客数据
【案例】分析漫威漫画英雄关系
【扩展】Hadoop参数解析
六、企业大项目实战:使用Hadoop构建电影推荐引擎
电影相似度的数学原理——余弦相似度
【大项目】使用Python+Hadoop编写电影推荐引擎代码