第一部份:初识搜索引擎,了解其技术架构
1、按照各大搜索引擎商业公司使用的技术为依据对搜索引擎进行时代划分
2、讲解搜索引擎的三大实现目标
3、讲解搜索引擎的三大核心问题及技术发展
4、详细讲解搜索引擎的技术架构
第二部份:讲解网络爬虫
1、讲解通用爬虫框架
2、讲解通过哪些特征来判断一个网络爬虫是否优秀
3、详细讲解网络爬虫的抓取策略
4、详细讲解网络爬虫对网页更新策略
5、详细讲解网络爬虫的暗网抓取
6、详细讲解分布式爬虫
第三部份:讲解搜索引擎索引
1、讲解单词--文档矩阵、倒排索引基本概念、倒排索引简单实例
2、讲解单词词典:哈希加链表、树形结构、
3、讲解两遍文档遍历法、排序法、归并法、动态索引
4、讲解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、讲解查询处理:一次一文档、一次一单词、跳跃指针、多字段索引
第四部份:讲解索引压缩
1、讲解词典压缩
2、讲解倒排列表压缩算法
3、讲解文档编号重排序
4、讲解静态索引裁剪
第五部份:检索模型与搜索排序
1、讲解布尔模型
2、讲解向量空间模型
3、讲解概率检索模型
4、讲解语言模型方法
5、讲解机器学习排序
第六部份:讲解链接分析
1、讲解web图
2、讲解随机游走模型、子集传播模型、链接分析算法之间的关系
3、讲解PageRank算法
4、讲解HITS算法
5、讲解SALSA算法
6、讲解主题敏感PageRank
7、讲解Hilltop算法
第七部份:云存储与云计算
1、讲解云存储与云计算概述
2、讲解CAP原理
3、讲解Google的云存储与云计算架构
4、讲解google文件系统GFS
5、讲解BigTable存储模型
6、讲解Map/Reduce云计算模型
第八部份:讲解网页反作弊
1、讲解内容作弊
2、讲解链接作弊
3、讲解网页隐藏作弊
4、讲解Web 2.0作弊方法
5、讲解反作弊技术的整体思路
6、讲解通用链接反作弊方法
7、讲解专用链接反作弊技术
第九部份:讲解用户查询意图分析
1、讲解搜索行为及其意图
2、讲解搜索日志挖掘
3、讲解相关搜索
4、讲解查询纠错
第十部份:讲解网页去重
1、讲解通用去重算法框架
2、讲解Shingling算法
3、讲解I-Match算法
4、讲解SimHash算法
5、讲解SpotSig算法
第十一部份:搜索引擎缓存机制
1、讲解搜索引擎缓存系统架构
2、讲解缓存对象
3、讲解缓存结构
4、讲解缓存淘汰策略
5、讲解缓存跟新策略
第十二部份:讲解搜索引擎的发展趋势
1、讲解个性化搜索
2、讲解社会化搜索
3、讲解实时搜索
4、讲解移动搜索
5、讲解地位位置感知搜索
6、讲解跨语言搜索
7、讲解多媒体搜索
8、讲解情景搜索
第十三部份:实战讲解怎么构建一个搜索引擎01(使用Java开发)
1、准备搜索引擎开发环境、提取HTML文件内容:结构化信息提取、网页架构相似度计算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件内容、流媒体文件内容提取(音频文件、视频文件)
3、Lucene中的中文分词、Lietu中文分词的使用、理解Lucene的索引库结构、设计一个简单的索引库
4、自动分类的SVM方法实现、K均值聚类方法、K均值实现、拼音转换、语义搜索
第十四部份:实战讲解怎么构建一个搜索引擎02(使用java开发)
1、索引优化、查询优化、实现时间加权排序、实现字词混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索页面设计、实现搜索接口
3、实现关键字高亮、实现多维视图、实现相似文档搜索、实现AJAX自动完成
4、使用Solr实现分布式搜索:Solr服务器端的配置与中文支持、Solr索引库的查找、Solr搜索优化、SolrJ查询分析器、Solr的.net客户端、Solr的php客户端