搜索引擎原理_技术与系统

搜索引擎检索和需求

1，搜索引擎基本要求：毫秒级快速反应，匹配相关结果。

2，搜索引擎：一个大型网络应用软件，分布式计算，高效的索引和存储技术。（搜索引擎大部分时间是高效的索引和存储技术，而不是天天跟SEO对着干）

3，搜索引擎的目的：为用户提供相关网页或者其他信息（新闻，视频）

4，匹配：以某种形式包含有检索词的网页或其他信息。并产生一个列表，也就是排序，我们最关心的。

5，用户输入都是无规则的简单的：简单意味着抽象，抽象意味着有更多的可能性（举例：苹果，手机，黄色）搜索结果丰富多样

6，搜索引擎为什么给出相关搜索还有下拉框？

7，用户行为：找到为止，不是所有的都看一遍，用户查询东西基本不会超过2页，所以搜索引擎要在2页中显示尽可能多的可能性。（举例：seo，数据库查询）

网页收集

1，[free]数据（实时还是预先收集）预先收集好

2，蜘蛛（负责的工作）蜘蛛就是下载网页的一个小程序

3，调度（提高效率）控制蜘蛛捉什么、多久捉一次页面等等

4，定期收集还是增量收集搜索引擎是会定期收集，就是大更新，增量收集是根据每个网站的更新速度

5，搜索引擎大更新周期（一个月？15天？）具体没统计，不知道

6，种子站点（枢纽页面）搜索引擎是先从种子站点优先开始抓取的，种子站点就是有大量指向高质量网站的站点比如“好123”网址

7，深度优先/广度优先深度优先就是首页-栏目页-内容页，直接往深捉，广度优先就是先把栏目页捉完才抓内容页

8,搜索引擎采用的抓取机制 robots规则，一般虚拟主机后台添加就行，淘宝就是限制百度蜘蛛捉取，淘宝有足够的骄傲

9，搜索引擎的更新机制（更新快照）让搜索引擎认为是原创或伪原创可加快更新

10，sitemap（网站地图）增加收录的好东西适合网站信息很大，收录少的网站，网站地图就让蜘蛛在一个页面发现大量URL，作用就是吸引蜘蛛深度捉取

11，实行新（搜索引擎/自己的数据库）尽量，搜索引擎无法保证，所以有时候改了网站的标题和摘要，也不会马上显示出来再互联网上。

预处理

网页预处理的大致过程：

1，关键词的提取（去除噪音）噪音就是网页中不重要的版块，与网站主题不相关，比如广告之类，通常都用框架和JS调用

2，切词，去除停止词切词网址（参考）：zyan.cc/demo/httpcws/；停止词就是语气词，基本互联网上都出现的词

3，镜像网页的消除（完全相同）镜像网页就是两个页面一模一样，所以设置好伪静态后，要用robots文件把动态url禁止掉

4，转摘（额外少量编辑，称为近似镜像网页）搜索引擎会把这些过滤掉（垃圾页面），转摘非常不利于SEO优化

5，链接的分析（记录链接位置，相关性，锚文本）定义有效的链接：标准的a标签；会计算这个链接跟当前页面的相关性，不相关就会被容易列为噪音版块

6，网页重要度计算（被应用的多就是重要的）被引用得多就是重要的，也就是外链（其中一个因素）

7，建立索引正排索引（页面到关键词）倒排索引（关键词到页面）

查询接口

预处理后得到的网页表现形式

1，原始页面，url，标题；看不到的：文档编号，关键词集合和权值位置信息（词位），其他一些指标原始网页就是你的网页打不开了，但是百度快照是可以打开的，这个就是原始页面

2，网页重要度被多小个网页引用

3，网页类别（导航，需求，信息）导航类别查询：比如记不住网址，去百度搜索找官方网站这样子，比如“QQ下载”就是需求型；信息就是比如搜索“SEO是什么意思”之类

4，查询词处理（切词，获取分类，排序）搜索引擎可以进行切词，然后组合关键词同时出现的就是用户搜索需求页面

5，全文索引（不局限于标题）

6，pr算法就是做排名，SEO

7，文档摘要（动态摘要）