搜索引擎原理_技术与系统

搜索引擎优化

搜索引擎检索和需求

1,搜索引擎基本要求:毫秒级快速反应,匹配相关结果。

2,搜索引擎:一个大型网络应用软件,分布式计算,高效的索引和存储技术。 (搜索引擎大部分时间是高效的索引和存储技术,而不是天天跟SEO对着干)

3,搜索引擎的目的:为用户提供相关网页或者其他信息(新闻,视频)

4,匹配:以某种形式包含有检索词的网页或其他信息。并产生一个列表,也就是排序,我们最关心的。

5,用户输入都是无规则的简单的:简单意味着抽象,抽象意味着有更多的可能性(举例:苹果,手机,黄色)搜索结果丰富多样

6,搜索引擎为什么给出相关搜索还有下拉框?

7,用户行为:找到为止,不是所有的都看一遍,用户查询东西基本不会超过2页,所以搜索引擎要在2页中显示尽可能多的可能性。(举例:seo,数据库查询)

网页收集

1,[free]数据(实时还是预先收集)预先收集好

2,蜘蛛(负责的工作)            蜘蛛就是下载网页的一个小程序

3,调度(提高效率)              控制蜘蛛捉什么、多久捉一次页面等等

4,定期收集还是增量收集          搜索引擎是会定期收集,就是大更新,增量收集是根据每个网站的更新速度

5,搜索引擎大更新周期(一个月?15天?)   具体没统计,不知道

6,种子站点(枢纽页面)          搜索引擎是先从种子站点优先开始抓取的,种子站点就是有大量指向高质量网站的站点比如“好123”网址

7,深度优先/广度优先             深度优先就是首页-栏目页-内容页,直接往深捉,广度优先就是先把栏目页捉完才抓内容页

8,搜索引擎采用的抓取机制         robots规则,一般虚拟主机后台添加就行,淘宝就是限制百度蜘蛛捉取,淘宝有足够的骄傲

9,搜索引擎的更新机制(更新快照) 让搜索引擎认为是原创或伪原创可加快更新

10,sitemap(网站地图)增加收录的好东西  适合网站信息很大,收录少的网站,网站地图就让蜘蛛在一个页面发现大量URL,作用就是吸引蜘蛛深度捉取

11,实行新(搜索引擎/自己的数据库)尽量,搜索引擎无法保证,所以有时候改了网站的标题和摘要,也不会马上显示出来再互联网上。

预处理

网页预处理的大致过程:

1,关键词的提取(去除噪音)         噪音就是网页中不重要的版块,与网站主题不相关,比如广告之类,通常都用框架和JS调用

2,切词,去除停止词                 切词网址(参考):zyan.cc/demo/httpcws/; 停止词就是语气词,基本互联网上都出现的词

3,镜像网页的消除(完全相同)       镜像网页就是两个页面一模一样,所以设置好伪静态后,要用robots文件把动态url禁止掉

4,转摘(额外少量编辑,称为近似镜像网页)       搜索引擎会把这些过滤掉(垃圾页面),转摘非常不利于SEO优化

5,链接的分析(记录链接位置,相关性,锚文本)   定义有效的链接:标准的a标签;会计算这个链接跟当前页面的相关性,不相关就会被容易列为噪音版块

6,网页重要度计算(被应用的多就是重要的)       被引用得多就是重要的,也就是外链(其中一个因素)

7,建立索引                                     正排索引(页面到关键词) 倒排索引(关键词到页面)

查询接口

预处理后得到的网页表现形式

1,原始页面,url,标题;看不到的:文档编号,关键词集合和权值位置信息(词位),其他一些指标     原始网页就是你的网页打不开了,但是百度快照是可以打开的,这个就是原始页面

2,网页重要度                         被多小个网页引用

3,网页类别(导航,需求,信息)       导航类别查询:比如记不住网址,去百度搜索找官方网站这样子,比如“QQ下载”就是需求型;信息就是比如搜索“SEO是什么意思”之类

4,查询词处理(切词,获取分类,排序) 搜索引擎可以进行切词,然后组合关键词同时出现的就是用户搜索需求页面

5,全文索引(不局限于标题)

6,pr算法                             就是做排名,SEO

7,文档摘要(动态摘要)

2 thoughts on “搜索引擎原理_技术与系统”

Leave a Comment