读书笔记一:《这就是搜索引擎》
第一:什么是搜索引擎?
搜索引擎是一个庞大复杂的计算机程序,它通过互联网搜集信息并且加以一定组织和处理提供用户查询服务(如百度,谷歌,好搜,搜狗等)

第二:搜索引擎的重要性!
包括阿里巴巴集团下的电子商务平台,ebay,亚马逊都可以说是搜索引擎,只不过对于整个互联网来说它们是站内的,它们都是在为用户提供有价值信息。

第三:搜索引擎的发展史!
史前一代:分类目录一代

纯人工方式去收集和整理网页,雅虎和hao123就是这个时代的代表作,所以这类网页一般都是网站质量较高的;扩展一下,像hao123同时也作为搜索引擎的种子站点来开始爬取互联网的信息,那么利用这一点我们可以尽量让我们的网站离种子站点尽量靠近来让网站尽量曝光多给网络爬虫。
第一代:文本检索一代
网页的文本相关性,比如说通过布尔模型,向量空间模型以及概率模型来判断查询关键字的相关程度, 早年也就是为什么堆砌关键词对网站排名那么有成效的原因,还有什么关键词密度等;现在通过实践发现,关键词有出现就ok,至于要不要故意安排密度等已然对排名的提升不是那么的重要。
第二代:链接分析一代
网页链接代表一种推荐关系,一个网站被引用的次数越多,那么对于搜索引擎来说这个网站越重要,相当于投票当领导,你做领导之后,那你肯定变得相对某一部分别人来说都重要了,也就是为什么那么多连接群发软件的原因,比如当时的虫虫群发就非常出名,当然现在链接还是相当重要,尤其是高质量的外部链接。
第三代:用户中心一代
用户中心一代我理解为搜索引擎依据网站的流量,比如点击率,停留时间,pv,uv,ip等等来动态调整网站的关键字排名,而前3项作为基础排名数据依据,所以我们很多时候并不是要以原创为目标,而是以解决用户需求为目标;这个时期的软件数百度强奸器为首,非常受人追捧。时至今日百度点击器依旧强势,不提倡;做SEO应以输出更多更好的内容以及丰富的内容展现形式为出发点,为用户和搜索引擎提供有价值的内容。

读书笔记二:《搜索引擎原理_技术与系统》
一,搜索引擎检索和需求
1,搜索引擎基本要求:毫秒级快速反应,匹配相关结果。

2,搜索引擎:一个大型网络应用软件,分布式计算,高效的索引和存储技术。 (搜索引擎大部分时间是高效的索引和存储技术,而不是天天跟SEO对着干)。

3,搜索引擎的目的:为用户提供相关网页或者其他信息(知识,新闻,视频…)。

4,匹配:以某种形式包含有检索词的网页或其他信息。并产生一个列表,也就是排序,我们最关心的。

5,用户输入无规则的简单的:简单意味着抽象,抽象意味着有更多的可能性(举例:苹果,手机,黄色)搜索结果丰富多样。

6,搜索引擎为什么给出相关搜索还有下拉框?

7,用户行为:找到为止,不是所有的都看一遍,用户查询东西基本不会超过2页,所以搜索引擎要在2页中显示尽可能多的可能性。

二,网页收集
1,[free]数据(实时还是预先收集):预先收集好。

2,蜘蛛(负责的工作):蜘蛛就是下载网页的一个小程序。

3,调度(提高效率):控制蜘蛛捉什么、多久捉一次页面等等。

4,定期收集还是增量收集:搜索引擎是会定期收集,就是大更新,增量收集是根据每个网站的更新速度。

5,搜索引擎大更新周期(一个月?15天?)

6,种子站点(枢纽页面): 搜索引擎是先从种子站点优先开始抓取的,种子站点就是有大量指向高质量网站的站点比如“好123”网址。

7,深度优先/广度优先 :深度优先就是首页-栏目页-内容页,顺着链接往深爬取内容;广度优先就是先把栏目页捉取完转而抓内容页。

8,搜索引擎采用的抓取机制 :robots规则,根目录添加robots.txt文件。

9,搜索引擎的更新机制(更新快照):让搜索引擎认为是原创或伪原创可加快更新。

10,sitemap(网站地图):增加收录的好东西 适合网站信息很大,收录少的网站,网站地图就让蜘蛛在一个页面发现大量URL,作用就是吸引蜘蛛深度捉取。

11,实时更新(搜索引擎/自己的数据库):搜索引擎无法保证,所以有时候改了网站的标题和摘要,也不会实时显示出来。

三,网页预处理
网页预处理的大致过程:
1,关键词的提取(去除噪音): 噪音就是网页中不重要的版块,与网站主题不相关,比如广告之类,通常都用框架和JS调用。

2,切词,去除停止词:如结巴分词,停止词就是语气词,基本互联网上都出现的词。

3,镜像网页的消除(完全相同): 镜像网页就是两个页面一模一样,所以设置好伪静态后,要用robots文件把动态url禁止掉,同时可防止蜘蛛黑洞。

4,转摘(额外少量编辑,称为近似镜像网页): 搜索引擎会把这些过滤掉(垃圾页面),如转摘,抄袭,采集等不利于SEO优化。

5,链接的分析(记录链接位置,相关性,锚文本):定义有效的链接:标准的a标签;会计算这个链接跟当前页面的相关性,不相关就会被容易列为噪音版块。

6,网页重要度计算(被应用的多就是重要的): 被引用得多就是重要的,也就是外链(其中一个因素)。

7,建立索引 : 正排索引(页面到关键词) 倒排索引(关键词到页面)。

四,查询接口
预处理后得到的网页表现形式:
1,原始页面,url,标题;看不到的:文档编号,关键词集合和权值位置信息(词位),其他一些指标 原始网页就是你的网页打不开了,但是快照是可以打开的,这个就是原始页面

2,网页重要度: 被多小个网页引用

3,网页类别(导航,需求,信息): 导航类别查询:比如记不住网址,去搜索找官方网站这样子,比如“QQ下载”就是需求型;信息就是比如搜索“SEO是什么意思”…

4,查询词处理(切词,获取分类,排序) 搜索引擎可以进行切词,然后组合关键词同时出现的就是用户搜索需求页面。

5,全文索引(不局限于标题)。

6,pr算法 。

7,文档摘要(动态摘要)。

发表评论

电子邮件地址不会被公开。