搜索引擎原理

搜索引擎原理
一、搜集器(蜘蛛,机器人等)
这是一个简单的下载功能器:作用就是下载页面
主要的任务是获取线程的数量、下载速度和爬取时间的间隔等等
搜索引擎原理
二、控制器(调度)
控制蜘蛛捕捉间隔,抓什么页面(URL),抓取权重的网站高低的优先级
对搜集器搜集到的内容进行简单的分析
分析包括:快速简单的消重,提取页面URL(已有队列)
解析机器人文件(礼貌规则)
指派机器人抓取URL
同时分配好服务器去获取和调控好处理的效率
分配机制:根据物理地址空间,附近的优点:效率,不会重复,所以一般总是那么几个蜘蛛抓取你的网页,节约成本(如果没有安排好,在互联网上所有的蜘蛛都抓取,站点会导致崩溃)

三、原始数据库
原始数据库根据URL存档,避免让任何url重复存放
原始数据库提供百度快照,动作是简单的存储网页、注重的是存储读取速度

四、网页分析模块
对有价值的网页进行索引并且存入索引数据库

五、索引器
负责将有价值的的网页分析称一种网页的表达形式(正排索引,倒排索引)

七、索引数据库
高效存储网页的表现形式

八、检索器
分词、查询和根据排名因素进行排序

九、用户接口
根据用户的查询记录(IP、时间、网址排名位置,网址,点击间隔)存入用户行为日志数据库中

十、用户行为日志数据库
用户行为分析、用户行为数据存储在索引数据库中,影响结果的最终排名

十一、词库
Web分析模块和用户行为分析器统计出来后进入词库当中

Search engine principle