懂搜索引擎原理,更好服务于seo,但是究竟有多大,我也不知道,但是配合用户需求和体验来说,可以做的东西还是很多,毕竟从用户角度来做页面总是没有太错的!
网页收集
一、定期收集
优点:结构简单实现方便
缺点:时新性差
二、增量收集
先收集一批网页
收集自撒花姑娘此抓取以后发生改变的网页
发现已经不存在的网页(404状态码处理方式)
三、大更新
早期大更新,28天,17天左右
现在的大更新形式,针对不同权重的网站不同更新速度
四、种子站点
种子站点的特征(权重搞,导出链接多,链接指向高权重站点,作为起始点能抓取大部分的网页)
例子:hao123
个人是否也可以打造种子站点?(答案:自己想)
五、抓取方式
深度优先
广度优先
现行抓取方式(根据网站重要性来采取不同的抓取方式)
六、其它知识点
如何照顾低权重页面
网页大小限制
初始权重
收集类型