采集内容处理 | 杨百辉博客

SEO

SEO采集内容处理【概】

专题整理：《采集内容处理》，这是一篇汇总GOGO闯《seo如何处理采集内容》4篇内容的文章！无需求、不思想！无技术、不实现！

【GOGO闯】：后台留了一堆问题，本篇是对其中两个问题的答疑

正文抽取

在【SEO如何处理采集内容 ①】中的“泛采集”部分提到过正文抽取，然后有一些人依旧表示不知道怎么搞。

这东西用网上开源的就可以，Google搜索“{编程语言}正文提取算法”便能找到一大堆的解决方案，如：Readability、Boilerpipe、Diffbot……大部分算法已经打包好了，拿过来就可以直接用，用不着自己写。我们是做网站的，不是搞技术的，有现成的轮子用就OK了。

SEO

两个问题

在准备采集前找词的时候，有个蛋疼的问题：

无论任何一种找词渠道，固定搜索词（如阿拉巴巴招聘）和个性搜索词（如阿里巴巴工程师级别怎么划分）总是杂糅到一块的，对于同一词根下的扩展词，如何将这两类词分开？

固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量，毕竟同一个词缀出现次数高，流量也会相对高。但个性化搜索词流量和竞争度怎么判断？

为什么非要把两类词找出来呢？因为这两类词的采集源往往是不同的……

SEO

【GOGO闯：】有基友留言说“没图你说个屁”，本渣渣想哪里没留图了，一看上篇结尾还真没把图片加上。因为文章我用markdown排版，图片引用七牛的图床，在微信编辑器转成富文本的时候正常显示，一发布的时候就漏掉了，微信公众号的图片不能引用外部链接！

采集内容上线逻辑

有基友问采集的内容怎么分类，抓取的词怎么分类。其实很简单，做个小网站就都明白了，本渣渣在此科普下

采集内容清洗后是要入库的，入库就得有逻辑，所以在采集一开始就得想到这点，并设计采集到上线的流程

SEO

【GOGO闯】：上回时间太赶，对采集内容处理写的很浅，在实际操作过程中仍有很多奇淫巧技，需要创意与技术的结合。此文全程装逼。

回顾

上回说道处理采集内容的两个先后步骤：

对原始内容的处理
对处理后内容进行组织
第一块，对原始内容的处理，上篇主要针对html源码信息的处理，但没说对文本信息该如何处理。

下面分享下本渣渣曾经使用的一些，对采集内容文本的处理方式…

SEO

【GOGO闯:】这么久才开通留言功能，好丢人，这篇是本渣渣图新鲜试试留言功能用的，没有干货

采集内容对SEO是否有效？

有人说采集内容对搜索引擎友好性不高，不容易获得排名，这个是肯定且必然的。

对大多站点，上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是，现在搜索引擎能获取到的原创内容量已经不如之前多了，毕竟内容生产平台已经转移了，早就不集中在网站上了。另外几个搜索引擎之间还相互抓，何况小站点呢。

所以采集内容依旧是有效的，只不过对采集内容后加工的成本越来越高了。