SEO如何处理采集内容(5)

【GOGO闯】:后台留了一堆问题,本篇是对其中两个问题的答疑

正文抽取

在【SEO如何处理采集内容 ①】中的“泛采集”部分提到过正文抽取,然后有一些人依旧表示不知道怎么搞。

这东西用网上开源的就可以,Google搜索“{编程语言}正文提取算法”便能找到一大堆的解决方案,如:Readability、Boilerpipe、Diffbot……大部分算法已经打包好了,拿过来就可以直接用,用不着自己写。我们是做网站的,不是搞技术的,有现成的轮子用就OK了。

Read moreSEO如何处理采集内容(5)


SEO如何处理采集内容(4)

两个问题

在准备采集前找词的时候,有个蛋疼的问题:

无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?

固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?

为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……

Read moreSEO如何处理采集内容(4)


SEO如何处理采集内容(3)

【GOGO闯:】有基友留言说“没图你说个屁”,本渣渣想哪里没留图了,一看上篇结尾还真没把图片加上。因为文章我用markdown排版,图片引用七牛的图床,在微信编辑器转成富文本的时候正常显示,一发布的时候就漏掉了,微信公众号的图片不能引用外部链接!

采集内容上线逻辑

有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下

采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程

Read moreSEO如何处理采集内容(3)


SEO如何处理采集内容(2)

【GOGO闯】:上回时间太赶,对采集内容处理写的很浅,在实际操作过程中仍有很多奇淫巧技,需要创意与技术的结合。此文全程装逼。

回顾

上回说道处理采集内容的两个先后步骤:

对原始内容的处理
对处理后内容进行组织
第一块,对原始内容的处理,上篇主要针对html源码信息的处理,但没说对文本信息该如何处理。

下面分享下本渣渣曾经使用的一些,对采集内容文本的处理方式…

Read moreSEO如何处理采集内容(2)


SEO如何处理采集内容

【GOGO闯:】这么久才开通留言功能,好丢人,这篇是本渣渣图新鲜试试留言功能用的,没有干货

采集内容对SEO是否有效?

有人说采集内容对搜索引擎友好性不高,不容易获得排名,这个是肯定且必然的。

对大多站点,上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是,现在搜索引擎能获取到的原创内容量已经不如之前多了,毕竟内容生产平台已经转移了,早就不集中在网站上了。另外几个搜索引擎之间还相互抓,何况小站点呢。

所以采集内容依旧是有效的,只不过对采集内容后加工的成本越来越高了。

Read moreSEO如何处理采集内容