【GOGO闯】:后台留了一堆问题,本篇是对其中两个问题的答疑

正文抽取

在【SEO如何处理采集内容 ①】中的“泛采集”部分提到过正文抽取,然后有一些人依旧表示不知道怎么搞。

这东西用网上开源的就可以,Google搜索“{编程语言}正文提取算法”便能找到一大堆的解决方案,如:Readability、Boilerpipe、Diffbot……大部分算法已经打包好了,拿过来就可以直接用,用不着自己写。我们是做网站的,不是搞技术的,有现成的轮子用就OK了。 ...continue reading