专题整理:《采集内容处理》,这是一篇汇总GOGO闯《seo如何处理采集内容》4篇内容的文章!无需求、不思想!无技术、不实现!
一、标题部分:
标题可能是各种组合:创意很重要
A组合:{强行插入关键词}{精简后的标题}
B组合:{百度相关搜索词}{精简标题}
C组合:{下拉框推荐词}{精简标题}
D组合:{关键词的同义词}{精简标题}
或直接:{精简后的标题}
二、正文部分
1,原始内容过滤处理(采集到重复的内容去重)
A,html清洗 保留主要标签,删除标签中不重要属性
B,删除中文字数<100的,个别可根据实际情况除外
C,去除垃圾信息 比如 : 网址,邮箱,qq等
2,正文内容加工处理(正文开头、结尾处插入随机文本)
A, 正文开头结尾处插入随机文本 :“本文包含的主题:{相关搜索词语1},{相关搜索词语2}…”
B, 插入历史referer词:”用户曾经痛过{referer词1},{referer词2}…搜到到本页”
C, 正文开头随机插入导读语:当前分类下自建导读语模板随机调用
D, 通用模版随机调用 :模版a:本公司主营XX,销售XX,采购XX…,模版b:公司地址:XX,联系人XX,所属行业XX,联系人XX…,
3,修改正文内容(程序实现)
A,基于pagerank提取关键词,textrank算法提取文本摘要,其实就是正文内容精简,提取主干信息,一般最终获得原始内容50%左右的字数;
B,为了防止字数过少,需提前用k-means和tfidf,找出当前文章的相似文章,提取他们正文字数最长的段落摘要,加到当前的文章中用作字数上的补全。