两个问题
在准备采集前找词的时候,有个蛋疼的问题:
无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?
固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?
为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……
如何将固定搜索词和个性化搜索词分开
因为固定搜索词都包含通用的词缀,比如:
php工程师工资、java程序员工资、学php有前途吗、python程序员工资…
这里面“工资”就是通用词缀,前面可以跟任何关于职位的变量。
程序搞定?
所以可以通过程序分词,把包含连续出现多次词缀的关键词单独提出来,这点可以通过python的jieba分词模块配合word2vec来搞,或者配合K-means也可以。
然而实际中,由于jieba默认词典的限制,导致在不同行业内分词不理想的情况,比如没有把通用词缀单独切出来,致使后面聚类的效果也不理想的情况。
要达到理想情况,就要不断优化jieba分词词典和聚类算法。
但本渣渣是伪技术,只会装逼。即便能搞定也得花挺长时间。
人肉搞定?
人肉搞定思路就很简单了
首先把全行业所有的固定搜索行为全部找出来,比如这是招聘行业的固定搜索行为,即便不全也可以覆盖大部分:
当把固定搜索行为找出后,就知道这个行业都有哪些通用词缀,剩下的事简单了,还是照常跑词,把跑出来的词包含通用词缀的全部拎出来,剩下的就都是个性化搜索词了。这完全是个力气活,拼体力。
全行业固定搜索词怎么找?之前本渣渣写过,详见:【SEO】关键词数据分析
个性化搜索词流量怎么判断
简单的就是跑指数了,爱站和战神软件都有这功能。但如果大部分都没有指数怎么办?
相对精准的搜索量本渣渣也不知道该怎么判断,但是可以从关键词来源渠道来评个优先级。
比如移动端跑出来的词一定比从pc端的优先级高。
百度相关搜索的词一定比凤巢的优先级高(凤巢的词都被做烂了,小站没机会)
如果要上的内容类型是问答类的,那百度知道相关搜索词一定比百度新闻相关搜索词优先级高
…
个性化搜索词竞争度怎么判断
本渣渣就粗暴的看百度搜索结果
搜索结果数越低,竞争度越低,而且title放别人做的少的词被收录的概率也会大
前10搜索结果中,关键词飘红的次数,次数越低,竞争度越低
{word} site:(domain1 | domain2 | domain3) ,看一下几个大网站有没有做,尤其是58赶集、1688这种流氓,因为这些超大型站点做的词,大中型站点也跟着做,超大中型站点都抢的词,就没小站什么事了