标签归档:中文分词

python结巴中文分词

Python结巴分词计算高频词及TFIDF

用Python写脚本比较挺容易上瘾,呵呵、主要是比较容易忽略SEO这一块,有时会感觉是为了技术而技术,小小感想,小弟做百度seo可能很多人比起来都比较短呢,有时候接一下单子也只是为了保持对这个行业的认知新鲜度,自己也看到很多搜索引擎原理相关方面的书,对写网络引用方面的小程序还算比较顺手,但毕竟非专科,脚本很多时候都很粗糙,但是后面也有人说做seo嘛能用脚本解决问题就好,本来还打算更新学习Javascript这块,感觉时间和精力都不够,苦逼青年啊!另外等博客权重上来,排名上来的话,流量也可以的话再更新一些多一点Python脚本。 继续阅读

Python结巴分词

python做的好的分词应该就是结巴分词了,不但速度快,还可以自定义词库,对于SE来说一般应用于词库的维护,比如,通过分词后可以根据词性去除掉停词,再根据TF-IDF过滤高频词(没用的),还得做一些拼错的,多种称呼其实一样的的等也得做一下分类。最后就是关键词分类了,分类我是人工的,太失败了是吧,见笑,像我连阿里巴巴国际站也做,我这个行业的关键词的分类还好,特征比较明显,主要可能是英文的关系吧,不过还是有很多遗漏。下面是篼雨python的结巴分词代码: 继续阅读