Python脚本比较粗糙,将就用,对于做百度seo本渣渣知道有千奇百怪的做法,也知道只用火车头和cms有做出相当可观的流量,至于seo是否要学编程,如python,php,ruby,java之类,见仁见智,只能说技多不压身,python现在应该是个大趋势!
中文分词
python结巴中文分词
Python结巴分词
python做的好的分词应该就是结巴分词了,不但速度快,还可以自定义词库,对于SE来说一般应用于词库的维护,比如,通过分词后可以根据词性去除掉停词,再根据TF-IDF过滤高频词(没用的),还得做一些拼错的,多种称呼其实一样的的等也得做一下分类。最后就是关键词分类了,分类我是人工的,太失败了是吧,见笑,像我连阿里巴巴国际站也做,我这个行业的关键词的分类还好,特征比较明显,主要可能是英文的关系吧,不过还是有很多遗漏。下面是篼雨python的结巴分词代码: