结合先前的python文章现在我们可以进一步的通过自然语言处理来实操演练,应用到网站中,更好的辅助seo
Python
python与seo_python教程_数据挖掘_数据采集python爬虫_数据整理_数据分析_SEO站长工具等。
“破解”百度搜索结果中的加密地址&采集
seo应该都知道搜索结果中的网站地址在2013年前左右就加密了。通过数据抓包我们可以很清楚的看到这条链接是302跳转链接。而302跳转链接在head中都会带一条location的参数。Location的值就是真实url。
自动生成词,并通过tf-idf算法分析不同文本的不同
本程序修改并集成自其它的两个人的源码,功能是:
1、自动从一大段文本中提取可能组成的词语。
2、通过输入多个文档,通过tf-idf算法自动提取各种文档的关键字。
3、通过提取关键字可以得到不同的QQ群讨论的主要内容。
Mysql Error 2002: Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’ 解决方法
通过python,php调用出现Mysql Error 2002: Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’诸如此类的问题!
【GoGo闯】http代理ip从哪找啊?
由于开python培训有讲过爬虫的缘故,这个问题已经被ask无数次了,一般问的基友也都是爬虫防ban用的,那么在此,我把我个人尝试过的代理渠道都写一下。总体来讲,质量好的都不便宜,便宜的质量都比较渣,一分钱一分货
Python多线程代理查百度收录
《Python多线程代理查百度收录》简说:
1,对比requests和pycurl两个爬虫模块,代码已经敲好,大家可回家自行折腾
2,没有跑很多数据来测试程序的稳定性,因为本来就有脚本在服务器上跑了,懒
3,懒,就折腾了一下队列Queue,多线程,面向对象,日后自行完善
4,功能具备轮换ip,cookies,ua,多线程等渣渣
5,如有不能使用的,就考虑换个运行环境,实在不行自己一边玩去