Python批量获取爱站外链数据

基于python强大简洁的语法结构，python在seoer中应该是最多的脚本语言了，做seo的来写程序不是必要的话，我觉得将来应该变成必要了，起码我们seoer能写一些脚本来处理seo上的需求，尤其当数据量有一定量的时候，而且seo应该也需要以强大科学的数据作为指导，那么首先就是要数据采集、挖掘，其次数据分析，并且最好可以做到数据可视化。python就是首选语言！
作为草根屌丝站长，能用python采集点数据也是不错的，因为我们比别人知道多一点点，我们就比别人优秀一点点，如果我们能坚持每天一点点，那么一年下来我们可以发现已经前进一大步了！还有一个题外话在微信上看到的觉得说得不错于是就记录下来：“我们总是觉得自己不快乐，大体应该是：既无法忍受目前的转态，又没能力改变眼前的这一切；你虽可以像只猪一样懒，却无法像只猪一样懒得心安理得。结论就是没有专注力的人生，就仿佛大睁着双眼却什么都看不见”
下面是python获取爱站外链数据的小脚本，比较简单就不啰嗦了，大神就直接忽略吧，只是给一些新手思路，用的是requests模块：

#encoding=utf-8
import re
import requests

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" ) 

op_write_csv=open('link.csv','a')
op_write_csv.write('链接,权重,锚文本\n')

for i in xrange(1,15):
    url='https://link.aizhan.com/?url=www.tuniu.com&vt=c&ob=br&linktext=&linktexttype=1&p=%d&aizhan=0'%i
    page=requests.get(url=url).content
    # print page
    c=re.compile(r'href="https://baidurank\.aizhan\.com/baidu/(.*?)"><img border="0" align="absmiddle" src="https://static\.aizhan\.com/images/brs/\d+\.gif" alt="该站权重值为(\d+)".*?</a></dd>.*?<img align="absmiddle" src="https://static\.aizhan\.com/images/pr/pr\d+\.gif"></dd>.*?链接名称.*?target="_blank" rel="nofollow">(.*?)&nbsp;</a></strong></dd></dl>')
    r=re.findall(c,page)
    # print r
    for k in r:
        f=",".join(k)
        print f
        op_write_csv.write('%s\n'%f)

运行结果：（用的途牛呢，既然这样那就帮途牛打个广告）

本文仅供交流学习之用！感谢阅读！另转载请保留原文链接！

相关文章:

Leave a Comment 取消回复