Python批量获取爱站外链数据

基于python强大简洁的语法结构,python在seoer中应该是最多的脚本语言了,做seo的来写程序不是必要的话,我觉得将来应该变成必要了,起码我们seoer能写一些脚本来处理seo上的需求,尤其当数据量有一定量的时候,而且seo应该也需要以强大科学的数据作为指导,那么首先就是要数据采集、挖掘,其次数据分析,并且最好可以做到数据可视化。python就是首选语言!
作为草根屌丝站长,能用python采集点数据也是不错的,因为我们比别人知道多一点点,我们就比别人优秀一点点,如果我们能坚持每天一点点,那么一年下来我们可以发现已经前进一大步了!还有一个题外话在微信上看到的觉得说得不错于是就记录下来:“我们总是觉得自己不快乐,大体应该是:既无法忍受目前的转态,又没能力改变眼前的这一切;你虽可以像只猪一样懒,却无法像只猪一样懒得心安理得。结论就是没有专注力的人生,就仿佛大睁着双眼却什么都看不见”
下面是python获取爱站外链数据的小脚本,比较简单就不啰嗦了,大神就直接忽略吧,只是给一些新手思路,用的是requests模块:
python数据采集

#encoding=utf-8
import re
import requests

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" ) 

op_write_csv=open('link.csv','a')
op_write_csv.write('链接,权重,锚文本\n')

for i in xrange(1,15):
    url='https://link.aizhan.com/?url=www.tuniu.com&vt=c&ob=br&linktext=&linktexttype=1&p=%d&aizhan=0'%i
    page=requests.get(url=url).content
    # print page
    c=re.compile(r'href="https://baidurank\.aizhan\.com/baidu/(.*?)"><img border="0" align="absmiddle" src="https://static\.aizhan\.com/images/brs/\d+\.gif" alt="该站权重值为(\d+)".*?</a></dd>.*?<img align="absmiddle" src="https://static\.aizhan\.com/images/pr/pr\d+\.gif"></dd>.*?链接名称.*?target="_blank" rel="nofollow">(.*?)&nbsp;</a></strong></dd></dl>')
    r=re.findall(c,page)
    # print r
    for k in r:
        f=",".join(k)
        print f
        op_write_csv.write('%s\n'%f)

运行结果:(用的途牛呢,既然这样那就帮途牛打个广告)
运行结果
本文仅供交流学习之用!感谢阅读!另转载请保留原文链接!

Leave a Comment