没有IP轮换,没有User Agent轮换,没有cookies轮换,没有分布式,没有多线程,没有多进程,以及等等其它渣渣,但是确实最适合用来初学练手的python脚本,注意下小用法,其实其它都差不多了,功能都是可以慢慢拼凑。
#coding=utf-8 import urllib,re def get_baidu(keyword): url="https://www.baidu.com/s?wd="+keyword+"&rn=50" #采集百度50名内的 a = urllib.urlopen(url) html = a.read() a.close() datalist=re.findall('<div class="f13"><span class="g">(.*?)</span><div class="c-tools" id="tools_.*?_(\d+)"',html) paiming = keyword.decode('gbk').encode('utf-8') for x in datalist: if "bigwayseo.com" in x[0]: #域名填写 print "关键词:%s,%s"%(paiming,x[1]) op_word_txt.write("关键词:%s,%s\n"%(paiming,x[1])) break else: print "关键词:%s,100名外"%(paiming) op_word_txt.write("关键词:%s,100名外\n"%paiming) if __name__=="__main__": op_word_txt = open('shoululist.txt','a') key =open('key.txt','r').readlines() for x in key: get_baidu(x.strip())