标签归档:Python+Scrapy

Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Python+Scrapy批量导出对手外链数据

scrapy这个框架使用起来有点累,语法相对其它的一些爬虫模块来说要复杂一点,但scrapy自身相当牛逼,上一篇http://bigwayseo.com/412就说到,不再累赘。这次的脚本呢是批量获取指定域名爱站的外链数据,使用到有scapy框架(最主要),另外正则表达式,xpath也都用上,主要是都用一下,不然脑袋不好使,容易忘,此代码仅供交流学习之用,同时也只是记录一下自己学习scrapy的笔记,学习不易,尤其这方面代码少,看官方,那英文,苦逼青年啊,下面直接上代码: 继续阅读

Python使用Scrapy框架爬虫示例

首先安装Scrapy框架,python最好使用2.7.x的版本,貌似还不支持3.x,然后最好不要用64位的,主要是你会发现Python的第三方库很难找到64位的,篼雨现在就是,然后也比较难,省的换,所以最好还是一开始的时候做好准备,那肯定有人好奇为什么,有urllib2,request,pycurl等还要搞scrapy,主要是可以自定义爬取规则,http错误处理,XPath,RPC,Pipeline机制等,那下面是windows7环境下下安装Scrapy! 继续阅读