Python使用Scrapy框架爬虫示例

首先安装Scrapy框架,python最好使用2.7.x的版本,貌似还不支持3.x,然后最好不要用64位的,主要是你会发现Python的第三方库很难找到64位的,篼雨现在就是,然后也比较难,省的换,所以最好还是一开始的时候做好准备,那肯定有人好奇为什么,有urllib2,request,pycurl等还要搞scrapy,主要是可以自定义爬取规则,http错误处理,XPath,RPC,Pipeline机制等,那下面是windows7环境下下安装Scrapy!
1、安装好Python,然后把setuptool和pip也装了2、安装lxml:处理xml的
3、安装Twisted:是用Python实现的机遇时间驱动的网络引擎框架
4、安装zope.interface:Python支持多继承但不支持接口,zope.interface是第三方接口
5、安装pyOpenSSL:是Python的OpenSSL接口
6、安装pywin32:提供win32api
7、安装scrapy:在CMD窗口下输入pip install scrapy
8、检查安装:在CMD窗口下输入scrapy,如下图就表示成功了!
scrapy
开始使用scrapy编写网页爬虫:
1、新建项目(Project):CMD下scrapy startproject filename(filename自己随便定义名字就行,这时会生成一个你定义名字的文件夹)
2、明确目标(Items):在生成的文件夹下面有一个items.py 的文件,加上你要的内容,我下面简单地爬取网页源代码,跳过也行,要写如下图:
items
3、制作爬虫:代码示例
scrapy框架爬虫
4、运行代码:注意不要在编辑器下运行,如按上面的代码请在CMD窗口下敲scrapy crawl bigway

1 thought on “Python使用Scrapy框架爬虫示例”

Leave a Comment