Python使用Scrapy框架爬虫示例

首先安装Scrapy框架，python最好使用2.7.x的版本，貌似还不支持3.x，然后最好不要用64位的，主要是你会发现Python的第三方库很难找到64位的，篼雨现在就是，然后也比较难，省的换，所以最好还是一开始的时候做好准备，那肯定有人好奇为什么,有urllib2，request，pycurl等还要搞scrapy，主要是可以自定义爬取规则，http错误处理，XPath，RPC，Pipeline机制等，那下面是windows7环境下下安装Scrapy！
1、安装好Python，然后把setuptool和pip也装了2、安装lxml：处理xml的
3、安装Twisted：是用Python实现的机遇时间驱动的网络引擎框架
4、安装zope.interface:Python支持多继承但不支持接口，zope.interface是第三方接口
5、安装pyOpenSSL：是Python的OpenSSL接口
6、安装pywin32：提供win32api
7、安装scrapy：在CMD窗口下输入pip install scrapy
8、检查安装：在CMD窗口下输入scrapy,如下图就表示成功了！

开始使用scrapy编写网页爬虫：
1、新建项目（Project）：CMD下scrapy startproject filename(filename自己随便定义名字就行，这时会生成一个你定义名字的文件夹）
2、明确目标（Items）：在生成的文件夹下面有一个items.py 的文件，加上你要的内容，我下面简单地爬取网页源代码，跳过也行，要写如下图：

3、制作爬虫：代码示例

4、运行代码：注意不要在编辑器下运行，如按上面的代码请在CMD窗口下敲scrapy crawl bigway

Python使用Scrapy框架爬虫示例

1 thought on “Python使用Scrapy框架爬虫示例”

Leave a Comment 取消回复

相关文章:

1 thought on “Python使用Scrapy框架爬虫示例”

Leave a Comment 取消回复