爬虫框架Scrapy之初体验

最近正在拜读由Ryan Mitchell编写,OReilly出版的Web Scraping with Python。初级爬虫利用urllib、urllib2库以及正则表达式即可完成,不过还有更为强大的工具——Scrapy。虽然文中寥寥数语,不过整个实际安装过程还是煞费苦心呐!!!!

系统:Win7旗舰版,之前安装好的Python 3.6版本,Scrapy安装官网权威参考:点我 ☜☚☜☚

具体安装过程如下所示:

1、Python

选择相应版本的Python,安装过程就不赘述啦,安装成功后记得配置环境变量,比如我的:

安装及配置好后,在命令行输入python –version,如果没有提示错误,则安装成功。

2、pywin32

在windows下,必须安装pywin32,安装地址:http://sourceforge.net/projects/pywin32/,下载对应版本的pywin32,直接双击安装即可,安装完成后验证如下,如果没有提示错误,则证明安装成功!

3、pip

pip是用来安装其他必要包的工具,之前已经装好,并且同时,它帮你安装了setuptools,安装完成后在命令行中执行 pip –version,如果提示如下,说明就安装成功了,如果提示不是内部或外部命令,那么就检查一下环境变量有没有配置好,相关路径有两个。

4、pyOpenSLL

在Linux下是已经安装好的,而在Windows下,是没有预装pyOpenSSL的,安装地址:https://launchpad.net/pyopenssl

5、lxml

lxml的详细介绍点我 ☜☚,是一种使用Python编写的库,可以迅速、灵活地处理XML,直接执行如下命令:

如果提示Microsoft Visual C++库没有安装,则点我 ☜☚下载支持的库。

安装完成后可以验证下是否成功,如下没有报错则表示成功。

6、Scrapy

万里长征快要到头啦!!!执行如下命令:

安装完成后输入scrapy进行验证,如果提示如下命令,就证明安装成功啦!

7、其他

有时pip安装并不能成功,需要下载安装文件进行安装,此时需要wheel对相关文件进行安装,安装成功如下:

利用pip成功安装Scrapy之后,import Scrapy的时候报错:

ImportError: DLL load failed: 找不到指定的程序。

原因是因为直接用pip安装Scrapy的时候,安装的是3.8.0版本的lxml。将lxml的版本改为3.7.3即可。

scrapy安装成功并验证后,创建首个项目叫wikiSpider,项目目录如下:

至此可以根据自身需求开始愉快的玩耍啦!哒哒!!

发表评论

电子邮件地址不会被公开。 必填项已用*标注