安装爬虫框架
直接使用requests,Selenium等库进行爬虫时,可以达到预期的效果。但是写多了会发现许多模块是可以复用的。如果把这些组件抽取出来,就会慢慢行程一个框架的雏形。
利用框架,可以不去关心功能的实现方式,大大简化代码量。。
pyspider需要Phantomjs。具体安装详见 4.安装请求库
1 2 3 4 5 6 7 8 9 10 11 12 13
| yum install libcurl*
export LDFLAGS=-L/usr/local/opt/openssl/lib export CPPFLAGS=-I/usr/local/opt/openssl/include export PYCURL_SSL_LIBRARY=openssl export PYCURL_SSL_LIBRARY=nss pip3 install pycurl
pip3 install pyspider
#验证 pyspider all #命令行输入 #会开启本地的5000端口
|
1 2 3 4 5 6 7 8 9 10 11
| yum groupinstall development tools yum install epel-release libxslt-devel libxml2-devel openssl-devel wget https://twistedmatrix.com/Releases/Twisted/17.9/Twisted-17.9.0.tar.bz2 tar xf Twisted-17.9.0.tar.bz2 cd Twisted-17.9.0/ python3 setup.py install pip3 install Scrapy
#验证 scrapy #命令行输入 #会显示命令帮助
|
1 2 3 4 5 6
| pip3 install scrapy-redis
#验证 python3 >>> import scrapy_redis >>>
|