安装爬虫框架

  • 背景介绍

直接使用requests,Selenium等库进行爬虫时,可以达到预期的效果。但是写多了会发现许多模块是可以复用的。如果把这些组件抽取出来,就会慢慢行程一个框架的雏形。

利用框架,可以不去关心功能的实现方式,大大简化代码量。。

  • pyspider安装

pyspider需要Phantomjs。具体安装详见 4.安装请求库

1
2
3
4
5
6
7
8
9
10
11
12
13
yum install libcurl*

export LDFLAGS=-L/usr/local/opt/openssl/lib
export CPPFLAGS=-I/usr/local/opt/openssl/include
export PYCURL_SSL_LIBRARY=openssl
export PYCURL_SSL_LIBRARY=nss
pip3 install pycurl

pip3 install pyspider

#验证
pyspider all #命令行输入
#会开启本地的5000端口
  • scrapy安装
1
2
3
4
5
6
7
8
9
10
11
yum groupinstall development tools
yum install epel-release libxslt-devel libxml2-devel openssl-devel
wget https://twistedmatrix.com/Releases/Twisted/17.9/Twisted-17.9.0.tar.bz2
tar xf Twisted-17.9.0.tar.bz2
cd Twisted-17.9.0/
python3 setup.py install
pip3 install Scrapy

#验证
scrapy #命令行输入
#会显示命令帮助
  • scrapy-redis安装
1
2
3
4
5
6
pip3 install scrapy-redis

#验证
python3
>>> import scrapy_redis
>>>