Python      使用Scrapy的两种方式   
文章目录  [隐藏]

环境:Mac,Python3。

Scrapy官网 https://scrapy.org/


1.安装Scrapy


2.开发方式1

作为项目的方式。

2.1. 创建项目

最终目录结构:


2.2.实现爬虫

pyChram打开jianshuProject

2.2.1 jianshuSpider.py


2.2.2 settings.py

找到 ROBOTSTXT_OBEY 一项,TRUE表示遵守目标网站的 robots.txt 协议只访问允许的页面,False表示不遵守-访问全部页面。
找到 DEFAULT_REQUEST_HEADERS 一项,解除注释,并添加一个请求头参数 User-Agent


2.3.测试

进入项目根目录,即spider.cfg的同级目录。


3.开发方式2

作为一般脚本开发。
直接创建一个scrapy_demo.py 。代码同上面的jianshuSpider.py,类名和爬虫名都自定义即可。

然后,直接执行py文件。



-end

承接App定制、企业web站点、办公系统软件 设计开发,外包项目,毕设