Scrapy框架初始目录说明和配置分析，示例

#头条创作挑战赛#

Scrapy 初始目录说明

Scrapy 在抓取网页数据方面是非常强大的。不仅仅是因为其天生异步，而且它里面的逻辑性也非常紧密。当用户读其源码时，会对它有更深的认识，运用起来更能得心应手。俗话说得好：知己知彼，方能百战百胜。当一个 Scrapy 项目被成功创建时，会自动生成一些文件。例如，创建一个 TestDemo 项目，在其项目下会出现对应的文件目录，如下图所示。

scrapy.cfg：爬虫项目的配置文件。双击“TestDemo”文件夹，展开其下的文件，如下图所示。

Scrapy 的 TestDemo 目录中各个文件的作用，如下表所示。

根据上表需要补充说明如下两点：

（1）下载中间件是介于 Scrapy 的 request/response 处理的钩子框架，是用于全局修改 Scrapy。request 和 response 的一个轻量、底层的系统。要使用下载中间件，就需要激活，要激活下载中间件组件，将其加入 DOWNLOADER_MIDDLEWARES 设置中，需在 settings.py 中配置。当然，也可以自己编写中间件，只要在 settings.py 中把其中的注释（#）去掉即可。

（2）同样地，要使用 Pipeline，也需要在 settings.py 中启用，把其中的注释（#）去掉即可。

Scrapy 的 settings.py 配置分析及示例

Scrapy 的 settings.py 配置分析如下表所示。

可以根据上表列出的配置项，并结合实际情况，配置出自己所需的爬虫配置。在此举例说明，就会更直观。

例如，笔者设计的爬虫希望实现以下内容：

（1）遵循爬虫协议。

（2）支持 Cookie。

（3）一次最大发送 18 个请求。

（4）开启限速功能，爬取速度为 5 秒爬一次。

（5）启用缓存，将已经发送的请求或相应的数据保存到缓存中，以便以后使用。

对应上面的需求，笔者在 settings.py 中配置如下。

① ROBOTSTXT_OBEY = True。

② COOKIES_ENABLED = True。

③ CONCURRENT_REQUESTS = 18。

④ AUTOTHROTTLE_ENABLED = True。

⑤ AUTOTHROTTLE_START_DELAY = 5。

⑥ HTTPCACHE_ENABLED = True

展开阅读全文

页面更新：2024-05-01

标签：目录百战百胜爬虫示例缓存注释笔者中间件框架文件项目数据

1 2 3 4 5

Scrapy框架初始目录说明和配置分析，示例

百度CTO王海峰：AI发展进入“深度学习+”阶段

小米专访：拍照、工厂和机器人，备受业界好评

3D渲染引擎 HOOPS Visualize 2023全新发布-增加对顶点着色器支持

PC端操作手机APP，两种方式，你会怎么选？

《关于构建数据基础制度更好发挥数据要素作用的意见》发布，家电企业借助“互联互通”构建未来生态

专题研究-常州：新能源之都的打造与思考

2022中国汽车盘点，高合汽车HiPhi Z量产，双旗舰迎接2023

“低碳年货”走红，背后是阿里和伊利的一个重要动作

石排首个镇村合作项目投产

福州港务“一集一散”业务同攀新高

山东垦利农商银行被罚97.6万：因提供虚假的统计报表等

（图表）财经·行情纽约股市三大股指1月9日涨跌不一

9日国际油价涨超1%

（图表）财经·行情国际油价1月9日上涨

马云不再实控蚂蚁集团，多家上市公司披露权益变动影响

《关于构建数据基础制度更好发挥数据要素作用的意见》

石排首个镇村合作项目投产

南山铝业：与中航重机签署《合作框架意向协议》

政协委员崔嘉展：深挖水乡特色，统筹打造乡村旅游项目｜南海

传闻漫威有意开发“奇异博士”衍生项目？漫威版霍格沃茨

陕西吴堡：优质珍稀温泉带动健康旅游新项目

大数据ClickHouse进阶（四）：ClickHouse的索引深入了解

一期投资5亿元常熟高新区中新昆承湖园区迎来首个产业

12月上海二手房成交数据出炉！2022年惨淡收尾

穆雷炮轰特雷杨：一个令人厌恶的数据刷子，就算逃到湖人也