scrapy实例进阶篇之下载中间件(二)

今天我们正式讲述,怎么爬取网易新闻内容。首先我们通过对首页发送请求获取到板块的链接地址。


1.对首页发送请求


我们讲地址改为我们需要爬取的首页内容地址


scrapy实例进阶篇之下载中间件(二)


2.获取板块的链接地址。


1)我们通过查看代码可以看到,我们需要的板块信息事在li标签中存储,因此我们先定位到li标签


scrapy实例进阶篇之下载中间件(二)

scrapy实例进阶篇之下载中间件(二)


2)然后我们可以通过不同的li标签定位到不同的板块,我们首先新建一个列表,存放板块在li标签中的位置,再通过解析获取所想要的板块链接


scrapy实例进阶篇之下载中间件(二)


3)我们获取到了5个板块的链接,那么我们新建一个列表把这些链接存储在列表中


scrapy实例进阶篇之下载中间件(二)

scrapy实例进阶篇之下载中间件(二)


3.对板块列表页发送请求


我们通过上一步获得到了列表页的链接,就可以对列表页发送请求了,通过yield关键字可以发送请求


scrapy实例进阶篇之下载中间件(二)


4.对板块列表页解析数据


我们要想获取详情页的内容,需要对列表页解析获得详情页的URL地址,

因此我们定义一个名为urls_parse的函数,用于解析数据,在上一步callback中我们已经说明了列表页解析使用urls_parse的函数

scrapy实例进阶篇之下载中间件(二)


5.下载中间件的编写


我们这一步正常来说是可以解析到数据的,但是我们通过上一节课的分析知道,列表页是动态加载数据,无法直接通过scrapy获取,需要借助于中间件,因此我们下节课重点根据案例详细介绍中间件怎么写,才能获取我们想要的数据。

展开阅读全文

页面更新:2024-04-20

标签:中间件   首页   函数   板块   实例   加载   关键字   定义   位置   案例   标签   地址   链接   内容   数据   列表   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top