今天我们正式讲述,怎么爬取网易新闻内容。首先我们通过对首页发送请求获取到板块的链接地址。
我们讲地址改为我们需要爬取的首页内容地址
1)我们通过查看代码可以看到,我们需要的板块信息事在li标签中存储,因此我们先定位到li标签
2)然后我们可以通过不同的li标签定位到不同的板块,我们首先新建一个列表,存放板块在li标签中的位置,再通过解析获取所想要的板块链接
3)我们获取到了5个板块的链接,那么我们新建一个列表把这些链接存储在列表中
我们通过上一步获得到了列表页的链接,就可以对列表页发送请求了,通过yield关键字可以发送请求
我们要想获取详情页的内容,需要对列表页解析获得详情页的URL地址,
因此我们定义一个名为urls_parse的函数,用于解析数据,在上一步callback中我们已经说明了列表页解析使用urls_parse的函数
我们这一步正常来说是可以解析到数据的,但是我们通过上一节课的分析知道,列表页是动态加载数据,无法直接通过scrapy获取,需要借助于中间件,因此我们下节课重点根据案例详细介绍中间件怎么写,才能获取我们想要的数据。
页面更新:2024-04-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号