通过前几节课的练习,想必大家已经对requests爬取数据有了初步的了解,这节课呢我们是最后一个案例,Python爬虫案例之化妆品许可查询,与之前不同的地方是,我们抓取的内容需要经过跳转,不像之前的案例,就是采集当前页面。那么话不多说我们就开始今天的课程讲解。内容稍微有点多我们分为两节课讲解。
1.获取的数据内容
我们首先打开化妆品许可查询网站(http://scxk.nmpa.gov.cn:81/xk/)我们会发现有很多列表页,我们需要通过这个列表页面获取详情页里面的内容(如下图)
2.解题思路
按照正常的流程我们应该是先通过列表页--获取详情页的链接--再通过详情页的链接--用request请求获取页面的内容。那么我们进入代码看看对不对?
首先来观察一下列表页我们会发现,我们通过翻页发现网址不变,因此我们知道列表页是局部加载--通过xhr获取网址、参数等信息
然后呢,我们打开一个详情页,发现依旧是局部加载--xhr获取页面URL。通过仔细对比发现,我们详情页的URL是一样的,无需列表页获取,但是参数信息却是在变化的(如下图),ID对应的一堆内容是啥呢?跟列表页有啥关系呢?
我们继续返回到列表页,我们发现列表页获取的内容中也有个ID,与详情页的ID是一致的,如下图:
因此我们解题思路应该是这样的:
获取列表页面中的id数值--然后作为详情页的参数-通过requests请求来获取页面内容。
页面更新:2024-06-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号