通过前两节我们介绍了一种新的爬取网页的方法--reuqests,并介绍了它的使用方法,我们还介绍了urllib与reuqests的区别。这节课我们通过一个实例--reuqests实现简单网页采集来加深大家对reuqests的学习。
首先我们获取网页的地址,我们会发现网址很长,并且网址中包含我们输入的关键 词,这时我们的网址应该怎么写呢?
我们只需要保留下图划痕线的部分,”query=扫黑风暴“这部分我们以关键词的形式加入到网址中:
然后我们接着分析通过检查--network--headers--Request Method可知是get类型,Content-Type:为text类型,因此我们就可以通过我们获取到的信息书写代码了!
以下为源代码,轻轻松松获取网页的数据(我当时写的关键词是手机,大家把相应关键词改过来即可)
我们获取的只是单个关键词的结果,假如我想要很多关键词的结果怎么办呢?我们是不是只需要把query参数对应的词变成一个变量即可呢?因此我们可以利用input模块完成自动化:
好了,这节课内容我们就先到这吧!接下来还会通过几个案例来巩固我们的requests模块
页面更新:2024-05-22
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号