Python爬虫之reuqests实现简单网页采集网页采集教程

通过前两节我们介绍了一种新的爬取网页的方法--reuqests,并介绍了它的使用方法,我们还介绍了urllib与reuqests的区别。这节课我们通过一个实例--reuqests实现简单网页采集来加深大家对reuqests的学习。


1.最终采集的效果


我们打开搜狗浏览器,在搜索框,输入一个词,比如”扫黑风暴“,然后将搜索结果保存下来。


Python爬虫之reuqests实现简单网页采集--网页采集教程


2.开始进行网页采集


第一步。导入reuqests模块


Python爬虫之reuqests实现简单网页采集--网页采集教程

第二步。分析网页类型


首先我们获取网页的地址,我们会发现网址很长,并且网址中包含我们输入的关键 词,这时我们的网址应该怎么写呢?


Python爬虫之reuqests实现简单网页采集--网页采集教程


我们只需要保留下图划痕线的部分,”query=扫黑风暴“这部分我们以关键词的形式加入到网址中:


Python爬虫之reuqests实现简单网页采集--网页采集教程


然后我们接着分析通过检查--network--headers--Request Method可知是get类型,Content-Type:为text类型,因此我们就可以通过我们获取到的信息书写代码了!


Python爬虫之reuqests实现简单网页采集--网页采集教程


3.开始采集


以下为源代码,轻轻松松获取网页的数据(我当时写的关键词是手机,大家把相应关键词改过来即可)


Python爬虫之reuqests实现简单网页采集--网页采集教程


4.采集的结果


Python爬虫之reuqests实现简单网页采集--网页采集教程


5.扩展知识


我们获取的只是单个关键词的结果,假如我想要很多关键词的结果怎么办呢?我们是不是只需要把query参数对应的词变成一个变量即可呢?因此我们可以利用input模块完成自动化:


Python爬虫之reuqests实现简单网页采集--网页采集教程


好了,这节课内容我们就先到这吧!接下来还会通过几个案例来巩固我们的requests模块

展开阅读全文

页面更新:2024-05-22

标签:网页   爬虫   划痕   下图   变量   使用方法   源代码   实例   模块   关键词   浏览器   区别   形式   风暴   类型   简单   网址   教程   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top