上节课我们讲了requests的用法以及利用requests简单爬取、保存网页的方法,这节课我们主要讲urllib和requests的区别。
两者引入的模块是不一样的,这一点显而易见。
urllib是通过urlopen方法获取数据。
requests需要通过网页的响应类型获取数据。
对于复杂的数据请求,我们只是简单的通过urlopen方法肯定是不行的。
urllib中,我们知道对于有反爬虫机制的网站,我们需要对URL进行封装,以获取到数据。我们可以回顾下前几节课的内容:
requests模块中,就不需要这么复杂的操作,直接在第二步中,加入参数headers即可:
urllib和requests都可以通过bs4和re进行数据的解析,requests还可以通过xpath进行解析。具体解析方法之后会详解
urllib需要引入xlwt模块进行新建表格、sheet表格写入数据
requests通过with...as直接虚入数据:
接下来,我们通过几个案例一一讲解requests爬取数据的整个过程!
页面更新:2024-05-18
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号