上一节课我们讲了要想爬取数据,需要三个步骤:获取数据、解析数据、保存数据。
这一节课我们讲怎么样获取网页数据,我们以一个简单的例子开始,映射到我们做的项目上。
1.获取百度(http://www.baidu.com/)数据
第一步,要爬取网页,我们首先导入模块urllib.request
第二步,通过模块urllib.request下的urlopen打开网页
第三步,通过read()方法读取数据
第四步,通过decode()方法解码数据,获取网页源代码
2.获取豆瓣(https://movie.douban.com/top250)数据
第一步,导入模块urllib.request
第二步,封装URL,因为有些网站为避免被爬取,设置了爬虫机制,因此我们需要对URL进行处理。处理的方法是用urllib.request下的Request方法
第三步,通过模块urllib.request下的urlopen打开网页
第三四步,通过read()方法读取数据
第五步,通过decode()方法解码数据,获取网页源代码
3.需要注意的是:
封装URL的urllib.request下的Request方法,需要两个参数:data和headers
headers数据可以通过显示网页代码-network-headers-user-agent得到
data、ssl数据,按照上图直接写代码即可。
页面更新:2024-03-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号