Python爬虫实战之获取数据(一)

上一节课我们讲了要想爬取数据,需要三个步骤:获取数据、解析数据、保存数据。

这一节课我们讲怎么样获取网页数据,我们以一个简单的例子开始,映射到我们做的项目上。
1.获取百度(http://www.baidu.com/)数据

第一步,要爬取网页,我们首先导入模块urllib.request

第二步,通过模块urllib.request下的urlopen打开网页

第三步,通过read()方法读取数据

第四步,通过decode()方法解码数据,获取网页源代码

Python爬虫实战之获取数据(一)

2.获取豆瓣(https://movie.douban.com/top250)数据

第一步,导入模块urllib.request

第二步,封装URL,因为有些网站为避免被爬取,设置了爬虫机制,因此我们需要对URL进行处理。处理的方法是用urllib.request下的Request方法

第三步,通过模块urllib.request下的urlopen打开网页

第三四步,通过read()方法读取数据

第五步,通过decode()方法解码数据,获取网页源代码

Python爬虫实战之获取数据(一)

3.需要注意的是:

封装URL的urllib.request下的Request方法,需要两个参数:data和headers

headers数据可以通过显示网页代码-network-headers-user-agent得到

Python爬虫实战之获取数据(一)

data、ssl数据,按照上图直接写代码即可。

展开阅读全文

页面更新:2024-03-25

标签:爬虫   数据   豆瓣   源代码   实战   模块   例子   步骤   机制   参数   两个   代码   简单   网页   方法   项目   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top