Python爬虫实战之获取数据（一）

上一节课我们讲了要想爬取数据，需要三个步骤：获取数据、解析数据、保存数据。

这一节课我们讲怎么样获取网页数据，我们以一个简单的例子开始，映射到我们做的项目上。
1.获取百度（http://www.baidu.com/）数据

第一步，要爬取网页，我们首先导入模块urllib.request

第二步，通过模块urllib.request下的urlopen打开网页

第三步，通过read（）方法读取数据

第四步，通过decode（）方法解码数据，获取网页源代码

Python爬虫实战之获取数据（一）

2.获取豆瓣（https://movie.douban.com/top250）数据

第一步，导入模块urllib.request

第二步，封装URL，因为有些网站为避免被爬取，设置了爬虫机制，因此我们需要对URL进行处理。处理的方法是用urllib.request下的Request方法

第三步，通过模块urllib.request下的urlopen打开网页

第三四步，通过read（）方法读取数据

第五步，通过decode（）方法解码数据，获取网页源代码

Python爬虫实战之获取数据（一）

3.需要注意的是：

封装URL的urllib.request下的Request方法，需要两个参数：data和headers

headers数据可以通过显示网页代码-network-headers-user-agent得到

Python爬虫实战之获取数据（一）

data、ssl数据，按照上图直接写代码即可。

亚马逊回应跨境电商封号潮：反复违规行为为主因