Python爬虫实战之数据解析（一）

上节课我们通过urllib.request模块获取到了豆瓣电影（https://movie.douban.com/top250）的网页源代码，接下来我们通过获取到的网页源代码，进行解析，获取我们想要的部分数据。本节的解析数据我们使用bs4模块下的beautifulsoup函数。

1.关于beautifulsoup函数怎么使用

第一步，导入bs4模块下的beautifulsoup函数

第二步，beautifulsoup函数基本公式：beautifulsoup函数（需要解析的网页，"html.parser"）获取解析的数据

第三步，对解析的数据用.find_all(查找规则)方法，来获取想要的数据

2.导入bs4模块下的beautifulsoup函数，如下图，比较简单

Python爬虫实战之数据解析（一）

3.用beautifulsoup函数对网页进行解析

Python爬虫实战之数据解析（一）

4.对解析的数据用.find_all(查找规则)方法，来获取想要的数据

首先我们通过网页的代码可见，我们所想要的数据，存在在很多p下class="item"标签中，如下图：

Python爬虫实战之数据解析（一）

因此我们用.find_all(查找规则)方法，来获取class="item"标签：

Python爬虫实战之数据解析（一）

5.我们对解析获取的数据进行遍历，以获得单独的一部电影：

Python爬虫实战之数据解析（一）

补充知识点：

（1）find_all可以传入的参数：

find_all( name , attrs , recursive , string , **kwargs )

(2)name 参数可以查找所有名字为 name 的tag

Python爬虫实战之数据解析（一）

如上图，要查找name为“title”的内容，第二行为搜索结果

（3）按CSS搜索

按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag:

Python爬虫实战之数据解析（一）

展开阅读全文

页面更新：2024-05-01

标签：数据爬虫遍历知识点豆瓣源代码公式函数实战标识模块规则参数标签网页方法电影科技

1 2 3 4 5

Python爬虫实战之数据解析（一）

1.关于beautifulsoup函数怎么使用

2.导入bs4模块下的beautifulsoup函数，如下图，比较简单

3.用beautifulsoup函数对网页进行解析

4.对解析的数据用.find_all(查找规则)方法，来获取想要的数据

5.我们对解析获取的数据进行遍历，以获得单独的一部电影：

补充知识点：

（1）find_all可以传入的参数：

(2)name 参数可以查找所有名字为 name 的tag

（3）按CSS搜索

python函数的定义和调用python函数用法

Python爬虫实战之保存至Excel（二）

Python爬虫之破解百度翻译requests案例详解（一）

python列表的基本操作-python列表的用法

python爬虫实例教程之豆瓣电影排行榜python爬虫requests库

Python爬虫实战之解析数据（二）

Python爬虫之reuqests实现简单网页采集网页采集教程

python元组和列表的区别python元组转换列表

python爬虫实例教程-python怎么写爬虫

Python爬虫实战之保存文件-python爬虫下载文件

Python爬虫实战之获取数据（一）

亚马逊回应跨境电商封号潮：反复违规行为为主因

恒大以后，又有一家巨头面临麻烦，市值两年蒸发1700亿

三分之二的企业缺人手，招人为何这么难？

泸州老窖全国挑选副总，最终聘了2名内部人员（附智能分析报告）

python函数的定义和调用python函数用法

Python爬虫实战之保存至Excel（二）

Python爬虫之破解百度翻译requests案例详解（一）

python爬虫实例教程之豆瓣电影排行榜python爬虫reques

Python爬虫实战之解析数据（二）

Python爬虫之reuqests实现简单网页采集网页采集教程

python爬虫实例教程-python怎么写爬虫

Python爬虫实战之保存文件-python爬虫下载文件

Python爬虫实战之获取数据（一）

苹果“科技界春晚”定档9月15日，除了iPhone13还有4大新