Python爬虫实战之数据解析(一)

上节课我们通过urllib.request模块获取到了豆瓣电影(https://movie.douban.com/top250)的网页源代码,接下来我们通过获取到的网页源代码,进行解析,获取我们想要的部分数据。本节的解析数据我们使用bs4模块下的beautifulsoup函数。


1.关于beautifulsoup函数怎么使用


第一步,导入bs4模块下的beautifulsoup函数


第二步,beautifulsoup函数基本公式:beautifulsoup函数(需要解析的网页,"html.parser")获取解析的数据


第三步,对解析的数据用.find_all(查找规则)方法,来获取想要的数据


2.导入bs4模块下的beautifulsoup函数,如下图,比较简单


Python爬虫实战之数据解析(一)


3.用beautifulsoup函数对网页进行解析


Python爬虫实战之数据解析(一)


4.对解析的数据用.find_all(查找规则)方法,来获取想要的数据


首先我们通过网页的代码可见,我们所想要的数据,存在在很多p下class="item"标签中,如下图:


Python爬虫实战之数据解析(一)


因此我们用.find_all(查找规则)方法,来获取class="item"标签:


Python爬虫实战之数据解析(一)


5.我们对解析获取的数据进行遍历,以获得单独的一部电影:

Python爬虫实战之数据解析(一)


补充知识点:


(1)find_all可以传入的参数:


find_all( name , attrs , recursive , string , **kwargs )


(2)name 参数可以查找所有名字为 name 的tag


Python爬虫实战之数据解析(一)

如上图,要查找name为“title”的内容,第二行为搜索结果


(3)按CSS搜索


按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag:


Python爬虫实战之数据解析(一)


展开阅读全文

页面更新:2024-05-01

标签:数据   爬虫   遍历   知识点   豆瓣   源代码   公式   函数   实战   标识   模块   规则   参数   标签   网页   方法   电影   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top