上节课我们通过urllib.request模块获取到了豆瓣电影(https://movie.douban.com/top250)的网页源代码,接下来我们通过获取到的网页源代码,进行解析,获取我们想要的部分数据。本节的解析数据我们使用bs4模块下的beautifulsoup函数。
第一步,导入bs4模块下的beautifulsoup函数
第二步,beautifulsoup函数基本公式:beautifulsoup函数(需要解析的网页,"html.parser")获取解析的数据
第三步,对解析的数据用.find_all(查找规则)方法,来获取想要的数据
首先我们通过网页的代码可见,我们所想要的数据,存在在很多p下class="item"标签中,如下图:
因此我们用.find_all(查找规则)方法,来获取class="item"标签:
find_all( name , attrs , recursive , string , **kwargs )
如上图,要查找name为“title”的内容,第二行为搜索结果
按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag:
页面更新:2024-05-01
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号