不看后悔！爬取动态网页数据的新方法selenim案例讲解

动态网页加载数据，我们之前用的方法是用JSON获取网页的原始数据，过程比较繁琐，这节课我们利用selenim自动化抓取网页的数据，接下来为大家一一阐述爬取的过程。

1.爬取网页数据的解题思路

首先我们先回忆一下我们爬取网页的主要步骤:先获取网页完整的源码数据--然后利用xpath数据解析--获取想要的数据

2.获取网页源码数据

这次我们操作的网页为http://scxk.nmpa.gov.cn:81/xk/，该网页为动态加载数据，用之前requests模块获取数据时，不能直接通过get请求获取真正的源码数据，我们当时采用的是Ajax请求间接拿到了该页面的数据，这次我们用不一样的selenim模块获取数据

第一步，导入模块自动读取发起数据请求

我们利用苹果电脑自带的Safari浏览器发起请求，得到实例化的对象driver，然后再发起get请求

不看后悔！爬取动态网页数据的新方法--selenim案例讲解

第二步，获取源码数据

selenim模块获取网页源码的方法为，通过page_source方法，不同于requests方法是通过text，这样我们就拿到了该网页的源码数据

不看后悔！爬取动态网页数据的新方法--selenim案例讲解

第三步，解析数据

我们主要是通过源码获取该页面的企业名称，如下图，解析数据与requests请求一样采用了xpath解析

不看后悔！爬取动态网页数据的新方法--selenim案例讲解

不看后悔！爬取动态网页数据的新方法--selenim案例讲解

第四步，关闭自动化

不看后悔！爬取动态网页数据的新方法--selenim案例讲解

3.获取网页源码数据

最终效果图

不看后悔！爬取动态网页数据的新方法--selenim案例讲解

展开阅读全文

页面更新：2024-04-26

标签：数据不同于繁琐企业名称效果图新方法苹果电脑源码实例模块步骤加载后悔案例过程页面网页方法科技

仅需10分钟，让你学会如何建立scrapy爬虫项目

通过上节课的学习，我们了解到了scrapy是学习爬虫的一个非常重要部分，它可以快速帮助我们爬取想要的数据信息，因此这节课我们重点介绍下scrapy怎么使用。1.如何建立scrapy框架第一步，我们首先需要安装scrapy。这一步不做过

又一家企业估值超千亿美元！马斯克重回世界首富，大幅领先

CNBC昨晚报道，马斯克旗下的SpaceX已与新、旧投资人达成协议，公司内部人士将以每股560美元的价格出售价值高达7.55亿美元的股票，该笔交易将使SpaceX估值达到1003亿美元，成为罕见的百角兽（Centicorn）公司，这也意味着马斯克身价

苹果再搅局汽车领域！CarPlay未来还能控制空调

苹果的车载系统CarPlay问世已经七年，你最常使用苹果的 CarPlay来做些什么呢？每天都有数以百万计的司机使用CarPlay来听音乐、看地图，或者是接打电话。近年来对于汽车产业野心勃勃的苹果似乎不满足于此。根据《彭博社》最

能源转型遭遇危机！欧盟完全不慌，民众企业忧心忡忡

就在今年，欧洲公布了野心勃勃的能源转型计划，大幅削减化石能源的同时，增加可再生能源的占比。但很快，现实就给了乐观的欧洲人当头一棒，能源供给失衡的同时能源价格大幅上涨，不少人打起了退堂鼓，能源转型会不会太激进了？还有必

美团回应“二选一”败诉：已收到行政处罚决定，将以此为戒

再就是昨天，美团“二选一”再次败诉饿了么，被判补偿35.2万元，将美团送上了热搜。民事判决书显示，北京三快科技有限公司将向上海拉扎斯信息科技有限公司补偿35.2万元。相较于美团外卖的收入体量而言，35.2万元的补偿金额毛毛

Facebook大停机，竟会威胁到生命安全

本周，知名社交网站Facebook实现了“双休”。10月4日，Facebook与旗下Instagram、WhatsApp、Messenger平台和VR系统Oculus在弹出错误警告几分钟后，便陷入了约6小时的全面瘫痪，全球约35亿用户受到影响。10月8日，Facebook携旗

10月8日股市开盘行情：三大指数集体高开沪指涨1.15%

1、A股三大股指概况上证指数开盘报3609.09点，较昨日收盘价涨1.15%。深证成指开盘报14457.94点，较昨日收盘价涨1.04%。创业板指开盘报3259.46点，较昨日收盘价涨0.46%。2、行业板块跌幅榜民航机场、农牧饲渔、保险、石油行

10月11日股市收盘行情：指数再度失守3600点

1、A股三大股指概况截至收盘，沪指收报3591.71点，跌0.01%，成交额4686亿元。深成指收报14367.6点，跌0.32%，成交额5235亿元。创业板指收报3196.19点，跌1.45%，成交额1891亿元。2、个股表现个股方面，两市逾2317股下跌，占比重超50.59

10月8日股市收盘行情：10月开市大盘高开低走

1、A股三大股指概况截至收盘，沪指收报3592.17点，涨0.67%，成交额4929亿元。深成指收报14414.16点，涨0.73%，成交额5677亿元。创业板指收报3243.2点，跌0.04%，成交额1975亿元。2、个股表现个股方面，两市逾3487股上涨，占比重超76.17

微软未能收购TikTok更多细节曝光，CEO直言：离谱

去年夏天，在中美对抗最紧张的时期，特朗普扬言要全面封禁抖音海外版——TikTok。随着他的落选，如今此事已经无人再提，但当时传出的微软有意收购TikTok却是如假包换。微软首席执行官在最近参加活动时直言：收购TikTok，是我经手

10月12日股市开盘行情：三大指数集体低开，沪指跌0.29%

1、A股三大股指概况上证指数开盘报3581.3点，较昨日收盘价跌0.29%。深证成指开盘报14335.54点，较昨日收盘价跌0.22%。创业板指开盘报3194.01点，较昨日收盘价跌0.07%。2、行业板块跌幅榜医疗行业、酿酒行业板块涨幅靠前。

格力电器斥巨资回购股份，为何员工热情不高？（附智能分析报告）

日前，2021 年第二次临时股东大会上，传出员工持股计划认购比例不高的消息，董明珠霸气喊话：“ 持有不了我来兜底” ，格力的大便宜，怎么不好捡？早在 6 月份，格力推出第一期员工持股计划，购买公司回购股份的价格为每股 27.68 元，拟

精锐教育澄清创始人轻生传闻：人在开会，公司正常

纽交所上市公司精锐教育董事长张熙，于10月7日在朋友圈发文，向亲友、客户、员工和朋友等致歉，并称自己一心做教育，但确实投资扩张太过激进和疏于投资及财务管理，导致今日的局面。张熙还称，始终都把精锐作为自己的唯一，从没想

不仅中国，印度也出现能源危机：燃煤电厂平均只剩4天存量

不只是中国采取限电措施，几千公里之外的印度，同样面临着用电困境。美国有线电视新闻网6日称，将来几个月，印度可能会面临电力短缺，因为其大多数发电厂的煤炭库存已降至极低水平，煤炭几乎占印度发电量的70%。据相关媒体报道，印

富安娜董事长夫妇离婚投资者担忧重蹈梦洁覆辙（附智能分析报告）

67岁的老板林国芳近日离婚了！富安娜详式权益变动书显示，林国芳与陈国红已经解除婚姻关系，并向公司递交了《协议》，该协议经林国芳、陈国红于2021年9月23日共同签署。协议内容显示：“解除婚姻关系前，林国芳持有公司3.13亿股

上滑加载更多 ↓

推荐阅读：

scrapy如何深度爬取数据？赶紧收藏吧

scrapy实例进阶篇之下载中间件（四）

2种方法，教你轻松学会scrapy框架

干货分享！scrapy全站爬取数据以及crawlspider怎么用

scrapy实例进阶篇之下载中间件（一）

干货分享！scrapy爬取图片的详细步骤（一）

scrapy爬虫案例代码解析-scrapy爬虫项目实战

scrapy全站爬取数据最全实例，赶紧收藏吧

入门必看！mysql数据表添加字段的方法

mysql如何启动以及创建数据库？最全攻略来了

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top