不看后悔!爬取动态网页数据的新方法selenim案例讲解

动态网页加载数据,我们之前用的方法是用JSON获取网页的原始数据,过程比较繁琐,这节课我们利用selenim自动化抓取网页的数据,接下来为大家一一阐述爬取的过程。


1.爬取网页数据的解题思路


首先我们先回忆一下我们爬取网页的主要步骤:先获取网页完整的源码数据--然后利用xpath数据解析--获取想要的数据


2.获取网页源码数据


这次我们操作的网页为http://scxk.nmpa.gov.cn:81/xk/,该网页为动态加载数据,用之前requests模块获取数据时,不能直接通过get请求获取真正的源码数据,我们当时采用的是Ajax请求间接拿到了该页面的数据,这次我们用不一样的selenim模块获取数据


第一步,导入模块自动读取发起数据请求


我们利用苹果电脑自带的Safari浏览器发起请求,得到实例化的对象driver,然后再发起get请求


不看后悔!爬取动态网页数据的新方法--selenim案例讲解


第二步,获取源码数据


selenim模块获取网页源码的方法为,通过page_source方法,不同于requests方法是通过text,这样我们就拿到了该网页的源码数据


不看后悔!爬取动态网页数据的新方法--selenim案例讲解


第三步,解析数据


我们主要是通过源码获取该页面的企业名称,如下图,解析数据与requests请求一样采用了xpath解析


不看后悔!爬取动态网页数据的新方法--selenim案例讲解

不看后悔!爬取动态网页数据的新方法--selenim案例讲解


第四步,关闭自动化


不看后悔!爬取动态网页数据的新方法--selenim案例讲解


3.获取网页源码数据


最终效果图


不看后悔!爬取动态网页数据的新方法--selenim案例讲解


展开阅读全文

页面更新:2024-04-26

标签:数据   不同于   繁琐   企业名称   效果图   新方法   苹果电脑   源码   实例   模块   步骤   加载   后悔   案例   过程   页面   网页   方法   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top