Power Query 抓取网贷问题平台数据

网贷平台频繁暴雷,截止2019年12月共有5800家网贷平台出现问题,其中半数以上失联,仅有5.84%的平台警方介入处理。

Power Query 抓取网贷问题平台数据

今天我们来做一个问题平台数据的抓取测试,有很多网站提供网贷数据查询服务:

Power Query 抓取网贷问题平台数据

这个网站的数据就不错,图表也挺漂亮的,图表的下面就是问题平台的数据表:

Power Query 抓取网贷问题平台数据

默认的页面提供前20条数据,点击下面的加载更多会增加20条,其实就是个查询按钮,那么我们开始Power Query网络抓取的步骤。

网站分析

F12打开谷歌浏览器的检查页面,按CTRL+R重新加载,点击加载更多就会出现一行新的查询出来:

Power Query 抓取网贷问题平台数据

通过预览,可以看到对应JSON数据,我们再一下加载更多数据:

Power Query 抓取网贷问题平台数据

页码page从2变成3,一共5800个平台,就要有290页。

我们来查看url:

Power Query 抓取网贷问题平台数据

这应该是真是网址,有查询页码。至此我们的网站分析基本可以结束了。

试抓

试抓过程就是为了验证我们网站分析的过程是不是正确,我们在分析过程中注意到这个网站数据传递方式是POST,先不管是POST还是GET,我们直接用整串网址抓一下试一试:

Power Query 抓取网贷问题平台数据

看起来好像不可以直接抓取,什么表也不存在。

不要急我们看看web视图的内容:

Power Query 抓取网贷问题平台数据

看起来是乱码,但是认真观察数据的结构,看起来是标准的JSON结构,而且应该就是我们需要的数据,不过是通过url编码的数据。我们试着用JSON来解析这个数据:

Power Query 抓取网贷问题平台数据

果然可以。展开数据:

Power Query 抓取网贷问题平台数据

就是我们需要的数据,试抓过程结束。

定义函数

根据试抓查询过程创建函数:

Power Query 抓取网贷问题平台数据

添加页码参数p,因为页码是数值,我们用一个Text.From函数将数值转换成文本用&拼接起来:

Power Query 抓取网贷问题平台数据

这样这个单页数据抓取函数就定义好了。

抓取

有了函数抓取就简单了,用List.Transfrom函数历遍抓取:

Power Query 抓取网贷问题平台数据

一共抓取290行,然后展开整理数据:

Power Query 抓取网贷问题平台数据

通过4个步骤,我们就把问题平台数据全部抓取下来了。

接下来你就可以用抓取的数据做自己的可视化图表了:

Power Query 抓取网贷问题平台数据

展开阅读全文

页面更新:2024-04-15

标签:数据   平台   页码   图表   数值   函数   步骤   加载   定义   过程   结构   页面   网址   更多   科技   网站

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top