Power Query抓取各省高考分数线的方法

网址分析的过程之前讲过好多遍了,就不罗嗦了,我们来看分析的结果:

Power Query抓取各省高考分数线的方法

有三个变量,

先随意抓取一页:

Power Query抓取各省高考分数线的方法

抓取后我们多试几种格式,看看数据的规律性,这个网页的数据,当我们用TXT格式时,看起来很像JSON格式的数据,我们试着解析一下:

Power Query抓取各省高考分数线的方法

果然可以使用JSON解析,展开后就是我们想要的结果:

Power Query抓取各省高考分数线的方法

试探的过程很顺利,接下来就是制作自定义抓取函数:

在这个试探抓取的查询上右键>创建函数:

Power Query抓取各省高考分数线的方法

然后进到高级编辑器中修改这个函数:

添加参数:

并把这个三个参数带入到网址中用&符号连接起来:

Power Query抓取各省高考分数线的方法

然后是省区代码的准备:

一共31行:这个我没找到简便方法,直接手工录入吧,在网址检查那里逐页的找到代码输入:

Power Query抓取各省高考分数线的方法

接下来可以开始抓取了:

如果只抓取2019年的数据,就在这个省区代码表中添加列引用自定义函数就可以了:

Power Query抓取各省高考分数线的方法

注意要把id这列变成文本列,才可以正常抓取。

Power Query抓取各省高考分数线的方法

然后展开表:

Power Query抓取各省高考分数线的方法

这里抓取的都是各省的第一页,我们通过网页查看,发现只有青海是两页,我们再单独引用一次函数抓取青海的第二页:

Power Query抓取各省高考分数线的方法

然后追加合并后的结果就是我们需要的数据了,加载后就可以制作数据可视化:

Power Query抓取各省高考分数线的方法

展开阅读全文

页面更新:2024-05-06

标签:码表   规律性   青海   省区   分数线   中用   页码   年份   函数   参数   过程   代码   格式   网址   网页   方法   数据   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top