前两期我们抓取了BBA中的BB,今天来抓取A:奥迪:
奥迪的网站看起来什么都不显示,没有数据
通过认真查找,最后在一份JS文件中找到了这份数据:
接下来的工作就简单了,也不能说简单,只是不需要以往的网抓过程了,需要的是字符串处理功底,字符串提取、拆分列、逆透视、筛选列等等。
其实数据结构是这样的:
我对JS不太了解,不然应该有办法直接把这个文件转换成JSON,只好用PQ的办法来解决了
第一步:复制全部内容到空白查询
第二步:用CSV解析
第三步:制作省份列表
筛选dprovinces,进一步筛选掉空值,然后提取,分列就可以了,这个比较简单
整理后的结果:
第四步:制作城市列表:
筛选dcitys,然后提取拆分整理
这里拆分列要根据数据结构来:
dcitys['571']=[['572','X 西安'],['1217','Y 延安'],['1219','Y 榆林']]
先使用”],[“符号分列,然后逆透视,再用逗号分列,稍作整理就好了:
第五步:经销商列表
我们没用筛选,直接删除顶端66行,然后保留234行就行了,因为默认的type0,就是全部经销商,所以不用后面那些列表这一份就够了。
整理的过程与城市列表的处理步骤一样:
然后要合并查询城市与省份:
这样我们的奥迪经销商列表就完成了
其实如果是建立模型,就不用合并查询,直接建立关系就好:
不管怎样,我们加载到Power BI看看简单的结果:
省份排名:浙江最多有78家奥迪经销商
城市排名:北京最多有29家奥迪经销商
地图:
头条最近地图审核挺严格的,发全国地图,没有九段线是不行的。
页面更新:2024-04-16
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号