Power Query 爱淘宝数据抓取的方法

如果你到爱淘宝上搜索一个关键词,就会出来很多结果,任意一个关键词对应的至少也有几十页的内容:

Power Query 爱淘宝数据抓取的方法

如果你要把所有这些页面的数据抓取下来做分析,看看销售金额,看看哪些店铺销售的好:

Power Query 爱淘宝数据抓取的方法

哪些产品卖得好:

Power Query 爱淘宝数据抓取的方法

接下来,我们就来做这个网站数据的抓取。

网址分析

  1. 打开爱淘宝网站,输入关键字得到搜索结果
  2. 网页上右键,检查
  3. 然后点选几个页面的数字
Power Query 爱淘宝数据抓取的方法

网址分析的过程就是一个找规律的过程:

我们点选页码时会有对应的网址URL,我们要观察这个网址的变化规律,其中我们注意到两点:

前后都是用&符号连接的,当我们选不同的页面时,page会变化,正好对应的时页码,我们就知道,这个page对应的就是:

Power Query 爱淘宝数据抓取的方法

而key对应的就是我们搜索的关键字--“Excel”。

自定义抓取函数

  1. 数据>从网站
  2. 输入我们找到的实际网址URL
  3. 修改成我们想要的函数
Power Query 爱淘宝数据抓取的方法

这个函数有两个参数:

Power Query 爱淘宝数据抓取的方法

用这两个参数替换掉URL中的页码数字和“Excel”

尝试抓取

  1. 建一个列表1-100,转换到表,并且转换为文本格式
  2. 自定义列,调用自定义函数
Power Query 爱淘宝数据抓取的方法

爱淘宝的数据格式是json,Power Query可以直接解析。

转换数据

  1. 展开记录
  2. 删除不需要的列
  3. 替换格式码
Power Query 爱淘宝数据抓取的方法

数据很整齐,除了产品声明中有些格式符号,统一替换掉就行,另外图片URL和其他跳转的URL都没有https,如果你要在Power BI中制作图片墙,就需要替换“//”为“https://”,这样这个图片URL才是有效的URL。

上面的这个数据抓取的过程在Excel中与Power BI Desktop中几乎是一样的,如果你在Power BI Desktop中抓取了数据,就可以直接在Power BI Desktop中做出漂亮的图片墙。

Power BI Desktop图片URL这个问题好像是修复了,之前我们还需要用二进制保存图片到本地,才能显示图片,今天试了一下,可以直接通过图片URL显示图片了。

Power Query 爱淘宝数据抓取的方法

最后总结一下:

这次的抓取没有遇到断网的情况,这个网站视乎不反对大家抓取数据,而且使用Power Query抓取关键字Excel共100页一共5991条数据,用不了几秒钟,速度也可以。对于不愿意写代码,又有网络抓取需求的朋友来说,Power Query也算是一种选择吧。

展开阅读全文

页面更新:2024-03-17

标签:淘宝   数据   页码   点选   函数   符号   关键词   关键字   参数   过程   页面   格式   网址   方法   图片   科技   网站

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top