Power Query 网络抓取概括性总结

这一段时间写了很多篇网络抓取方面的文章,很多网友可能对网络抓取还有疑虑,是不是游走法律边缘,担心跨省。其实我们用Power Query进行的网络抓取行为,大部分都是正常的数据收集工作,我们并没有突破防御从后台下载数据,那些都是黑客做的事情。Power Query网络抓取,都是通过正常的网页访问来获取数据,只是比起手工翻页稍微自动化了一些。

数据类型

如果从抓取的数据类型的角度来区分,我们分为两大类:

Power Query 网络抓取概括性总结

抓取步骤

如果从抓取步骤来分类也是两步:

Power Query 网络抓取概括性总结

为什么不是我们经常说的四步变成两步了?

这里所说的步骤单指我们M函数在网络抓取中的步骤。

第一步:抓取网页内容,都是Contents,结尾的M函数

第二步:分析网页内容,对第一步抓取过来的网页内容进行解析,文本、json、xml、csv、表格等等。

我们在之前的网络抓取文章中很少提到具体的函数,因为大部分的网络抓取函数应用,都是Power Query自动给我们生成,回过头来看看,就是我们现在看到的这个样子。

所以说,网络抓取两大核心工作:

M函数

我们常用到的函数组合:

Power Query 网络抓取概括性总结

这里简单说一下:

Power Query 网络抓取概括性总结

综上所诉,Power Query网络抓取并不是很复杂,复杂的是网站千奇百怪,各有各的不同,所以我们要做好网站分析,不断尝试,总会找到办法的。

展开阅读全文

页面更新:2024-05-23

标签:概括性   组合   网络   数据类型   函数   表格   步骤   附件   文本   格式   数据库   网页   内容   数据   工作   文章   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top