Power Query 网抓段子,文章的方法

喜欢段子的朋友,可以抓些段子保存成TXT格式,放到电子书里空闲时间看看,网上搜索了一下,这个网站不错,干净没广告:

Power Query 网抓段子,文章的方法

网址也是简单直接,不用费力气去分析,这个网站的结构是多页目录,目录中的连接对应具体的文章,所以抓取的工作也分为两个步骤:

抓取目录

文章的目录是这样排列的,每页10个段子,一共是164页:

Power Query 网抓段子,文章的方法

我们抓取其中任意一页:

Power Query 网抓段子,文章的方法

用CSV或TXT抓取,然后简单的筛选、提取就得到了文章的具体网址。然后我们用这个查询创建函数,只要添加一个参数页码p:

Power Query 网抓段子,文章的方法

文章抓取

一篇文章是一个页面,与上一步抓取的网址相对应,先抓一个独立页面:

Power Query 网抓段子,文章的方法

同样使用文本格式来抓取,然后筛选、提取出我们要的文字,用这个查询来建立一个文章抓取的函数,添加一个参数网址url:

Power Query 网抓段子,文章的方法

通过这两个步骤的准备工作,可以开始最后的抓取工作:

第一步:建立一个1-164的列表,转为表格,并设置为文本

Power Query 网抓段子,文章的方法

第二步:用这一列的页码作为参数,引用目录抓取函数p,来抓取所有文章的网址:

Power Query 网抓段子,文章的方法

展开抓取的表格,得到所有文章的网址:

Power Query 网抓段子,文章的方法

第三步:用网址列作为参数,引用文章抓取函数,抓取段子内容:

Power Query 网抓段子,文章的方法

展开整理一下就得到文本内容了:

Power Query 网抓段子,文章的方法

如果很懒不想自己去翻页,可以放到Power BI Desktop中用自动播放来处理一下:

Power Query 网抓段子,文章的方法

展开阅读全文

页面更新:2024-05-22

标签:段子   文章   页码   函数   表格   步骤   文本   参数   页面   简单   格式   网址   目录   方法   内容   工作   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top