喜欢段子的朋友,可以抓些段子保存成TXT格式,放到电子书里空闲时间看看,网上搜索了一下,这个网站不错,干净没广告:
网址也是简单直接,不用费力气去分析,这个网站的结构是多页目录,目录中的连接对应具体的文章,所以抓取的工作也分为两个步骤:
文章的目录是这样排列的,每页10个段子,一共是164页:
我们抓取其中任意一页:
用CSV或TXT抓取,然后简单的筛选、提取就得到了文章的具体网址。然后我们用这个查询创建函数,只要添加一个参数页码p:
一篇文章是一个页面,与上一步抓取的网址相对应,先抓一个独立页面:
同样使用文本格式来抓取,然后筛选、提取出我们要的文字,用这个查询来建立一个文章抓取的函数,添加一个参数网址url:
通过这两个步骤的准备工作,可以开始最后的抓取工作:
第一步:建立一个1-164的列表,转为表格,并设置为文本
第二步:用这一列的页码作为参数,引用目录抓取函数p,来抓取所有文章的网址:
展开抓取的表格,得到所有文章的网址:
第三步:用网址列作为参数,引用文章抓取函数,抓取段子内容:
展开整理一下就得到文本内容了:
如果很懒不想自己去翻页,可以放到Power BI Desktop中用自动播放来处理一下:
页面更新:2024-05-22
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号