采集b站视频评论

前情提要

上文采集b站动态视频数据一文发布后,有读者反馈到一个需求。

论文需要数据支撑,需要采集b站视频评论内容。

工具选择

小白完成这个需求,依旧可以使用八爪鱼采集器来做。

计划步骤

  1. 先找定位数据。浏览器打开一个需要采集的视频。
  2. 滚轮下拉页面查看。页面是否通用,有没有特殊的内容。(防止出现特殊情况,导致无法定位采集的数据。)该采集场景没有特殊情况。
  3. 直接新建一个任务。打开八爪鱼采集器,新建一个自定义任务。
  4. 复制刚刚打开的网址。将需要采集的视频链接粘贴进去。

注意,新建的任务,采集器里浏览器cookie是空的,所以采集器里浏览器应该是游客状态。

如果想采集视频页评论需要登录状态,必须先登录一下账号,否则无法查看更多评论。

因为b站在视频页这里做了限制,游客身份无法获取数据。解决办法很简单,就是账号登录一下就可以了。

  1. 登录完,我们可以将页面下拉到评论区。可以正常展示评论数据。
  2. 接下来,我们先用八爪鱼采集器自带的自动识别网页。这个是自带的相对智能的一键采集功能。新手可以快速上手使用。

注意:先找一个评论数保证在100个以内的视频进行采集规则设置。

如果评论数过多,这个自动识别网页的流程会花很长时间才能跑完。

一旦点击自动识别网页,点击取消,它的取消响应也不是那么及时,难免心里会有负担。避免内耗,我们还是先找一个评论数少的视频做配置测试哈。

实操步骤

我随便找了一个有几十个评论数的视频,进行操作。

直接复制网址到采集器中新建的自定义任务中。

直接点击保存设置


置入眼帘的这个界面,浏览器中是游客状态。

可以看到这里的头像框是蓝底白字的登录


我们先点击这里登录进行登录操作。否则无法查看所有评论数据。



登录后,可以查看所有评论内容。



直接点击自动识别网页



工具会自动滚动页面识别页面中的数据。



这里比较自动化,但是不是很智能,因为会出错。



它会自以为是的将一些数据进行命名。并且会出错。比如这里圈中的几个字段就是无效的。



接下来就需要对字段进行修改,不需要的数据进行删除。剩下下面这三个字段的数据。



然后点击生成采集设置。



就会得到一个基础的采集流程。这个流程对于现在这个需求其实大差不差已经完成,就是还需要在细节上进行处理。



可以看见右侧出现了一个采集流程图。



这个采集流程图是刚刚工具自动识别后,我对采集的数据进行筛选之后形成的采集规则。

全程无需自己直接对这个流程图进行操作。


接下来就是细节优化了。

比如在添加一个评论时间。


先在操作页面,点击 1. 圈中的 时间 ,然后点击 2. 圈中的 选中全部



然后点击 采集以下元素文本



数据预览 中就多了个 时间 字段





最后我们需要设置一个非常关键的配置,然后就要大功告成了。


流程图的优化


点击选中右侧采集流程中 打开网页 这个流程块。



点击 高级设置。



选中 使用指定的Cookie,然后点击 获取当前页面的Cookie,弹窗跳出“获取Cookie成功”即可。


点击 滚动网页 这个流程块。



基础设置 中设置 循环次数 为100。



高级设置 中,

先选中 执行前等待,设置1或2秒,

然后选中 等待指定元素出现,

接着点击 1. 圈中的 箭头样图标,在浏览器中选择 2.圈中的 区域。



设置完成后,点击 应用


这样就全部设置好了。


我们点击保存流程。点击采集试一试。



选择本地采集。



采集结果如上。


还有一点瑕疵。设置点赞数空的情况设置默认值为0。



完美。


再用这个任务来采集一个评论数比较多的视频测试一下。



没有什么问题。

结语感悟

需求是百变的,如果有需求,就应该把他记录下来,可以自己去寻找解决办法,去学习。

也可以请教高手,请高手出手,可以让你事半功倍。

谨记,靠人不如靠己。

展开阅读全文

页面更新:2024-04-03

标签:流程图   视频   自动识别   字段   流程   需求   页面   操作   网页   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top