Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据

数据处理永远是数据分析工作中重中之重的任务,大部分人深深地陷入在数据处理的泥潭中,今天Excel催化剂再接再厉,在过往已提供了主从结构报表数据源的数据转换后,再次给大家送上标签式报表数据源的数据转换操作。

业务场景

日常面对的数据源多种多样,其中一个很大的渠道是从网络上采集数据源,网页上展示的数据结构,它不太可能是规范的数据库表结构的数据源,更多的是标签式的数据结构展现。

标签式数据结构,即一个列表清单,如商品搜索页呈现的多个商品重复铺排,或博客里的目录、信息流里的数据等,都是一个数据单元,不断地重复出现,而其单元内是一对一的关系,不会出现之前提及的主从结构的数据(有一个表头+多条明细数据)。


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


淘宝搜索页多个商品标签式排列

Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


博客类信息流文章清单

对于这样的数据源,我们作为分析的角度,更希望是如下的数据结构,其中右侧黄色区域是根据左侧的源信息用函数公式提取出来的信息。


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


标准可用于分析的数据库表结构

现有的各种网抓方法,固然可以最终拿到自己想要的数据结构,但动不动就网抓,也不是件轻松的事件,特别是对一些临时性的需求,用完即走的,花大力气来写个网抓程序,成本太高,收益甚微

Excel催化剂带给广大用户的便捷之道

一般普通用户,不要说网抓这么高技术水平的活,普通个VBA自动化操作估计都难倒不少人。何况现在网抓与反网抓斗争白热化,普通的业余开发者可能也未能轻松得到想要的数据,特别是大型电商平台的数据,反网抓做得很深入。

Excel催化剂呈现的方法是永恒的简单之道,复制粘贴,人人皆会的操作步骤。只需打开自己想要的数据网页,CTRL+A全选网页或选择指定内容复制下,粘贴到Excel工作表中,再做简单的配置工作,完事!

功能说明

以上提及的是网页数据转换的小场景,可能还有部分场景是系统导出的数据也是这样的结构(不要把系统开发者想得多有智慧,通常很多时候他们都会画蛇添足地把用户想要的数据进行加工转换,变成用户十分厌恶的不能马上可用于分析的数据)。概括来说,适用于各种标签式结构的数据源的转换。


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


功能入口

步骤1:按要求准备数据源

若是网页的数据,需要自行复制粘贴到Excel工作表中,这过程,有两种形式的粘贴,一种是保留格式,一种是不保留格式,按需使用。

鼠标右键粘贴时,红框为普通粘贴,保留格式和图片等,而蓝框的是文本粘贴,不保留格式,也不会有图片,粘贴速度也快,可能丢失某些字体颜色、超链接等关键信息。

粘贴完后,若图片遮挡查看内容,可用F5定位删除图片(自行百度方法)。


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


粘贴的两种方式

若需要用普通粘贴,建议先把A列拉宽,一般粘贴过来的内容都大部分存放在A列中。


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


复制网页数据粘贴到Excel工作表中

Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


无格式粘贴,速度快

步骤2:配置映射关系

点击配置映射关系后,出现配置工作表,如下图所示,按要求整理好配置信息。

定位单元格是用于定位标签的数据单元,可用普通查找和正则查找两种

同样内容列相对定位单元格的位置,自行查阅数据源进行位置定位。


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


配置信息整理

步骤2:生成结果表

针对本工作薄操作或需要遍历多个其他工作薄,选择对应的不同第2步按钮即可,选定工作薄路径,可使用自定义函数取到需要遍历提取的所有工作薄的路径,选择对应的单元格区域,再点击按钮。


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


选择所需遍历的数据源工作薄路径单元格

保留格式粘贴的情况下,最终复制汇总到结果表中,仍然保留其格式,可使用Excel催化剂开发的大量对Excel对象进行访问的自定义函数,取到自己想要的格式信息。同时也可使用文本类自定义函数,正则自定义函数,对取到的数据源进行加工抽取到所需的信息,如黄色区域的阅读数、评论数等


Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


带格式复制的结果表样式

Excel催化剂-标签式报表转标准数据源,零门槛轻松采集网页数据


自定义函数访问Excel对象属性

结语

从此篇中,也可见识到,数据只需进入到Excel环境,不管原有的数据结构如何千变万化,只要能够抽象出共性规律,借助插件等手段,仍然可以得到自己想要的数据。

对于业务方向的Excel用户来说,更需要的是如何摆脱固有思维,让自己可以更加发散性地寻求更好的解决方案,有规律的事务,提炼出逻辑,转化为技术逻辑,供专业的人帮忙解决,而不局限于机械式的重复操作。

展开阅读全文

页面更新:2024-04-14

标签:数据源   催化剂   标签   网页   数据   遍历   数据结构   报表   门槛   函数   轻松   结构   操作   格式   标准   内容   数码   用户   工作   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top