数据聚合中丢失的关键信息

为了简化数据对数据进行聚合操作的同时,那些数据中我们应该察觉的细节也会被忽视。

本文翻译自:stop aggregating away the signal in your data

原作者:Zan Armstrong

作为一名5年经验的数据分析师,我对谷歌的员工收入进行了分析和预测。作为一名6年经验的数据可视化专家,我已经帮助客户和同事从他们最了解的数据中发现了新的特性。我发现,在通过对重要信息进行更具体的描述后,我们可以接受数据中的复杂性,发现数据中的新特征。这些特征可以使我们提出更多的问题,实现数据驱动分析工作开展,从而改变我们分析数据的方式、为模型选择的参数、数据科学工作开展的流程或业务开展的策略。

我和我的同事Ian Johnson、Mike Freeman最近合作了一系列关于德克萨斯州和加利福尼亚州用电量的数据驱动故事,对分析时间序列数据的最佳实践进行了说明。我们发现自己在不断地改变对数据进行可视化的方式,以揭示潜在的信息,而不是通过遵循将每小时数据汇总到天、周或月的常规处理方式,将这些信息当作噪声消除了。在我们为时间序列分析推荐的许多最佳实践中,背后是一个更深层次的主题:如何真实地还原数据中复杂且丰富的信息。

聚合是分析时间序列数据的标准最佳实践,但它可能会产生问题,因为它剥离了关键的数据语境,以至于你甚至没有意识到你失去了多少潜在的数据洞察。在本文中,我将首先讨论聚合可能带来的问题,然后介绍聚合的三个具体替代方案,并举例说明聚合前后的数据情况:

由Shan Carter, Zan Armstrong, Mike Freeman和Ian Johnson完成可视化创作。

聚合的问题是什么?

当我们谈到算法和教机器从数据中学习时,我们认为大型、丰富的数据集的是非常重要的。然而,当我们可视化数据以使我们人类能够理解它时,尤其是时间序列数据,我们往往会使对数据进行简化处理。

默认对数据进行聚合是有原因的。原始的大量数据会让人感到难以承受不知如何处理。“大数据”可以轻易拥有1M的数据点,相当于超过一台基本笔记本电脑屏幕上的像素数。有许多可靠的统计方法可以有效对数据进行聚合,从而提供有价值的数据语境(例如与中位数比较)。在有些情况下,我们需要看到数据的更多细节,同时试图找到关键的数据洞察,但一旦我们完成了对数据的分析,知道数据中哪些特征最重要的时候,那么聚合就可以成为一个有用的工具,在分析结论中用数据聚合的结果来表达对数据的洞察。

但每次进行汇总时,你都要做出一个决定:数据的哪些特征重要,哪些是你愿意放弃的:哪些是信号,哪些是噪声。当你对折线图进行平滑处理时,这样做的原因是因为你已经决定了每天的平均值是最重要的,你不关心高峰使用时间的分布或季节变化吗?或者对数据进行平滑的处理的原因是这是你所知道的唯一能让你图表上的锯齿线消失的方法?

在对数据充足了解后的聚合操作可以简化和确定优先级。对数据没有了解的情况下进行数据聚合,意味着你永远不知道你失去了什么洞察。

在我们急于对数据进行聚合的过程中,我们有时会忘记数字是与真实的事物相联系的。人为因素在每小时、每天、每周、每月和每季度中模式过于熟悉因此容易被忘记。又或许是因为我们很少在实践中看到有效的对数据进行分类的案例,以至于我们甚至没有意识到可以这么去做。通过考虑这些季节性模式,这些人为因素,我们可以以更有意义的方式拥抱复杂性。

关于能源消耗问题稍加思考,很明显我们在下午晚些时候比早上消耗更多的能量,所以我们预计每天都会有大的下降和波谷。夏季和冬季的日常能源使用模式是不同的,这也不应该让人感到惊讶。这些模式并不是无意义的,而是理解这些数据的关键。我们特别需要这个数据语境来告诉我们什么是符合预期的,什么是值得注意的。

然而,当我们的数据集每天或每小时都有较大的、有规律的波动时,我们的折线图就会看起来像一堆参差不齐的线条。这张图表显示了8760个数据点,代表了加州一年来每小时的能源使用数据。

处理这张密密麻麻的图表的标准方法是应用日、周或月(定义为四个周)的移动平均线。

现在我们有一个简单的图表,容易看到能源使用量情况最低的在4月,8月下旬是使用量高峰。但这个结论我们同样可以从第一张图表中看出,此外,在这张未经聚合的图表中我们还能解决其他有趣的问题。相反聚合后的图表丢弃了太多的信息,以至于我们甚至不知道我们失去了什么。

这种在4月下降、8月达到峰值的年度模式,在一天中的所有小时都一致吗?随着季节的变化,一天中的某些小时或一周中的某些天会比其他时间变化更大吗?在他们的一年/一天中,有没有什么小时、天或星期是不寻常的?什么是异常值?能源使用在一年中的所有时间都是相同的变化,还是某些星期/季节/小时比其他时间更一致?

尽管开始时数据应该包含这些问题的答案,但聚合后的数据让我们无法回答这些问题。此外,这条平滑的线甚至没有给我们任何提示,告诉我们应该问什么问题,或者什么值得深入研究。

解决方案:通过重新安排、扩充和使用数据本身来提供上下文来接受复杂性。

1 .不要聚合:重新排列

如果我们根据我们对人类行为和环境因素(尤其是温度)的了解来考虑哪些类别可能是重要的呢?比如一天中的时间和一年中的时间?在《发现数据模式》中,我们将数据分组成96个小的、对齐的刻度图,每个季节、每天、每个小时分别画一个刻度图,并围绕最重要的概念组织可视化。每个迷你图表的x轴是用电量,每个刻度代表特定一天的一个小时。

通过这种方式,我们可以立即看到每个小时和每个季度的典型特征或不寻常之处。例如,一般来说冬季午夜比凌晨3点消耗更多的能量。在一栏中,我们可以看到每个季节的一天的形状。并且,通过比较每一栏和下一栏,我们可以看到不同季节每小时的能源需求是如何变化的。

现在,“噪音”变成了有价值的信息。我们可以清楚地回答上述问题:

我们不仅立即注意到一些模式,而且这种对数据的视角也让我们有机会通过对数据更深入的观察来进行挖掘更深层次的信息(并对加州当时发生的事情做一些基础研究)。

让我们仔细看看第三季度的清晨。下午4点到6点之间有一些异常高的数值。通过图表上的交互功能可以得知,这些事件发生在8月19日。在谷歌上快速搜索“加州2020年8月19日”,就会发现该地区当时正在遭受野火的侵袭,所以人们可能会关闭窗户,打开空调,而不是打开窗户来迎接更凉爽的夜间空气。9月6日也出现在最高值之列,一项搜索表明了一个可能的原因:加州创纪录的热浪袭击了全国新闻,而大火仍在燃烧。

总的来说,我们的点状热力图与原始锯齿线的数据点数量相同,但现在我们可以看到潜在的每日和季节模式(以及每日模式如何随季节变化)以及相对的异常值。我们在图表上花的时间越多,我们注意到的就越多,因为它会让我们提出新的数据驱动的问题。

2.先突出重要信息,然后分组或分颜色

引入常识:用熟悉的分类来扩充

在我们探索性分析的另一个点,我们看了一张显示加州52周每小时用电量的图表(如上所示),并注意到高能量周似乎每天晚上都有一个单一的高峰,而低能量周似乎有更多的双高峰(如上所示)。这实际上与第一节重排中揭示的模式相同。

我们猜测,单驼峰/双驼峰可能与气温的季节性差异有关。为了测试这个假设,我们向数据集中添加了一列来指定“夏季”与“冬季”,然后通过分割该参数上的数据来制作两个图表(分组)。突然,事情变得明显起来。我们不再辛苦地去识别隐藏在密集的线条中的信息。

“分组”本身很简单,这是许多绘图工具内置的功能。事后看来,这似乎是一种明显的数据分割方式。但我们多久后退一步,用这些与人们容易识别的概念来扩充我们的数据呢?关键是要有夏季/冬季参数。

不一定要完美。猜测夏季/冬季的日期边界足以看到一个明显的模式出现。一旦我们在这里看到了双凸点/单凸点的洞察,我们就可以使用该洞察返回从而对我们的数据有更深的理解。例如,在“夏天”似乎有一些日常能源消耗为“双凸”的周存在。这些少数周应该被划分为冬季(或秋季或春季)吗?或者它们是夏季的特殊周?此外,既然我们知道了一个数据特征如何被定义,我们可以使用该数据特征对数据进行分类,从而使用这些数据来识别能源使用何时从“夏季”模式转变为“冬季”模式。

增加数据驱动的分类

这张折线图显示了亚特兰大一个家庭从2021年3月到7月的每日能源使用情况。你注意到了什么?大量的峰值?夏季几个月的能源消耗更高?

切换到散点图,可以更明显地看出,有能源使用正常的日子,也有能源使用较高的日子。画一条移动平均线加上一个(5kwh)缓冲区,使“正常”和“高能”天数之间的区分更加清晰,并表明即使夏季能源使用总体增加,“正常”和“高能”天数之间的能源消耗差距仍然保持一定水平。

既然我们的探索性数据分析揭示了两种不同的类别(正常和高能),我们可以通过使用移动平均线来定义属于每个类别的点来扩充我们的原始数据。然后我们可以通过对这些分类中的点赋予不同颜色,以便于分析。

通过这种方式,我们完成了这个分析的闭环:通过使用可视化来注意到数据的一个关键特征,并利用这种洞察力来进一步分类我们的数据,使可视化更容易阅读。在此基础上可以更进一步,继续基于这个分类对我们的数据进行分析,通过创建一个分月的柱状图来区分显示高能量使用的天数和正常使用的天数。通过这种观点,我们可以看到,在夏季,正常日的能源使用量上升了,而且6月和7月的高能量天数比3月和4月更多(即使考虑到时间段内的基准能源使用量也上升了)。因此,我们现在可以有把握地说,总体能源消耗增加的原因有两个:(1)基准能源使用增加,(2)高能量日的比例增加。

这种观察、增强、然后使用分类再次观察的模式也可以揭示我们分类的任何问题,比如在数据的第六天出现的高点被错误标记,因为移动平均线直到第七天才被定义(作为移动平均线)。这给了我们改进分类算法的机会。

虽然这个例子使用了“移动平均+ 5kwh”的非常简单的算法来将天数划分为“正常”或“高能”,但随着我们的算法变得更加不透明,这种“看、增强、看、细化分类”的循环对机器学习变得更加重要。

3.将你的数据分成前景和背景

根据兴趣时间段分割

我们还研究了2021年1月和2月在德克萨斯州不同燃料类型产生的能量的数据包括2月份的一段关键时期,在这段时间里,为了避免一场不同寻常的冬季风暴导致电网崩溃,政府启动了轮流停电。在分析故事中,我的同事Lan对数据进行了分析,为每种燃料类型创建了一个图表。这是相当有效的:你可以立即看到哪些燃料构成了德克萨斯州的主要能源,以及2月中旬的一些异常模式。

Lan知道关键时期大约在2月7日到2月21日,他进一步将注意力集中在这两周,将前后几周的数据进行透明处理,并添加垂直网格线。他可能是想删掉这段时间以外的数据。毕竟,为什么要在感兴趣的时间段以外的数据上浪费图表空间呢?

但正是这些颗粒状的背景数据帮助我们了解每种燃料在关键时期的不同寻常之处。例如,在煤炭能源的图表中,无论如何我们都无法忽视在2月15日后数据的下降情况,但我们需要1月份的数据来注意到2月1日至2月15日之间几乎持平的高原是多么不寻常。同样,1月和2月下旬的核能数据显示,燃料来源通常是稳定的,这有助于我们注意到2月15日之后的下降趋势是有些奇怪的。

通过将每个感兴趣的类别与整个数据集进行比较来拆分

当我们想知道度量A和度量B之间是否存在关系时,第一步是创建散点图。例如,下面的散点图显示了德克萨斯州在一年中每小时的室外温度和能源需求。很明显,温度和能量消耗之间存在很强的关系(尽管这种关系显然也是非线性的!)

虽然温度和电力需求之间明显存在相关性,但很明显,温度并不能说明全部问题。对于任何给定的温度,从最低能量消耗到最高能量消耗大约有10-15K MWh的差异。我们知道,在我们自己家里,在寒冷的下午,我们把空调的温度调得比在寒冷的夜晚高得多,我们猜测,在温度和能源使用之间的关系中,白天的时间可能扮演着关键角色。

向散点图添加额外类别的标准方法是应用一种分类颜色,从而将所有数据内容进行比较(在一个图表中比较所有时间、温度和能源需求)。如果我们这样做,我们确实看到了一些事情发生了。右上方更多的绿色和蓝色,下方更多的粉色。但要理解这些颜色代表什么,你必须在图例和数据之间来回看很多次。此外,我们难以回答这些问题:“上午10点时温度和能量之间的关系是什么?”或者,“早上和晚上相比怎么样?”

为了回答这些问题,我们可以采用两种技术方法:将数据分组,并拆分为前景和背景。

在下面的三个图表中,代表上午5点、上午10点和下午6点的点颜色鲜艳。同时,整个数据集以灰色显示在背景中。这为我们提供了查看每个小时的温度和能量之间关系的方法,并在以整个数据集为背景的情况下查看它。

通过将“早上5点”与“一天中的其他时间”进行具体比较,我们可以看到,不管温度如何,早上5点的能量消耗都相对较低(而且5点的温度永远不会很高)。与此同时,在所有温度下,下午6点的能量消耗通常都更高。

在某些方面,上午10点是最有趣的:在较低的温度下(在图的左半部分),黄点与灰点相比相对较高,表明在相同的温度下,相对于一天中的其他时间,能量消耗较高。与此同时,对于图表右半部分的高温,黄色的圆点包围了灰色区域的底部。在炎热的气温下,上午10点消耗的能量相对较少。这种洞察力不仅可以通过分组实现,还可以通过使用完整的“噪声”数据集作为一致的背景,为所有分类图表提供上下文。

总结:接受数据的复杂性

在创建时间序列数据分析项目的过程中,Lan Johnson, Mike Freeman和我采用了一系列的策略来接受数据的复杂性,而不是依赖于标准的方法来收集数据。那些令人沮丧的锯齿线是数据要反馈的讯息,而不是噪音。

我们通过以下方式拥抱复杂性:

这些方法对于时间序列数据尤其有效,因为潜在的每日、每周和季节性模式可能会让人无法集中注意力去进行分析。特别是考虑这些策略,如何通过将传入数据放在更丰富的历史环境中进行快速可视化模式匹配来增强实时数据分析,以识别正常模式和异常模式与此同时,这些基础技术也适用于任何可能让人感觉难以承受和嘈杂的数据,如机器学习分类或来自高通量科学实验的数据。

在了解了这些技术的应用之后,也许下次为了简化数据而聚合数据时,您可能会尝试重新排列、扩充或将数据分割为前景/背景。从完整的数据内容中去进行分析,以揭示意料之外的模式并提示新的数据驱动问题。改变看待数据的方式我们可以真正的去接受数据的复杂性。

展开阅读全文

页面更新:2024-03-10

标签:德克萨斯州   数据   图表   夏季   消耗   能量   温度   能源   关键   模式   时间   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top