37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

机器之心专栏

作者:赵亮

事件是基于特定地点、时间和语义发生的对我们的社会或自然环境产生重大影响的事情,例如地震、内乱、系统故障、流行病和犯罪。能够提前预测此类事件的发生以减少潜在的损害是非常重要的。虽然事件预测传统上极具挑战性,但它现在正成为大数据时代的一种可行选择并正在经历快速增长。当然,这也归功于高性能计算机和人工智能技术的进步。最近来自艾默里大学的教授赵亮博士首次对该领域进行了全面的综述和数据代码资源整理。该工作全面总结了事件预测的问题定义,方法,应用,测评,数据,以及未来发展方向。该工作刚刚发表在计算机综述顶刊 ACM Computing Surveys 上。

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

我们世界中的事件无处不在,大到疾病爆发和地震,中到系统故障和犯罪,小到网络行为和化学反应。事件的分析在不同的领域中已经有重要应用,诸如医疗保健、商业、网络领域、政治和娱乐,几乎影响着生活的每一个角落。因此,事件分析在过去几年引起了极大的关注,可以分为事件总结、检测和预测。其中总结和检测为回顾性分析,与它们不同,本综述专注的事件预测侧重于预测未来的事件。对未来事件的准确预测使人们能够最大限度地减少与未来某些事件相关的损失,可能为社会的诸多方面如疾病预防、灾害管理、商业智能和经济稳定性带来不可估量的收益。

事件预测历来在不同领域都极具挑战性,因为我们对大多数领域的事件发生的真正原因和驱动机制的了解一般并不完整。然而,大数据时代、高性能计算、以及人工智能技术的进步对上述挑战的解决提供了前所未有的机会。通过基于数据驱动的方式,比如例如机器学习、数据挖掘、模式识别、统计和其他计算模型,我们有了更多的机会弥补上述不足,甚至能够有机会帮助发现事件发生的动因和发展规律。该领域目前正经历高速发展,以期解决诸多事件预测领域独特的挑战:

近年来,大量研究致力于事件预测技术的开发和应用,以解决上述挑战。当前,事件预测技术整体上仍处于起步阶段,但事件预测的研究和应用已出现在非常广泛的众多领域中。现存最多的事件预测方法是为特定的应用领域设计的,然而不同领域中事件预测技术其实有很多共性和联系。不同的应用领域方法的相互参考和讨论目前仍然大量的缺失,然而这样的跨领域思考对于事件预测领域的技术进步极为重要。此外,事件预测结果的质量评估也缺乏统一标准。因此该领域需要系统性综述以确定其规范、技术分类、前沿问题、以及尚需解决的问题。本综述的发表正式为了满足上述需求,主要有以下几方面贡献:

这篇综述对事件预测的问题及方法归类如下:其首先按不同输出进行分类,分为时间预测,地点预测,主题预测,以及多输出预测。每个类别根据输出的数据形式进一步分类并给出相应的预测技术。

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

图 1:文章提出的对事件预测技术分类方法。

下面将简要介绍综述的核心内容框架,详情请参阅原论文。

事件预测问题定义

我们可将事件定义为一个元组

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

,其中元素分别表示未来事件的时间

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

,地点

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

和主题

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

。这里

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

分别表示时间域、地点域和主题域。注意这里的域具有很广泛的意义,比如地点可以是任何可以确定表示事件位置的量,它可以是欧氏空间的坐标,区域,也可以是流形空间或者是网络空间等的位置表示。类似的,主题域

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

可以包含任何描述事件的语义特征比如事件发起者、接受者、事件类别、规模等。事件预测要求输入的观测量

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

具有能够暗示未来事件的信息。其中是时间和地点之外的特征域。基于以上定义,事件预测问题可以表述如下:


给定观测量

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

以及历史事件数据

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

,事件预测是一个预估未来事件

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

的过程,这里

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

是预测出的未来事件的集合。 

事件预测精度的评估方法

不同于普通的监督学习预测的精度评估,由于事件数据本身的复杂结构,事件预测精度评估分为两个步骤,即 1)预测事件和真实事件的匹配。2)基于事件匹配结果的准确度指标计算。

1)预测事件和真实事件的匹配。目前有两种匹配方式,我们把它们命名为固定匹配以及优化匹配。在固定匹配中,时间域、地点域和主题域首先都会被栅格化,栅格空间中值为 “1” 的点代表有时间,否则为无事件。而后依此方法处理预测事件和真实事件。若预测结果中某个点的数值和真实值相同即为准确预测,反之为错误预测。虽然上述方式简单易懂,但是栅格化时间域、地点域和主题域一般会产生精度损失和误差。另外很多预测事件和真实事件没有办法做到完全匹配。比如假设我们有两个预测事件 Prediction 1: (“9am, June 4, 2019,” “Nogales, Sonora, Mexico,” “Worker Strike”), and Prediction 2: (“11am, June 1, 2019,” “Hermosillo, Sonora, Mexico,” “Student Protests”)和两个真实事件 Real Event 1: (“9am, June 1, 2019,” “Hermosillo, Sonora, Mexico,” “Teacher Protests”), and Real Event 2: (“June 4, 2019,” “Navojoa, Sonora, Mexico,” “General-population Protest”)。很容易看到所有的预测事件没有做到完全匹配任何一个真实事件,但是部分匹配在实际问题中更为常见且有重大意义。预测事件和真实事件的部分匹配问题是一个典型的组合优化问题。如下图 2 中左图所示,因为其复杂度为

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

,很难直接解决。因此一些合理的约束和先验被用来加以利用简化匹配难度,比如图 2 的中图和右图所示的二分匹配以及非交叉匹配。

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

图 2 预测事件和真实事件的匹配.

2)基于事件匹配结果的精度指标计算。得到事件匹配的结果后,精度指标计算集中在两方面:一方面是成功匹配的 “预测 - 真实” 事件对的数量。另一方面是成功匹配的 “预测 - 真实” 事件对的平均质量。前者一般使用精度(precision),查全率(recall)等常用指标衡量。后者主要计算每一对预测事件和真实事件的距离(或相似性程度)。距离的计算指标主要取决于具体的数据形式,比如位置预测可利用空间距离,主题预测可利用自然语言处理领域的方式比如编辑距离,BLEU score,Top-K 精度等。

事件预测技术的分类简介

本节简略介绍用于每个类别的分类法和代表性技术,以及它们的子类别。由于预测输出的异质性,技术类型取决于要预测的输出类型,例如时间、位置和语义。如图 1 所示,所有的事件预测方法根据其目标进行分类,包括时间、位置、语义、以及这三者的各种组合。

1. 未来事件时间预测

事件时间预测侧重于预测未来事件何时发生。根据他们的时间分辨度,时间预测方法可以分为三类:(1)事件发生:关于事件在未来时间段内是否发生的二元值预测;(2) 离散时间预测:事件将在未来的哪个时间段发生;(3) 连续时间预测:未来事件将在哪个精确时间点发生。

2. 未来事件地点预测

事件地点预测侧重于预测未来事件在特定(欧式或非欧)空间中的位置。地点信息 可以表述为以下两种类型之一:(1) 基于栅格。这里会将连续空间划分成单元格网格,每个单元格代表一个空间区域。这个类型表示适用于事件的空间大小不可忽略的情况。(2) 基于矢量。在这种情况下,每个位置都由一个无限小的抽象点表示 大小。这种表示方式最适合的情况包括事件的空间大小可以忽略不计或者事件的位置区域只能在离散空间,如网络节点等。

3. 未来事件语义预测。

事件语义预测主要解决时间和地点之外的信息预测,包括事件主题、描述或其他元属性。与时间和位置预测不同,事件语义预测中的数据通常涉及符号和自然语言。根据对历史数据的组织和利用方式可将方法分为三类。第一个为基于关联规则的方法,其中未来事件前兆是通过挖掘历史数据中的关联或逻辑模式来提取的。第二种是基于序列的,即通过时间事件的演化趋势链条来预测未来事件。第三种类型将事件链进一步泛化为事件图,一些工作尝试通过因果推断的方法。

4. 未来事件的多属性预测

很多方法不单独预测事件时间、位置、或语义,而是同时预测他们。现有的工作主要可以分为三类:(1)同时的时间和语义预测;(2) 同时的时间和地点预测;(3) 同时的时间、地点和语义预测。

基于群体智慧的方法可以进一步按人工智能体的群体智慧以及人类的群体智慧划分。基于人工智能的群体智慧主要指模型集成(model ensemble)方法和系统。最直观的方式是利用诸如多数投票法整合多个上文中提到的预测器的预测结果。一些现有的系统经常强化各单独预测器的准确率(precision),弱化召回率(recall)因而在他们融合时同时实现高准确率和召回率。基于人类群体智慧的方法主要利用众包(crowdsourcing)技术来融合人类对未来事件作出的预测。例如当前一些基于推荐系统的方案可以针对所需预测的事件类型挑选具有合适技能的人类团队,以最大限度地提高其融合的准确性预测。

还有一类方法侧重于检测已经计划好的未来事件。这类信息广泛存在于各种媒体,例如社交媒体和新闻。通常我们依靠 自然语言处理技术和语言学原理能够有效找到这样的信息。之后对其进行解析,实现对未来事件的画像。

事件预测的应用领域及数据

事件预测的技术已经在各个领域得到广泛的应用,分布在社会科学、健康、工程、自然科学、互联网等等。本文对它们做了全面的调研,请阅读原文了解详细内容。下表列举了其中有代表性的应用以及标准数据集。

数据集地址:https://cs.emory.edu/~lzhao41/projects/event_prediction_site/

37页pdf,埃默里大学大数据时代事件预测综述,ACM顶级期刊上发表

当前挑战及未来展望

尽管近年来事件预测取得了重大进展,并且取得了广泛的应用,但整理来说事件预测仍是一个处于起步阶段的领域,因为它本身极大的挑战性以及现存的许多开放的科研问题。本文主要列举一下几个方面,详细解释请查阅原文。

  1. 事件预测模型的透明性以及预测的可解释行和可问责性。
  2. 对于噪声和对抗性数据的敏感性。
  3. 深度融合先验知识、机理模型和数据拟合技术。
  4. 规范性分析及反事实分析的重要性。
  5. 多目标训练的重要性。
展开阅读全文

页面更新:2024-03-14

标签:栅格   事件   数据   语义   序列   模型   地点   期刊   位置   领域   发生   未来   时间   方法   时代   大学   技术   空间

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top