SOMPT22:一个面向监控的多行人跟踪数据集

论文收录于ECCV2022

论文题目:

SOMPT22: A Surveillance Oriented Multi-Pedestrian Tracking Dataset

论文地址:

https://arxiv.org/abs/2208.02580

摘要

近十年来,由于卷积神经网络(CNNs)在检测方面的成功,多目标跟踪(MOT)一直被使用基于检测的跟踪方法所主导,随着数据集和基准的发布,研究方向已经转向在包括跟踪对象的重新识别(reID)在内的通用场景中获得最佳精度,在本研究中,我们通过提供行人专用数据集,缩小了MOT的监视范围,并专注于深入分析性能良好的多目标跟踪器,以观察最先进(SOTA)技术在现实应用中的优缺点。

为此,我们引入了SOMPT22数据集;一套用于多人跟踪的新装置,配有注释的短视频,拍摄自安装在6-8米高的杆子上的静态摄像机,用于城市监控,与公共MOT数据集相比,这为户外监测提供了更集中和具体的MOT基准,在这个新数据集上,我们分析了MOT跟踪器分类为一次性和两级检测和reID网络的使用方式,我们的新数据集的实验结果表明,SOTA距离高效率还很远,单次跟踪器是统一快速执行和准确性与竞争性能的良好候选。

1介绍

多目标跟踪(MOT)是一种流行的计算机视觉问题,它关注于跟踪目标并提取其在不同场景下的轨迹,然后用于各种目的,MOT的用例可以是多种多样的,包括但不限于自动驾驶汽车、视频监控、导弹系统和体育运动,MOT的输出可以预测物体的下一个位置,提取一些关于场景和物体行为的统计数据,检测是MOT中识别目标和确定轨迹目的的第一步,也许也是最关键的一步,有不同定义明确的对象类型,如行人、人脸、车辆、动物、飞机、血细胞、星星或任何因背景运动而产生的变化,这些都需要在多个场景中进行跟踪。

在现实世界中,由于环境条件、物体的物理特性/运动或拥挤性,被监控的物体可以在一定时间内改变能见度,可见性的变化以及多个对象的存在产生遮挡、对象/背景相似性、实例之间的交互,这些效应与光照变化等环境因素相结合,为MOT文献在检测和跟踪阶段带来了共同的挑战和困难。

近年来,针对上述问题,通过cnn提出了各种算法和方法,随着2014年第一届MOT挑战的出现,对MOT的研究也越来越受欢迎,该挑战包含带注释的视频,通过移动或静态摄像机捕捉连续帧之间的对象(行人)边界框。

在MOT挑战中,数据种类繁多,包括在移动车辆上捕捉到的视距视频、高层移动或不同高度的固定监控摄像头,数据的这种变化限制了对最先进(SOTA)技术能力的理解,如前所述,摄像机的位置和场景对象的类型会改变场景,这些挑战要求MOT方法具有通用性,能够在不同条件下跟踪车辆或行人,但是,MOT技术以及任何其他技术都应该针对每个场景进行优化,以获得最大的效率和更低的虚报率,以用于真实世界的使用。

在本文中,我们重点研究了为监视6-8米高度的行人而放置的静态和单摄像头的MOT挑战,通过这种方式,我们创建了一个新的数据集,并分析该数据集中的知名MOT算法,以了解SOTA用于监视的性能。

该方法有望在有限范围内进一步分析半拥挤场景的运动行为和物体变化,从而优化MOT算法,公共MOT数据集通过增加帧密度来挑战MOT算法的检测和跟踪性能,另一方面,我们尝试挑战MOT算法的长期跟踪,保持序列更长,轨迹更少,本文在接下来的部分中继续讨论相关工作,总结了近期流行的MOT方法和数据集,第3节专门描述MOT问题从监控的角度,讨论挑战和用例,第4节介绍了新引入的数据集的细节以及所使用的评估方法,该方法清楚地分析了检测和跟踪步骤,第5节展示了在提议的数据集中评估已知MOT方法性能的实验结果,第6部分总结了MOT技术的优点和缺点以及未来的评论。

2相关工作

在大多数视觉系统中,使连续帧之间的物体相互关联是一个常见的问题,这种时间关系为场景中的每个个体提供了一个ID,用于扩展关于对象的属性和行为的附加信息和场景统计信息,通过这种方式,为对象分配ID并正确跟踪它是收集关于场景的高级推断的第一步,在本节中,我们总结了为MOT提出的方法(在行人跟踪范围内)和在现代cnn的训练和相对高性能中发挥关键作用的数据集。

2.1 MOT方法

MOT技术包括两个主要阶段:检测和关联,也就是跟踪,检测通过指示场景中对象类型的存在来确定跟踪的主要目的,一旦检测到对象,下一步就是对象的关联,在整个MOT文献中,使用了各种检测方法,包括移动对象检测,blob检测,特征检测,预定义对象检测,直到过去十年,手工制作的功能和规则都被用来检测场景中的物体,借助大量标注对象和计算能力,cnn已经主导了智能对象检测,为机器学习提供了广阔的应用领域。

一旦在一帧中检测到对象,就可以通过两种不同的方法提供沿着连续帧的关联:为每个对象分配单个对象跟踪或优化一个全局代价函数,该函数将在两帧中检测到的所有对象关联起来,第一种方法通过定义边界框、前景掩码或稀疏特征来利用被检测对象的表示。

然后,在由物体运动特征定义的搜索区域内沿着下一帧搜索这些表示,在这些类型的方法中,不需要对每一帧进行对象检测;相反,它以较低的频率执行,用新的观测数据更新轨迹,特征匹配、卡尔曼滤波、基于相关性的匹配是跟踪连续帧之间表示的主要工具。

第二种类型的跟踪利用对每一帧的检测,并基于由位置、形状、外观等约束定义的相似性将对象关联起来,联合概率数据关联滤波器(JPDAF)和匈牙利算法是沿着连续帧提供一对一匹配的最广泛使用的方法,这样,每帧独立提取的对象根据相似度标准进行匹配,随着cnn的改进,reID网络也被用来在连续帧的物体上产生健壮的相似性。

MOT文献最近关注第二种方法,即检测跟踪,其中利用cnn检测每帧中的对象,并使用不同的方法提取对象相似性,这些方法被输入到一个矩阵中,矩阵表示包括行和列中的对象,一边用于跟踪对象,另一边用于新来者,匈牙利算法在相似度矩阵上进行运算,得到了一对一的最优匹配,方法多根据矩阵的相似度公式进行区分,而对应搜索多采用匈牙利算法实现,TransTrack, TrackFormer和motr都尝试使用注意力机制来跟踪电影中的物体,目前的重点是在视觉任务中使用transformers,在这些工作中,跨帧关联相同对象的查询使用先前的tracklet的特征传输到下面的帧,为了保持tracklet的一致性,查询中的外观信息也很重要。

2.2数据集

具有真实注释的数据集对于目标检测和reID网络非常重要,这构成了现代MOT技术的基本步骤,通过这种方式,我们简要总结了本研究范围内现有的人员检测和多目标跟踪数据集,在这两个集合中,都使用边界框来定义具有指示对象类型(如脸、人或车辆)的标签的对象,另一方面,目标检测数据集与多目标跟踪数据集之间存在着明显的差异,首先,目标检测数据集中相邻帧之间不存在时间和空间关系,其次,在对象检测数据集中,对象没有唯一的识别号,这些差异使得创建多对象跟踪数据集比创建对象检测数据集更具挑战性。

行人检测数据集的广泛使用可以追溯到2005年的INRIA数据集,然后,在2009年出现两个更多的数据集,为探测社区服务TudBrussels和DAIMLER,这三个数据集增加了检测问题的结构化进展,然而,随着算法性能的提高,这些数据集被更多样化和更密集的数据集所取代,例如Caltech和KITTI,CityPersons和EuroCityPersons数据集在不同的国家、城市、气候和天气条件下脱颖而出,尽管这些数据集很流行,但它们都存在低密度问题(每帧人);不超过7个,人群场景的表现明显不足。

CrowdHuman和WiderPerson数据集解决了这一缺陷,并将密度增加到22,最近,Panda数据集已经发布,这是一个非常高分辨率(25k x 15k)的面向人类的检测和跟踪数据集,其中相对物体尺寸非常小,与全图像相比,该数据集通过强大的处理器合并多个高分辨率图像,专注于非常广角的监视,另一个常见的监视数据集是Visdrone,它包括11种不同的对象类型,以区分人类和各种车辆,该数据集由无人机捕获,视点远高于监视,平台在移动,观察鸟瞰视图,具有各种统计信息的数据集的摘要如表1所示。

多目标跟踪数据集 有一个多目标跟踪数据集的语料库,涉及行人的不同场景,在自动驾驶方面,开创性的MOT基准测试是KITTI,它以边界框的形式为目标检测和跟踪提供了标签,以视觉监视为中心的数据集集中在密集的场景中,在这些场景中人们相互作用,并且经常遮挡彼此和其他物体。

PETS是该应用领域的首批数据集之一,MOTChallenge在多目标跟踪方法的基准测试中发挥了核心作用,这个挑战提供了一致标记的拥挤跟踪序列,MOT20通过增加帧密度来提高挑战的复杂性,MOT20引入了大量的边界框;然而,场景是过度拥挤和运动方向是各种各样的对应真实的监视场景包括广场和十字路口。最近发布的BDD100K数据集涵盖了在无约束场景下不同环境、天气和地理环境下的超过100K个视频,此外,CUHKSYSU、PRW、PathTrack和DanceTrack数据集还可用于多种多样的多目标跟踪,这些数据集在静态/移动相机方面是不同的;视距、高视角、低/高分辨率如表2所示。

3问题描述

如表2所示,由于汽车技术的进步,现有的基准大多解决自动驾驶视角(眼位捕获)内的MOT问题,另一方面,监控是视频分析的基本应用之一,为城市设施安全、执法和智慧城市应用服务,与大多数户外监控应用一样,摄像机位于较高的位置,以覆盖大片区域进行观察和分析,与MOT中提供的普通数据集相比,固定式高视距相机包含不同的内容特征,包括严重的射影几何效果、更大的覆盖面积和更长但更慢的物体运动,因此,缩小MOT的范围,对现有的监测方法进行分析优化是有益的。

考虑在范围限制期间要跟踪的对象类型也很重要,在监控中,现场下主要有行人和车辆两种对象类型,行人具有不可预测的运动模式,与其他个体以不同的方式相互作用,产生各种遮挡类型,同时由于结构显示出二维对象特征,另一方面,车辆通过可预测的(恒速-恒加速)运动模型在预定义的道路上行驶得更快,通过交通强制规定的某些规则干扰其他车辆,并由于所有3个维度的厚度而遭受物体视点的变化,这样一来,行人和车辆的运动模式和物体视点的变化之间就有了显著的差异,这些差异对识别特征和跟踪约束都有影响,这是绝对需要仔细关注的,这是主要原因,挑战根据对象类型而不同。

由于广域覆盖和高视距摄像头的位置,行人的视点发生了显著的变化,远处的物体可以被正面观察到,而较近的物体可以通过相机获得高倾斜角度,此外,物体缓慢的相对运动在场景中产生了更长的轨迹,这就要求跟踪在长时间的各种视图变化中保持健壮,在这种类型的场景捕获中,物体的尺寸在图像分辨率方面变得更小,基于外观的诱惑(类人结构,如树干、杆、座位等)的数量增加,而视频涉及的运动比眼睛水平的场景捕获更少。

因此,目标检测变得更加困难,需要特别注意异常值以及长轨迹的外观变化,此外,一致的相机定位使三维几何线索在射影成像方面的使用成为可能,其中可以利用几个假设,例如,在平面场景中,靠近相机的物体是遮挡器,除了检测方面的挑战外,特别是对较长时间物体运动的观测为跟踪带来了新的问题,主要是由于物体运动或遮挡引起的地板照明和物体视点的变化。

从监控的角度约束MOT问题,我们提出了一个新的注解数据集,并尝试诊断最先进的MOT算法对行人的能力,如前所述,MOT通过两个步骤实现,检测和跟踪,我们也基于最近流行的技术对这两个步骤进行评估,SOTA一次性目标探测器可分为两种:基于锚的,如Yolov3和无锚的,如CenterNet,当我们分析MOTChallenge基准测试中的20个性能最好的MOT算法时,我们发现这些算法都是基于CenterNet/FairMOT或Yolo算法,因此,我们决定围绕这些基本算法建立实验,以评估SOMPT22数据集中检测和跟踪的成功程度,FairMOT和CenterTrack是两个基于CenterNet算法的一次性多目标跟踪器。

FairMOT在主干上添加了一个reID头来提取行人特征,CenterTrack增加了一个位移头来预测人的下一个中心位置,最常见的两种关联方法是SORT和DeepSORT,SORT算法使用IOU(交集over并集)和卡尔曼滤波作为检测与跟踪关联的判据,DeepSORT结合了被检测候选对象的深度特征,将检测与跟踪联系起来,三个一次性多目标跟踪器(CenterTrack、FairMOT和Yolov5 & SORT)和一个两级多目标跟踪器(Yolov5 & DeepSORT)进行了训练,以基准跟踪性能。

4 SOMPT22 数据集

4.1数据集构建

视频收集 为了获得用于MOT评估的监控视频,在全球范围内选择7/24静态摄像机公开流媒体,位于6-8米高的杆子上,一些被选中的国家是意大利、西班牙、台湾、美国和罗马尼亚,这些摄像头主要观察广场和十字路口,那里的行人有多个移动方向,在一天的不同时间录制大约一分钟的视频,以产生各种环境条件,总共收集了14个视频,默认使用9个视频作为训练集,5个视频作为测试集,值得注意的是,行人的面部被模糊化,以一种不显著影响行人检测和reID特征的方式匿名,我们进行了有和没有人脸模糊的目标检测测试,没有观察到基础算法有任何差异。

标注 Intel的开源注释工具CVAT用于注释收集到的视频,注释是通过首先应用一个预先训练的模型来实现的,该模型具有粗略的检测和跟踪标签,然后由人工注释人员对其进行微调,标注的标签包括边界框和标识符(唯一的跟踪ID)的每个人在MOTChallenge格式,文件格式是CSV文本文件,每行包含一个对象的实例,每一行包含的信息包括frameID、trackID、左上角、宽度和高度,为了使轨迹连续性,部分和完全遮挡的对象也被注释,只要他们再次出现在视频中,用超出屏幕尺寸的尺寸标注的边框将被修剪以保持在图像内,边界框也包括被遮挡的人的部分。

4.2数据集统计

表2列出了现有数据集和拟议数据集的一些重要统计数据,SOMPT22每帧行人密度为37人,介于MOT17和MOT20之间,就MOTChallenge数据集的人数而言,MOT20是一个巨大的进步,这是目前密度最大的数据集,另一方面,MOT17和MOT20主要不是面向监视的数据集,而是在检测和遮挡方面挑战算法,特别是在MOT20中,人们在拥挤的活动中或在地铁站下车时录制视频,在这些视频中,行人的运动模式是不变的;每个视频都包含一个主要方向,不同的方向要少得多,这不是监控摄像头里的人的自然动作模式,相反,在SOMPT22数据集中,人们在几乎每个方向的城市广场上更自发地行动,图1显示了MOT17、MOT20和建议数据集的统计基准测试。

虽然与MOT17和MOT20相比,SOMPT22拥有更多的图像,但轨迹数最少,这表明,与SOMPT22相比,MOT17和MOT20的tracklet和序列更短,轨迹是由图像识别系统构建的运动物体所跟随的轨迹的一部分,这是一个预期的结果,监视摄像头覆盖更大能够对每个人进行更长时间观察的视野,SOMPT22提供了MOT数据集所缺乏的高视图数据集,通过这种方式,SOMPT22数据集在长期检测、识别和跟踪算法方面提出了挑战,这些算法需要对行人的尺度和视点的变化进行健壮的适应,我们在SOMPT22训练序列上训练了一个具有中等模型骨干的YoloV5,得到了如表8所示的检测结果,单个序列上的检测边界框和注释统计的详细分解如表3所示。


多目标跟踪社区长期使用MOTA作为主要的基准,该方法结合了三个错误来源:假阳性、遗漏目标和身份切换,然而,最近的结果表明,这个度量过于重视检测而不是关联质量,而关联质量过多地依赖于检测质量,高阶跟踪精度(HOTA)被提出来纠正这一历史偏差,HOTA是检测精度和关联精度的几何平均值,通过定位阈值的平均值,在我们的基准测试中,我们使用HOTA作为主要性能指标。我们还使用AssA和IDF1评分来衡量,AssA是Jaccard关联指数在所有匹配检测上的平均值,然后在定位阈值上的平均值。IDF1是正确识别的检测与真实检测和计算检测的平均数量的比值,我们使用DetA和MOTA来检测质量,DetA是在定位阈值之上平均的检测Jaccard指数。

在本文中,我们提出了一个新的多行人跟踪数据集,称为SOMPT22,此数据集包含由公共流媒体城市摄像机捕获的监控视频序列,研究的动机是揭示现有数据集的偏差,这些数据集往往是在自动驾驶系统的视距上捕捉到的,也可能是在高视距和拥挤场景中捕捉到的,我们相信,在受良好约束的监控场景下,分析人们日常生活中复杂的运动模式的能力对于构建更健壮和智能的跟踪器是必要的,SOMPT22提供了这样一个平台,以鼓励今后在这方面的工作,本地化的阈值,ID switch是标识切换的数量(ID switch ratio = #ID Switches / recall),算法的复杂度是根据处理成本(fps)来衡量的,只包括跟踪步骤,fps值可能由非标准硬件配置的作者提供,也可能不提供,MOTChallenge在评估过程中没有正式考虑算法报告的帧数。

5实验

5.1实验设置

表4描述了对象检测器、多对象跟踪器和关联算法的实验配置,从表1可以看出,CrowdHuman是一个近期的人检测数据集,图像的体积和密度都很大,CenterTrack是由我们在CrowdHuman数据集上预先训练的,FairMOT和YoloV5已经被各自的作者预先训练过了。

在此数据集上预训练的模型参数被用来初始化检测器和跟踪器,然后,我们分别通过240、90和90 epoch对提议的SOMPT22训练数据集上的CenterTrack、FairMOT和YoloV5进行微调(迁移学习),为了公平起见,我们在训练和推断阶段保持所有检测器和跟踪器的网络输入分辨率固定,我们遵循了检测器和跟踪器各自源代码中给出的训练协议,因此,每个对象检测器和跟踪器都有自己的预处理技术、数据增强程序、超参数调优过程以及公认的数据集注释格式。

YoloV5的yolo, FairMOT的MOTChallenge和CenterTrack的COCO,DeepSORT算法有基于CNN的特征提取模块,该模块在Market1501公共reID数据集上进行了预先训练,所有算法都是用Python在PyTorch框架上实现和执行的,其中一些算法是由相应的作者提供的,推理实验在Intel i7-8700k CPU PC上进行,使用Nvidia GTX1080ti (11GB) GPU。

检测跟踪技术是对每一帧进行独立的检测,我们使用卡尔曼滤波和边界盒交与并集作为所有跟踪器的初始阶段,使检测结果沿连续帧关联,实验跟踪器的进一步细节见表5,YoloV5目标检测器与DeepSORT算法协作构建了一个两级多目标跟踪器,YoloV5 & SORT、CenterTrack和FairMOT算法是三种一次性跟踪器,只有一个主干来从对象中提取深层特征,YoloV5和SORT算法级联形成的多目标跟踪器,由于关联完全在CPU上进行,因此被归类为一次性跟踪器,这三个多目标跟踪器以端到端方式进行训练,DeepSORT关联算法和FairMOT受益于reID特性,而CenterTrack和SORT在没有reID特性的情况下只完成关联任务,CenterTrack利用检测框架内的一个额外的头,提供位移预测。

5.2基准测试结果

在本节中,我们将根据HOTA和CLEAR指标和推断速度,比较和对比上述四种跟踪器的性能,如表6所示,我们可以观察到CenterTrack的检测性能(DetA)优于FairMOT,这可能是由于位移头提高了人的定位,另一方面,在reID头的帮助下,FairMOT的关联性能(AssA)优于CenterTrack, reID头为关联过程添加了强大的线索,与FairMOT相比,CenterTrack需要更少的计算源,从DetA和AssA的几何平均值HOTA评分来看,YoloV5和SORT变体的组合效果明显优于其他技术,该结果的关键作用在于检测精度,其中YoloV5至少提高了10%的检测精度。

DeepSORT和SORT方法在具有一定预期偏差的情况下彼此执行相似的操作,DeepSORT在SORT的基础上增加了基于reID的对象补丁匹配,减少了80%的ID切换,同时增加了x2.5的计算复杂度,然而,reID表示的使用在关联精度(AssA)上引入了一些下降,这可能是由于长轨迹显著改变了外观,YoloV5是一个基于锚点的对象检测器,与使用无锚方法(如CenterTrack和FairMOT)相比,锚组合的精细选择似乎能在监控摄像机上带来更好的检测性能,这揭示了在逐检跟踪范式(MOT文献中最常见的方法)中检测的重要性。

在相机视角方面,MOT20是文献中与SOMPT22最相似的公共数据集,因此,我们重复同样的实验来观察SOMPT22对MOT算法的贡献,表7给出了MOT算法在mo20列车集中的基准,比较结果与表6中给出的结果相似,其中YoloV5和(Deep)SORT方法表现更好,同样明显的是,我们提出的数据集SOMPT22中的迁移学习提高了性能。

如前所述,基于SORT的关联器和基于锚点的对象检测器YoloV5的组合比一次性MOT算法的性能更好,此外,检测性能对整体跟踪至关重要,为了观察SOMPT22数据集对单独对象检测性能的贡献,我们在使用相同数据集进行微调后,对SOMPT22测试集上的YoloV5对象检测器进行了评估,检测分数如表9所示,计算精度和召回率分别为0.89和0.68,说明在监视场景下的检测仍有改进空间,监视的问题是视野太广,导致难以发现的小物体,我们提供这些公共检测作为跟踪挑战的基线,以便跟踪器可以进行训练和测试。


图2显示了YoloV5 & SORT方法在SOMPT22数据集上的一些成功和失败案例,其中绿色表示成功检测和跟踪,红色表示成功检测和跟踪,在行人被遮挡或行人一样的建筑物暴露的杂乱区域,探测器失灵,另一方面,追踪器失灵,探测器故障导致ID切换,轨迹破碎,失去长期跟踪,在该数据集上的实验结果表明,SOTA仍然不是很有效,另一方面,检测在整体跟踪性能中起着关键作用,因此,用支持对象关联的附加属性和表示来丰富检测器似乎是一种较低计算复杂度和较高性能的备选方案,两阶段方法的性能明显更好,并提供了改进的空间,例如它们速度快,支持数量较少的ID切换,且关联更精确。

6 结论与未来工作

在本文中,我们提出了一个新的多行人跟踪数据集:SOMPT22,此数据集包含由公共流媒体城市摄像机捕获的监控视频序列,研究的动机是揭示现有数据集的偏差,这些数据集往往是在自动驾驶系统的视距上捕捉到的,也可能是在高视距和拥挤场景中捕捉到的,我们相信,在受良好约束的监控场景下,分析人们日常生活中复杂的运动模式的能力对于构建更健壮和智能的跟踪器是必要的。

SOMPT22提供了这样一个平台,以鼓励今后在这方面的工作,SOMPT22中四种最常见的跟踪方法的基准测试表明,多目标跟踪问题还远远没有得到最多48% HOTA评分的解决,需要在特定场景中使用启发式方法之前进行基本修改。

FairMOT和CenterTrack多目标跟踪器在跟踪任务的检测和关联部分表现出互补的性能,另一方面,YoloV5和基于SORT的跟踪器的改进检测效果优于联合跟踪器,此外,与DeepSORT相比,除了ID切换外,SORT提供了更高的跟踪分数,这表明检测是更好的跟踪的关键,reID特性需要特别注意在SORT框架中合并。

展开阅读全文

页面更新:2024-03-31

标签:行人   数据   基准   物体   算法   场景   对象   性能   目标   方法

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top