鲁棒多模态行人重识别

AAAI Conference on Artifificial Intelligence, 2021,论文来自李成龙团队,关注夜视目标检测和多模态的可以关注他们

论文题目:

Robust Multi-Modality Person Re-identification

摘要

为了避免可见人再识别(Re-ID)中的光照限制和交叉模态Re-ID中的异构问题,我们提出利用包括可见光(RGB)、近红外(NI)和热红外(TI)在内的多种模态的互补优势来实现鲁棒性的人再识别。设计了一种新的渐进式融合网络,以学习从单一到多个模式以及从局部到全局视图的有效多模态特征,我们的方法在各种具有挑战性的情况下工作良好,即使存在缺失模式。此外,我们提供了一个全面的基准数据集RGBNT201,包括从各种挑战条件下捕获的201个身份,以促进RGB-NI-TI多模态人重新识别的研究,在RGBNT201数据集上进行的综合实验,与目前最先进的方法进行了比较,证明了多模态人重新识别的贡献和所提方法的有效性,为多模态人重新识别提供了新的基准和基线。

介绍

在过去的十年里,重新识别(Re-ID)技术呈指数级增长,然而,在完全黑暗和浓雾等不利的光照和天气条件下,单一可见模态的初步努力面临着严峻的挑战,这限制了其在全天和全天候监控中的应用,例如,如图1 (a)和(b)所示,在恶劣的光照条件下,RGB图像几乎是无效的,基于RGB的人Re-ID的性能将受到限制。

为了克服可见传感器的成像限制,Wu等人(2017)提出了用于跨模态人Re-ID的RGB和近红外(RGB-NI)数据集SYSU-MM01,近年来受到了学术界和工业界的更多关注,然而,由不同波长范围引起的跨RGB和NI模态的异构特性给人的Re-ID带来了额外的挑战。此外,NI的成像质量在一些具有挑战性的场景下仍然有限,如高照明,例如,对于图1 (a)和(b)中的ID1和ID2,其NI图像受到明显影响。

为了融合多模态信息中的互补信息,出现了RGBD双模态Re-ID的尝试通过引入深度信息,然而,现有的深度数据是在室内条件下捕获的,这大大限制了其在研究和工业界的应用和吸引力。

本文通过整合RGB、TI (Thermal)和NI (Near Infrared)源数据,提出了一种多模态人重新识别的新任务。

这三种数据具有不同的频谱范围,如图1 (a)所示,并且可以在person Re-ID中提供较强的互补效益,例如,NI信息可以克服低照度,因此提供了更多可见信息,特别是在低照度下,如图1 (b)中的ID3,与NI图像相比,TI信息对光照条件不敏感,具有较强的穿透雾霾的能力,即使在远距离监控中,也能提供更多的人体与周围环境或辅助服装之间的辨别信息,如图1 (b)中的ID1和ID2所示,将NI和TI摄像机/模态引入RGB one中具有透视应用,包括全天候安全监控、远程无人机调查、复杂环境中的自动驾驶汽车等。

多模态人再识别的新任务提出了三个主要问题。1)如何设计一个合适的基线算法,以有效地利用所有模式的互补优势,即使在缺失模式的情况下,也能实现鲁棒的多模式人再识别。2)如何创建一个合理大小的基准数据集,用于综合评价不同的多模态人Re-ID算法。3)每种模式,每种或多种模式的不同组合对多模式人的再识别有多大贡献。

为了解决上述问题,我们首先设计了一个渐进融合网络(PFNet)来学习多模态人Re-ID的鲁棒RGB-NI-TI特征,具体来说,我们使用三个独立的分支来提取单模态特征,并集成空间注意力操作来捕获每个模态中更有意义的区域,然后在局部层面融合两种模态的特征,以获取模态之间的互补局部信息,如行人的身体部位和配件,最后,我们逐步融合三种模态的特点,同时利用局部全局和多模态信息的优势,此外,为了处理在实际应用测试中一个或两个模态不可用时的模态缺失问题,我们建议通过向我们的渐进融合网络引入跨模态转移模块,将可用模态的特征转移到缺失的模态,通过这种方式,我们仍然可以利用学习到的多模态表示来实现健壮的人ReID。

其次,我们提供了一个合理大小的数据集RGBNT201,用于多模态人重识别的综合评价,RGBNT201包含201个人的身份,由四台非重叠摄像机在现实场景中捕获的三种模式(RGB、NI和TI)的4787个对齐图像三元组。它包含了人Re-ID任务中的大部分挑战,包括姿态、遮挡、视图、光照、分辨率、背景等各种变化,最重要的是,由于篇幅限制,它包含了更多不利环境条件下的挑战,如补充文件所示,这为Re-ID和相关社区提供了一个公平的平台。

最后,我们对提出的RGBNT201数据集进行了综合评估,该数据集具有跨RGB、NI和TI模态的各种组合和融合方案的普遍骨干,以探索每种模态的贡献,我们进一步评估了PFNet与最先进的方法,证明了所提出的渐进式融合网络的有效性,并为多模态Re-ID提供了基线,此外,缺失模态场景的兼容性进一步证明了多模态的好处,同时扩展了现实生活中的各种应用。

据我们所知,这是启动RGB-NI-TI多模态Re-ID任务和相应基准数据集的第一项工作,本文对人员重新识别及其相关应用做出了以下贡献。

•我们创建了一个新的任务,称为多模态人重新识别,通过引入多模态信息来处理单一或双模态人重新识别的成像限制问题。

•我们提出了一种有效的渐进融合网络,以实现多模态人员重新识别中不同源数据的充分融合。

•我们在框架中引入了跨模态转换模块,通过将现有的模态表示转换为缺失的模态表示来解决缺失的模态问题。

•我们为多模态人Re-ID建立了一个新的基准数据集,包含201个不同的人,具有广泛的视点、遮挡、环境条件和背景复杂性。

•我们对不同的最先进的方法进行了全面评估,并对新创建的基准数据集上的渐进式融合网络进行了深入的实验分析。

相关工作

近年来RGB红外交叉模态和RGB深度双模态Re-ID的研究为复杂环境下基于RGB的单模态人员Re-ID提供了新的解决方案。

RGB-Infrared Person Re-identification

为了克服基于rgb的单模态Re-ID中的光照限制,Wu等人(2017)首先提出了RGBNI跨模态Re-ID问题,并贡献了一个跨模态Re-ID数据集SYSU-MM01,随后,Ye等人(2018)提出了一种跨模态Re-ID的度量学习模型,通过三重损失来监督网络的训练,而不是对比损失。Dai等人(2018)提出了一种生成对抗网络来学习两种模式的共同表示,Feng等人(2019)使用模态特定网络来解决异构匹配问题,Wang等人(2019)引入了一个网络来分别处理这两种差异,该网络将不同的模式转换为统一的图像表示。

Hao等人(2019b)使用sphere softmax学习超球面流形特征,并约束该超球面上的模态内和跨模态变化,Li等人(2020)引入了一种辅助中间模态,并将红外-可见双模交叉模态学习重新定义为红外-中间-可见三模学习问题,以减少RGB-NI模态之间的差距,Wang等人(2020)提出生成跨模态配对图像,并同时执行全局集级和细粒度实例级对齐。

Nguyen等人(2017)提出了一个双模态人数据集,每个人的RGB和Thermal数据配对,由于数据集仅由一台摄像机捕获,因此通常用于跨模态的人员重新id评估,尽管红外数据(近红外和热红外)可以在不利的光照条件下提供更好的可见信息,但跨模态Re-ID面临额外的挑战,因为不同模态的异质外观如图1所示,这限制了人Re-ID的性能。

RGB-Depth Person Re-identification

在各种计算机视觉和多媒体任务中,集成多源已被广泛探索,包括RGBT跟踪, RGBT显著性检测,等等。为了充分利用不同模态资源之间的互补性,引入深度数据抵消RGB信息,代表性的RGBD Re-ID数据集包括PA VIS (Barbosa et al 2012)、BIWI (Munaro et al 2014b)等。基于上述数据集,Pala等(2015)将服装外观和深度数据结合起来进行Re-ID,Xu等人(2015)提出了一种使用RGB和深度数据的距离度量来改进基于RGB的Re-ID。

Paolanti等人(2018)将深度和RGB数据与基于不同距离函数的多个k-最近邻分类器结合起来。Ren等人(2019)开发了一种统一变分深度学习方法用于RGBD对象识别和人员重新识别,Mogelmose等人(2013)提出了一个三模态(RGB、深度、热)人Re-ID数据集,并提取颜色、软体生物特征来构建多模态ReID的特征,然而,现有的深度数据是在室内条件下捕获的,这限制了它在更常见的室外现实环境中的应用。

PFNet:渐进融合网络

为了充分利用多模态资源中的互补信息,我们提出了一种用于多模态人Re-ID的渐进融合网络(PFNet),如图2所示,PFNet的目标是在多模态线索和空间语境方面从局部视角融合到全局视角,一方面,我们利用NI中的光照不敏感纹理和TI中的热感知纹理来补充RGB模态,从而首先将NI和TI分别融合到RGB中,然后将它们全部融合到RGB中,另一方面,我们从局部身体部位和整体体型层面融合外观特征。

单模态特征提取

为了获得单模态的高质量表示,我们首先基于ResNet50设计了三个分支来捕获每个模态中的人物图像表示,在每个分支上,我们进一步建议引入空间注意(SA)层,以增强特征图中的有意义信息。为了获取特征的空间关系,我们采用常用的平均池法学习输入人物图像的内容进行特征聚,。为了更好地保存纹理并选择鉴别特征信息,我们进一步引入了max-pooling操作,我们融合平均池和最大池的输出来生成描述符,然后转发到卷积层来计算空间注意图,空间注意模块的注意图As可以表述为:

其中σ表示sigmoid函数,F表示前一层输出的特征,C7×7表示核大小为7×7的卷积运算。

部分级跨模态融合

为了充分利用模态之间的互补信息,我们设计了一个部分级跨模态融合模块,将NI和TI模态的特征融合到RGB模态中,具体而言,我们将NI和TI特征分别合并为RGB特征,以提高在恶劣光照或背景条件下的鲁棒性,为了获取人物图像的局部信息,我们进一步采用部分方案,将每个张量分成几个部分,然后在所有分支的每个部分上使用全局平均池化(GAP),全连接(FC)层用于对每个分支的特征进行分类。特别地,我们用部分b损失函数独立地训练每个分支,我们计算ID预测p与真实标签的差值,并利用交叉熵损失作为t部分损失来优化网络:

全局多模态融合

为了逐步学习三种模态的全局表示,我们实现了多模态融合模块,将上述局部特征以全局方式结合起来,特别地,我们将所有基于部件的特征表示连接到五个流中,全局级联特征通过全局损失函数进行微调,该函数由硬样本挖掘的三重损失和交叉熵损失组成,对于三元组损失,我们随机选择P个单位与K个图像在每批,三态损失函数可表示为:

RGBNT201:多模态人重识别数据集

为了评估多模态人Re-ID的PFNet,我们提出了一个多模态数据集RGBNT201,以整合不同模态资源之间的互补信息。

数据采集

RGBNT201数据集在校园内采集4个不重叠的视图,每个视图由3台摄像机拍摄,同时记录RGB、NI和TI数据,与大多数RGB人Re-ID数据集不同的是,这些数据集仅在白天光照良好的情况下捕获,我们进一步在恶劣的光照条件下捕获大量具有挑战性的图像,如夜间黑暗,或烟雾和雾等低能见度天气,具体来说,我们使用分辨率为700 × 580,帧率为15 fps的HIKVISION RGB-NI相机来捕捉RGB和NI模态图像,TI图像由FLIR T610同时捕获,分辨率640 × 480,帧率20帧/秒,我们首先实现帧对齐,然后像素对齐来生成多模态记录。

我们在视频中记录了所有三种形态的数据,时间跨度大约四个月,从早春到夏季,提供了不同的服装,原始数据贡献了9000多秒,然后我们从视频中选择了大约40000个图像三元组记录,边界框是手动标注的,每个模态的分辨率为256 × 128。

数据集描述

RGBNT201数据集包含了4个不同视点下不同光照条件和背景复杂度的201个身份,为了高效评估,我们在每5-10张相邻图像中自动选择人物图像,然后手动检查以避免数据冗余,每个记录由至少20个不相邻的三组图像以三模态的方式组成,以不同的姿势捕获,形成每种模态4787张图像用于实验评价,我们选择141个身份进行训练,30个身份进行验证,剩下的30个身份进行测试,在测试阶段,我们使用整个测试集作为图库集,同时随机选择每个身份的10条记录作为探针。

RGBNT201与现有流行的Re-ID数据集(如表1所示)相比,具有以下主要优势。

•它包含了由四个不重叠的相机视图以三种模式捕获的大量人物图像,据我们所知,与包括BIWI、PAVIS、IAS Lab 和CA VIAR4REID在内的双模态人Re-ID数据集相比,RGBNT201是最大的多模态人Re-ID数据集,具有最多的挑战场景和模式。

•它包括在不同天气和光照下捕捉的人物图像,并符合监控系统的现实情况,特别是现实生活场景中普遍存在的低照明(LI)和高照明(HI)挑战,在现有的单、交叉和双模态数据集中被严重忽略。

•它不仅涉及基于rgb和RGB-NI跨模态的人重新识别问题的挑战,而且还涉及多种模态引入的额外挑战,因此,它为传统的基于rgb和RGB-NI的跨模态Re-ID任务提供了补充信息,同时对多模态Re-ID研究提出了额外的挑战。

实验

实现细节

实现平台为Pytorch, GPU为NVIDIA GTX 1080Ti,我们使用在ImageNet 上预训练的ResNet50作为我们的CNN骨干。初始学习率设置为1 × 10−3,因此,由于较小的学习率,我们增加了训练迭代的次数,小批数量为8个,在训练阶段,我们使用动量为0.9,权值衰减为0.0005的随机梯度下降(SGD)对网络进行微调。

不同骨干的影响

为了验证多模态信息的贡献并评估所提出的PFNet对多模态Re-ID的有效性,我们在三个不同的骨干上使用各种模态组合来评估我们的方法,包括OSNet 、ResNet50 和MobilenetV2,如表2所述,i)由于RGBNT201中的复杂挑战,三个骨干在任何模式下都不能令人满意地工作,这对ReID人来说是一个具有挑战性的场景。ii)更多的模态场景通过简单的拼接(cat)或提出的渐进融合(PFNet)来提高较少模态场景的性能,这验证了三种模态之间互补信息的贡献。iii) PFNet在所有场景的所有指标上都优于串联,这验证了所提出的PFNet在融合多模态信息时的有效性,为了平衡mAP和rank-1分数,在接下来的实验中,我们使用ResNet50作为PFNet的默认骨干。


消融研究

为了验证我们模型中各成分的有效贡献,我们在RGBNT201上实施了空间注意(SA)模块的消融研究和PFNet中的跨模态融合(CMF)方案,如表3所示,值得注意的是,跨模态融合方案和空间注意力模块都增强了基线的结果,这说明了各个模块的贡献,通过同时执行两个模块,我们的方法实现了最佳性能。

与最新方法的比较

由于这是多模态Re-ID的第一项工作,我们扩展了五种最先进的单模态Re-ID方法,ABD-Net, OIM Loss, MLFN , PCB和ABD-Net,将三种模态的深层特征连接起来进行比较,如表4所述,ABD-Net集成了通道聚合和位置感知注意机制,而MuDeep和PCB分别考虑了人Re-ID的多尺度或部分水平,它们在处理多模态场景时表现出色。

然而,它们仍然明显不如所提出的PFNet,注意,mAP和排名分数在OIM Loss和MLFN中都急剧下降。主要原因是MLFN侧重于对视觉因素的语义监督,如果没有额外的语义标注,特别是对红外数据的语义标注,就无法很好地进行部署,我们的PFNet在处理多模态Re-ID任务时显著优于现有方法,这保证了所提出的PFNet的有效性。

跨模式场景评估

接下来是跨模态数据集RegDB中的数据分割协议,我们重建了RGBNT201数据集,用于每两种模态之间的六个跨模态Re-ID场景,并评估了两种竞争最先进的方法TSLFN+HC和DDAG,如表5所示,由于RGBNT201的异构性问题和巨大的挑战,与对应的多模态结果相比,两种竞争性交叉模态方法的性能出现了磕磕碰撞,这验证了新的多模态Re-ID问题的重要性和所提出的PFNet的有效性。

模态缺失场景的评估

为了在测试过程中某些模态缺失时捕获多模态互补信息,我们使用图2所示的不同模态缺失来评估我们的方法。如图4所示,与直接对现有模态数据进行训练相比,我们的方法可以更好地捕获多模态互补,从而提高在各种缺失模态场景下的性能,特别是在NI和TI都缺失模态的情况下,这验证了所提出的PFNet在处理缺失模态问题时的有效性。

对不同模式场景的评估

为了评估所提出的PFNet在处理多模态Re-ID任务时的有效性,我们进一步将PFNet与最先进的方法在不同模态组合下进行比较,包括单模态、双模态和三模态场景,如图3所示。i)一般来说,集成NI (RGB-NI)或TI (RGB-TI)或两者(RGB-NI-TI)可以改善RGB模态下无法维持的性能,这验证了我们多模态源的贡献。ii)引入红外模态后,部分方法出现下降,如mAP和rank-1评分的OIM Loss, RGB-NI和RGB-TI中mAP的ABD-Net与单模态场景相比均有所下降,RGB-NI-TI场景下PCB的1级与RGBTI场景下PCB的1级比较,相比之下,我们的PFNet在两种和三种模态场景中都持续大幅提高mAP和rank-1分数,这表明了所提出的多模态Re-ID融合方案的有效性。

结论

据我们所知,这是第一个启动RGBNI-TI多模态人Re-ID问题的工作,我们提出了一种新的特征聚合方法PFNet,逐步融合多模态信息进行人Re-ID,可以更好地利用多光谱资源中的互补信息用于实际应用。

同时,我们首次为多模态人Re-ID贡献了一个新的RGBNI-TI基准数据集RGBNT201,我们通过简单地调整训练和测试计划来进一步探索多模态互补问题,对RGBNT201的综合实验评估表明,所提出的PFNet在处理多模态Re-ID任务时具有良好的性能,最后,大量的结果表明,融合方案对多模态Re-ID任务的性能有显著的影响,这将成为我们未来计划的重点研究重点。

展开阅读全文

页面更新:2024-06-17

标签:条件下   缺失   全局   行人   图像   场景   特征   模式   方法   数据   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top