行人遮挡水平的客观分类方法

arxiv 2022 5月论文

论文题目:

An Objective Method for Pedestrian Occlusion Level Classification

论文地址:

https://arxiv.org/abs/2205.05412

摘要

行人检测是自动驾驶汽车驾驶员辅助系统最重要的安全特性之一,最复杂的检测挑战之一是部分遮挡,其中一个目标对象由于被另一个前景对象遮挡,只能部分地对传感器可用,目前许多行人检测基准提供了部分遮挡的注释,以评估这些场景下的算法性能,但每个基准对遮挡的发生和严重程度的定义差异很大,此外,目前的标注方法包含了人工标注的高度主观性,这可能导致算法对部分遮挡行人的检测性能报告不准确或不一致,这取决于使用的基准。本研究提出了一种新的、客观的行人遮挡程度分类方法,用于真相注释,遮挡级别的分类是通过识别可见的行人关键点,并通过使用一种新颖、有效的二维体表面积估计方法来实现的,实验结果表明,该方法反映了图像中行人的像素遮挡水平,对所有形式的遮挡都是有效的,包括具有挑战性的边缘情况,如自遮挡、截断和交叉遮挡行人。

1. 简介

稳健的行人检测是驾驶员辅助系统和自动驾驶汽车最重要的安全特性之一,行人检测是特别具有挑战性的,因为人体在运动中的变形性质和不规则轮廓,以及由于服装颜色信息的不一致性,可以增强或伪装行人的任何部分。近年来,随着深度学习解决方案的普及,以及更大、更多样化的数据集的可用性,行人检测系统有了显著的改善,尽管如此,在我们达到安全自动驾驶所需的检测能力之前,仍存在许多挑战,最复杂的场景之一是部分遮挡,其中一个目标对象由于被另一个前景对象遮挡,只能部分地对传感器可用。

汽车环境中遮挡的频率和种类非常多,受到自然和人工基础设施以及其他道路使用者的影响,行人可能被静态或动态的物体遮挡,可能在人群中相互遮挡(遮挡彼此),也可能在行人部分重叠的地方自遮挡,最先进的行人检测解决方案声称,使用当前基准,对部分和严重遮挡行人的检测性能分别约为65%-75%。然而,遮挡的发生和严重程度的定义差异很大,在每个基准中采用高度主观性对行人遮挡水平进行分类,如表1所示。

除此之外,当对遮挡水平进行分类时,通常会完全忽略自身遮挡的发生,即身体的一部分遮挡另一部分,这可能导致行人检测算法的性能报告不准确或不一致,这取决于用于验证检测性能的数据集,为了解决这一问题,需要一种通用的度量和一种客观的、可重复的遮挡级别分类方法来进行真相注释,以便在平等的尺度上对算法进行评估和比较。

本研究提出一种新颖、客观、一致的行人遮挡程度分类方法,用于部分闭遮挡人的真相标注,提出的方法比目前的技术水平更准确地代表像素遮挡水平,适用于所有形式的遮挡,包括具有挑战性的边缘情况,如自遮挡、间遮挡行人和截断。

本研究的贡献有三个方面:提出了一种新的、客观的行人遮挡等级分类方法 2. 一种估计图像中行人可见二维体表面积的新方法 3.建议的方法是第一个遮挡水平分类器推断行人的自遮挡水平。

2. 相关工作

本节概述现时行人遮挡程度分类方法、评估行人遮挡程度分析方法,以及估计全身面积的常用方法。

许多公开的数据集提供了汽车环境中行人遮挡程度的注释,表1提供了当前流行数据集中用于定义遮挡严重程度的类别的概述,对当前基准的分析表明,在低遮挡、局部遮挡和重度遮挡的定义中存在不一致和主观性的范围。欧洲城市人口数据集将遮挡分为三个不同的级别:低遮挡(10%-40%)、中等遮挡(40%-80%)和强遮挡(大于80%),分类由人工注释人员执行,估计被遮挡行人的全部范围,然后估计遮挡的大致水平在三个定义的类别中的一个,该方法还用于对图像边界附近行人的截断程度进行分类。

在Caltech Pedestrian、TJU-DHD-pedestrian、CrowdHuman和PedHunter数据集中采用了类似的方法,其中行人用两个边界框进行注释,表示可见和完整的行人范围。在行人被遮挡的情况下,通过人工注释估计完整行人隐藏部分的位置,从而计算遮挡比,Caltech Pedestrian数据集的进一步分析确定,在汽车环境中遮挡的概率是不均匀的,而是有很强的偏向,行人的下部被遮挡,顶部可见。

CityPersons数据集中被遮挡行人的分类是通过从被遮挡行人的头顶到双脚中间绘制一条线来实现的,如果头和脚不可见,则需要人工注释人员来估计它们的位置,然后使用固定的宽高比0.41(宽/高)为整个行人区域生成一个边界框(“BB−f ull”)。一个可见的行人区域边界框(“BB - vis”)也被标注,遮挡率计算为面积(BB - vis)/面积(BB - full),然后,这些遮挡水平的估计在城市人基准中分为两个水平,合理(<=35%遮挡)和重度遮挡(35%-75%)。

在Kitti Vision Benchmark中采用了一种更加语义化的方法来确定遮挡级别,其中人工注释人员被简单地要求将每个边界框标记为“可见”、“半遮挡”、“完全遮挡”或“截断”,在多光谱行人数据集中使用了类似的方法,其中“遮挡程度达到一半以上”的行人被标记为部分遮挡;轮廓被“大部分遮挡”的被标记为重度遮挡。

遮挡视频实例分割(occled Video Instance Segmentation, OVIS)通过计算重叠边界框的相交面积与各自边界框总面积的比值来估计遮挡程度,作者承认,虽然提出的“包围框遮挡率”可以粗略地反映遮挡程度,但它只能部分反映物体之间的遮挡情况,不能准确地代表目标物体的像素级遮挡水平。

Chaudhary等人提出了一种基于行人能见度的社交媒体图像级别分类方法,在这项研究中,成年人的平均身高估计为170厘米,水位分类器检测图像中的行人,并通过将行人垂直细分为11个不同的级别来估计行人被覆盖的程度。

Wallace提出了一种体表面积分类的方法,用于诊断平均成年烧伤患者烧伤损伤的严重程度,这种方法被称为“Wallace九分规则”,通常被紧急医疗提供者和急救人员用于评估烧伤患者受影响的体表总面积,九分规则通过分配百分比来估计整个体表面积,语义身体面积的倍数为9%,基于平均成年人的相对物理尺寸,头部估计占整个体表面积的9%(前面4.5%,后面4.5%),胸部、腹部、上背部和下背部各占9%,每条腿分配18%,每只手臂分配9%,腹股沟分配剩下的1%。

3.方法

提出了一种客观的遮挡等级分类方法,该方法消除了人工注释者的主观性,比现有的方法更准确地反映出像素层面的遮挡等级,在最初讨论的概念的基础上改进,遮挡级别分类包括3个步骤:1.关键点检测应用于输入图像,以识别每个行人实例的特定语义部分的存在性和可见性2. 应用能见度阈值并与行人掩膜交叉引用,以确定图像中哪些关键点被遮挡。3.然后将可见关键点分组为更大的语义部分,并使用第3.2节和图1中概述的二维体表面积估计方法计算总可见表面积。该方法对所有行人遮挡形式的遮挡级别进行分类,包括具有挑战性的边缘情况,如自遮挡、间遮挡行人和截断。分类管道的概述见图2,分类器输出的定性示例见图3。

3.1. 遮挡关键点检测

关键点检测由基于Faster RCNN的关键点检测器执行,使用来自Detectron2的预训练权重,该模型使用ResNet-50-FPN骨干,并使用COCO关键点数据集进行训练,关键点检测器输出人体上的17个关键点,以及每个预测关键点的可见性评分。

预测的关键点包括肩膀、肘部、手腕、臀部、膝盖和脚踝,以及鼻子、眼睛和耳朵等面部特征,然后应用两步过程来确定图像中关键点的可见性,首先,对从关键点检测器返回的关键点可见性评分应用一个阈值,然后,将每个可见关键点的坐标与MaskRCNN生成的行人掩码进行交叉引用,以确认关键点位置位于图像中的行人掩码区域内,这两步过程增加了在复杂情况下被遮挡关键点的识别,如自遮挡,关键点能见度评分很低,但估计的关键点位置可能会由于遮挡行人区域而被掩盖,特定分组关键点的存在表明语义主体部分的存在,如表2所示。

3.2. 二维人体表面积估计

“Wallace九分法则”是一种久经考验的测定一般成年人体表面积的方法,虽然在评估行人的体表面积方面是有效的,但由于人体的3D性质,九分法则并不适合评估二维图像中行人的可见表面积。

提出了一种改编版本的九位规则,用于确定二维行人图像的可见体表面积,以进行遮挡级别分类,九分规则的原始比例分别进行了调整,以补偿在任何时候只有一侧的身体可见,就像在2D图像的情况下一样,本文提出的二维体表面积估计方法如图1所示,检测到的关键点与表2所示方法中的语义体区域相关,分类输出的示例如图3所示。

4. 验证

通过将提出的方法应用于包含各种行人姿势、背景和多种遮挡形式(包括自遮挡、间遮挡行人和截断情况)的广泛图像,进行定性验证,利用所提出的遮挡等级分类方法,推导出每个行人实例的遮挡等级和被遮挡语义部分,然后使用人眼视觉检查来验证每种情况下遮挡级别分类器的性能,在这个验证步骤中使用了320个自定义数据集,多个公开来源,以确保广泛的多样性行人遮挡的场景,图3提供了定性验证的例子。

4.1. 定量验证

通过比较所提出的方法与计算的像素级遮挡水平(使用MaskRCNN导出),以及CityPersons中描述的当前技术状态,对可见和逐渐遮挡的行人进行了定量验证,为了确定像素层面的遮挡,必须计算完全可见的行人和遮挡下的同一行人的总像素面积,为了实现这一目标,创建了一个包含200张图像的自定义数据集,包括各种遮挡场景和具有挑战性的行人姿势,如步行、跑步和骑自行车,将MaskRCNN应用于全可见参考图像,计算每个行人实例的掩码像素面积(MaskAreafull),然后在参考图像上叠加遮挡,并计算剩余的可见行人像素面积(MaskAreaocc),以确定像素级遮挡比,等式1。

然后将所提出的方法与像素级遮挡水平和CityPersons中描述的方法进行比较,以确定所提出的遮挡水平分类器的像素级准确性,这些实验中使用的图像示例如图4所示,定量验证结果如图5所示。



5. 讨论与分析

提出了一种客观的遮挡水平分类方法,图3所示的定性验证结果证明了所提出的方法对所有遮挡形式的遮挡级别进行分类的能力,包括具有挑战性的边缘情况,如自遮挡、截断和相互遮挡的行人,通过去除人工注释者的主观性,该方法比目前的技术水平更具鲁棒性和可重复性,适用于行人检测算法的客观比较,而不管使用的基准是什么,行人自遮挡的分类,此前在部分遮挡行人的评估中被忽略,可能会对使用现代技术评估行人的可探测性产生很大影响,当检测可信度与图像中目标行人自聚焦的关键显著特征的存在相关联时,这一点尤其相关,对自聚焦情况下检测性能的更详细分析将增加我们对基于深度学习的检测例程行为的理解,在行人的算法特定信息值被遮挡的情况下,对以前被认为是“可见的”行人的检测性能进行描述,将有助于识别当前先进的行人检测系统的潜在故障模式。

如图5所示的定量验证结果,证明了所提出的方法在表示“真实世界”或挑战行人姿势的像素级遮挡值方面的能力,无论遮挡的严重程度或形式如何,图1所示的二维体表面积估计方法,由“Wallace九分规则”推导而来,已被证明可以有效计算部分遮挡行人的可见面积,适用于各种行人姿势和遮挡情况,对定量验证结果的进一步分析清楚地表明,与像素级遮挡值相比,当前状态有了改进。

5.1. 具有挑战性的图像帧

图6提供了一个分类器性能示例,用于挑战性的检测场景,并突出显示在特定帧中对于模糊行人实例可能出现的分类错误,漏检或假阴性可能发生在关键点检测器或MaskRCNN由于过度的运动模糊,相机伪影或低图像分辨率的低检测信心的结果,当行人轮廓与图像背景轮廓非常接近时,检测置信度会降低。

图6 (a)、(b)和(c)分别成功分类了重度遮挡、图像眩光和低分辨率情况下的行人遮挡水平,在每种情况下,行人轮廓与图像背景明显不同,在行人轮廓和图像背景差异较小的类似场景中,如图6 (h), (j)和(k),检测置信度降低,导致假阴性。

关键点错误可能发生在复杂的检测场景中,这可能导致对特定帧的错误分类,在行人实例被遮挡器高度分割的情况下,已经注意到这种情况的发生,这促使算法提出多个行人实例,或忽略行人由于交叉遮挡而看起来与主要行人实例不连接的部分,在图6 (o), (p)和(s)中可以看到这些情况的例子。

类似地,行人掩模错误也可能发生在具有挑战性的帧中,掩模错误可能包括掩模泄漏,这可能错误地表明被遮挡的关键点的存在,如图6 (u),以及掩模不完整或不精确,这可能导致错误地遗漏特定的关键点或行人实例,如图6 (m), (n)和(t)所示,尽管所提出的方法旨在关注行人,但其他道路使用者,如骑自行车的人,骑摩托车的人和婴儿车的儿童可能被归类为被遮挡的行人,此外,广告图像和其他媒体上的人物描述也可以被算法归类为行人,通过进一步改进关键点和行人掩码检测模型,可以随着技术的进步将这些模型集成到检测管道中,从而减少出现的许多错误分类错误。

6. 结论

本研究提出了一种客观的行人遮挡等级分类方法,用于真相的标注,该方法利用关键点检测和掩模分割来识别和确定部分遮挡行人语义部分的可见性,并利用一种新颖有效的二维体表面积估计方法计算被遮挡体表面积百分比,该方法消除了现有技术所使用的人工注释器的主观性,进而提高了行人遮挡等级分类的鲁棒性和可重复性,定性和定量验证证明了所提出的方法对所有形式的遮挡的有效性,包括具有挑战性的边缘情况,如自遮挡和间遮挡行人。

实验结果表明,当绘制针对像素的行人遮挡水平时,该技术的现状有显著改善,该方法的普遍应用将提高行人检测基准中遮挡水平注释的准确性和一致性,并将提高感知遮挡的行人检测网络的精度,对诸如自遮挡等边缘情况的详细分析,将增加我们对基于深度学习的检测例程的理解,为行人检测算法提供更高级的特征,并有助于识别当前技术中潜在的故障模式。

展开阅读全文

页面更新:2024-03-10

标签:遮挡   行人   水平   方法   体表   注释   像素   客观   图像   面积   关键

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top