全图片带你了解 ROI一文图解AI之CV系列

导言：我一直受惠于很多网络上图文并茂的优秀英文技术文，这些文章不仅便于理解也便于回顾，因为很多时候再次见到图就能回想起当时学会的复杂概念，所谓千言万语不及一张图。MyEncyclopedia公众号会每次一个概念逐渐建立起主流 AI 领域（CV，NLP，RL，GNN）最直观最形象的概念和技术，并整理成知识网。

文章首发于 https://mp.weixin.qq.com/s/u39urFx_q0Z9Yb4BNv-ZUQ

我们将讨论Fast R-CNN论文（上图中的浅蓝色矩形）中描述的原始 RoI 池化。该过程有第二个和第三个版本，称为RoIAlign和RoIWarp。

RoI（感兴趣区域）是什么？

RoI（感兴趣区域）是来自原始图像的建议区域。我们不打算描述如何提取这些区域，因为有多种方法可以做到这一点。我们现在唯一应该知道的是有多个这样的区域，最后目标检测算法对所有区域进行分类。

Fast R-CNN 的工作原理是什么？

Fast R-CNN不同于基本的R-CNN网络。它只有一个卷积特征提取（在我们的示例中，我们将使用 VGG16）。

我们的模型采用大小为512x512x3（宽 x 高 x RGB）的图像输入，VGG16 将其映射到16x16x512特征图。您可以使用不同的输入大小（通常较小，Keras 中 VGG16 的默认输入大小为 224x224）。

如果您查看输出矩阵，您应该注意到它的宽度和高度正好比输入图像小 32 倍 (512/32 = 16)。这很重要，因为所有 RoI 都必须按此比例缩小。

RoI 举例

这里我们有 4 个不同的 RoI。在实际的 Fast R-CNN 中，您可能有数千个，但显示所有数千个将无法显示。

重要的是要记住RoI 不是物体边界框。它可能看起来像，但它只是进一步处理的提案框。许多人认为这是因为大多数论文和博客文章都在实际对象上创建提案框。这样更方便，我在我的图像上也这样做了。下图中绿色框是一个不在实际对象上的提案示例，它也将由 Fast R-CNN 检查。

有一些方法可以限制 RoI 的数量，也许我以后会写到。

如何从feature map中得到RoI？

现在，当我们知道 RoI 是什么时，我们必须能够将它们映射到 VGG16 的输出特征图上。

每个 RoI 都有它的原始坐标和大小。从现在开始，我们将只关注其中一个：

它的原始尺寸为145x200，左上角设置为(192x296)。您可能会说，我们无法将这些数字中的大部分除以32。

宽度：200/32 = 6.25
身高：145/32 = ~4.53
x: 296/32 = 9.25
和：192/32 = 6

只有最后一个数字（左上角的 Y 坐标）才有意义。那是因为我们现在正在处理16x16网格，我们只关心整数（更准确地说：自然数）。

特征图上坐标的量化

量化是将输入从大量值（如实数）限制为离散型（如整数）的过程

如果我们将原始的 RoI 放在特征图上，它看起来像这样：

我们不能真正在这之上应用池化层，因为一些“单元格”被分割了。量化所做的是在将每个结果放入矩阵之前对其进行四舍五入。9.25变成9，4.53变成4，等等。

您会注意到我们刚刚丢失了一些图像数据（深蓝色）并获得了新数据（绿色）：

因为它仍然可以工作，我们不必处理它，但有一个称为RoIAlign的版本可以解决这个问题。

RoI池化

现在，当我们将 RoI 映射到特征图上时，我们可以应用池化。为了方便起见，我们将再次选择RoI Pooling层的大小，但请记住大小可能会有所不同。你可能会问“为什么我们还要应用 RoI Pooling？” 这是个好问题。如果你看一下 Fast R-CNN 的原始设计：

原始的 Fast R-CNN 架构。资料来源：https://arxiv.org/pdf/1504.08083.pdf

在RoI Pooling Layer之后是一个固定大小的全连接层。因为我们的 RoI 具有不同的大小，所以我们必须将它们合并为相同的大小（在我们的示例中为3x3x512）。此时此刻，我们映射的 RoI 大小为4x6x512，正如您想象的那样，我们不能将 4 除以 3 。这就是量化再次出现的地方。

这次我们不必处理坐标，只需要处理大小。我们很幸运（或者只是池化层的方便大小）6 可以除以 3 得到 2，但是当你将 4 除以 3 时我们剩下 1.33。在应用相同的方法（向下舍入）后，我们得到一个1x2 向量。我们的映射看起来像这样：

由于量化，我们再次失去了整个底行：

现在我们可以将数据汇集到 3x3x512 矩阵中

在这种情况下，我们使用了最大池化，但它在您的模型中可能有所不同。这个过程是在整个 RoI 矩阵上完成的，而不仅仅是在最顶层。所以最终结果是这样的：

相同的过程应用于原始图像中的每个 RoI，因此最终，我们可能有数百甚至数千个 3x3x512 矩阵。这些矩阵中的每一个都必须通过神经网络的剩下部分（从 FC 层开始）。对于它们中的每一个，模型分别生成 bbox 和类别分别。

接下来是什么？

池化完成后，我们限定了输入的大小为3x3x512，因此我们可以将其送入 FC 层进行进一步处理。还有一件事要讨论。由于量化过程，我们丢失了大量数据。准确地说，这么多：

这可能是个问题，因为每个“单元格”都包含大量数据（特征图上的 1x1x512 在原始图像上松散地转换为 32x32x3，但请不要使用该参考，因为这不是卷积层的工作方式）。有一种方法可以解决这个问题 (RoIAlign)，我很快就会写第二篇关于它的文章。

本文原作者 Kemal Erdem，由 MyEncyclopedia公众号翻译，原文链接https://erdem.pl/2020/02/understanding-region-of-interest-ro-i-pooling

展开阅读全文

页面更新：2024-05-17

标签：卷积矩阵示例图像原始特征大小区域过程系列数据图片

1 2 3 4 5

全图片带你了解 ROI一文图解AI之CV系列

RoI（感兴趣区域）是什么？

Fast R-CNN 的工作原理是什么？

RoI 举例

如何从feature map中得到RoI？

特征图上坐标的量化

RoI池化

接下来是什么？

iPhone14ProMax，依然是常胜将军！三星S23Ultra，再见了！

华为Mate X3再曝，或定价万元内？

华为新平板曝光：续航压力山大

Excel动态表头模板下载

2023年性价比手机推荐：最高“16+512GB”大内存组合，堪比电脑！

这 4 个超实用的 Docker 镜像构建技巧你还不知道？

央视关注！西安高新区科技创新平台载体建设加速

23年春季哪些新机值得关注？大内存、影像、系统，这三款拿手绝活

距离华为亲手造车，仅剩8个月零20天59分25秒？

谷歌抢先手发布视频生成类AIGC，网友：可以定制电影了

pikachu靶场之文件下载和上传

软银集团第三财季由盈转亏，ARM上市或成孙正义唯一寄托

一文总结当下常用的大型 transformer 效率优化方案

地震频发，是否和人类活动有关？美军3600米深井揭露真相

福建科技创“新”势力汽车的“眼镜”：北斗赋能车载摄像头让驾驶更智能

Loro Piana Cocooning 2023春夏系列享受惬意，之禾2023

曾设计张家界系列邮品的著名邮票设计家邵柏林逝世了

OPPO Find X6系列发布时间曝光，或三月下旬亮相

魅族20系列正式入网，魅友：总算等到了，魅族18快撑不住了！

表格中的重复数据如何提取唯一值

三节课与百度官方合作！5门大厂实战系列课，重磅发布！

传感器数据及其工作原理详解

从十四五看数字化转型（数字化转型、企业数据治理、AI介

超实用！Github上标星32k+ Python数据科学速查表都在这

中疾控首次报告我国代表性婴幼儿膳食调查数据