旷视研究院 AAAI 2023 入选论文亮点解读

近日，国际人工智能顶级会议 AAAI 2023 （Association for the Advancement of Artificial Intelligence）公布了录用结果。本届会议共收到来自全球的 8777 篇论文投稿，其中 1721 篇论文被录用，论文录用率为 19.6%。

AAAI 是由国际人工智能促进协会主办的年会，是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一，也是中国计算机学会（CCF）推荐的 A 类国际学术会议。本届会议旷视研究院被收录的论文涵盖 3D 重建、多目标跟踪、视觉语言多模态、3D 检测、图像对齐等方向，下面是入选论文概览：

Semi-supervised Deep Large-baseline Homography Estimation with Progressive Equivalence Constraint

基于渐进式等价约束的半监督深度大基线单应性矩阵估计

在大基线（large-baseline）场景中，由于图像间的重合度低以及相对运动大使得单应性矩阵很难直接估计。为此，我们提出一种渐进式的估计策略，将 large-baseline 单应性矩阵转换为多个中间项，将中间项累积相乘就可以重建初始单应性矩阵。我们引入了一种半监督的单应性一致损失，包括用于优化中间项单应性矩阵的有监督项和基于累积重构在不使用光度损失的情况下优化 large-baseline 单应性矩阵的无监督项。同时，我们提出了一个大规模的数据集，涵盖了常规和挑战性场景。

所属领域：图像对齐/配准

关键词：半监督、大基线单应性矩阵、图像对齐

One is All: Bridging the Gap Between Neural Radiance Fields Architectures with Progressive Volume Distillation

一即一切：通过渐进式体蒸馏弥合神经辐射场架构间的差距

神经辐射场 NeRF可以高质量地重建三维场景，目前多种方法都在争夺其核心结构，包括MLP（NeRF）、张量（Plenoxels）、低秩张量（tensoRF）和哈希表（INGP）等。这些表示都有一定的适应场景，比如基于 hash 的 INGP 模型小、训练快，但由于分辨率混叠等原因，其不如基于张量的 Plenoxels 更易实现对场景的空间编辑。为了弥补 NeRF 系列架构间差异，本文提出了渐进式体蒸馏（PVD）实现对上述不同架构间的任意转换。通过 PVD 得到一个 NeRF 模型通常要比从头训练更快，且在部分数据集上质量更高。

论文链接：

https://arxiv.org/abs/2211.15977

开源链接：

https://github.com/megvii-research/AAAI2023-PVD

所属领域：3D重建

关键词：神经辐射场、蒸馏、NeRF、INGP、Plenoxels、tensoRF

Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation

利用自然语言表征提升多目标跟踪跨域跟踪性能

本文首先指出当前的多目标跟踪任务多在同一类场景下进行评测，即训练集和测试集取自同一场景（比如MOT17，MOT20），现有的 SOTA 跟踪器在不进行 fine-tune 的前提下直接应用在新场景跟踪性能会大幅下降，为此本文首次提出利用自然语言的高层次语义信息解决跨域跟踪问题，首次将视觉语言预训练模型 CLIP 并将其与 query-basedtracker 结合，基于此搭建的新的多目标跟踪模型 LTrack 可在域内和跨域场景上均实现优异的跟踪性能，为今后利用语言信息与视觉信息结合解决跟踪问题提供一个新的思路。

所属领域：多目标跟踪，视觉语言多模态

关键词：多目标跟踪、视觉语言模型、跨域

BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection with Temporal Stereo

BEVStereo：利用时序立体提升环视 3D 检测中的深度估计准确度

现有的在 3D 检测中利用立体视觉提升深度估计的方法大多无法解决两个问题：过多的显存开销以及无法解决运动物体。BEVStereo 通过引入动态立体视觉的方法解决了这个问题，并且提出了可以感知物体尺寸的 circle NMS, 能够避免计算 rotated IoU 的同时将 box 尺寸考虑进去。

论文链接：

https://arxiv.org/abs/2209.10248

开源链接：

https://github.com/Megvii-BaseDetection/BEVStereo

所属领域：3D 检测

关键词：动态立体视觉

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

BEVDepth：在 3D 目标检测中获取可靠深度

现有的基于 LSS 的 3D 目标检测算法中，其深度预测模块产生的深度预测结果不够可靠，本文通过加入深度监督，引入相机内外参编码以及深度精修模块，使得 LSS 产生的深度预测变得更加可靠。

论文链接：

https://arxiv.org/abs/2206.10092

开源链接：

https://github.com/Megvii-BaseDetection/BEVDepth/

所属领域：3D 检测

关键词：reliable depth

技术信仰，价值务实

旷厂小伙伴们还将带来怎样的技术创新？

让我们一起期待吧！

展开阅读全文

页面更新：2024-03-31

标签：张量基线论文矩阵研究院深度场景亮点视觉目标领域链接

1 2 3 4 5

旷视研究院 AAAI 2023 入选论文亮点解读

小米光子引擎有那么厉害吗？亲测小米11升级MIUI 14告诉你答案！

三星、一加、小米在列！最值得期待的三款旗舰盘点

小米疑似裁员？并不意外，因为小米正在经历至暗时刻

未来三年不赚钱还能带来更极致产品？“新一加”的底气何在？

蜗牛保险经纪再登广州未来“独角兽”创新企业榜单成榜单唯一保险科技公司

iOS16.2出现bug，满电显示却为0？网友：小米11赶快升级MIUI14吧

一加9周年重构粉丝“加”园，9城同步庆生，张老板线下宠粉！

一加11爆料：哈苏影像+三段式按键+真香价格？最强8 Gen2新机？

英特尔i9-13980HX移动端旗舰处理器曝光，24个核心最高睿频达5.6GHz

近七成上市公司股价下跌！阿里京东拼多多达达等全线“飘绿”

理解金属/单原子载体模型催化剂在析氢反应中的界面效应

MIUI 14到底值不值得升级？小米11用户给出了答案

春节购机指南：6款值得推荐的千元机，起售价不高于1200元

系统崩盘，顺丰到底发生了什么？

截至目前，盘点2022年主摄支持OIS光学防抖的手机

ESG评级领跑行业，金龙鱼深度践行可持续发展理念

性价比首选！HAYLOU Solar Plus深度体验，通话音乐两不误

1941年夏，美国人眼中的四川成都龙泉驿，出现太多我们熟悉

「论市」程大爷论市：扩大内需规划会带旺哪些细分领域？

“华东第一水果市场”回暖重现 “堵车”场景

牛羊奶粉怎么选？佳贝艾特、飞鹤、蓝河、a2等8款产品深

饲料养殖双扬帆，新希望：国际农牧食品巨头，不断涉足新领域

《自然》（20221215出版）一周论文导读

超轻超薄！新型织物光伏电池发电能力大增18倍，可应用于各

工控电机行业深度报告:国产替代加速,消费级机器人带来