国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

来源：arxiv 编辑：好困 Priscilla

【新智元导读】Transformer和CNN在处理视觉表征方面都有着各自的优势以及一些不可避免的问题。因此，国科大、鹏城实验室和华为研究人员首次将二者进行了融合并提出全新的Conformer模型，其可以在不显著增加计算量的前提下显著提升了基网表征能力。论文已被ICCV 2021接收。

卷积运算善于提取局部特征，却不具备提取全局表征的能力。

为了感受图像全局信息，CNN必须依靠堆叠卷积层，采用池化操作来扩大感受野。

Visual Transformer的提出则打破了CNN在视觉表征方面的垄断。

得益于自注意力机制，Visual Transformer (ViT、Deit)具备了全局、动态感受野的能力，在图像识别任务上取得了更好的结果。

但是受限于的计算复杂度，Transformer需要减小输入分辨率、增大下采样步长，这造成切分patch阶段损失图像细节信息。

因此，中国科学院大学联合鹏城实验室和华为提出了Conformer基网模型，将Transformer与CNN进行了融合。

Conformer模型可以在不显著增加计算量的前提下显著提升了基网表征能力。目前，论文已被ICCV 2021接收。

国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

论文地址：https://arxiv.org/abs/2105.03889

项目地址：https://github.com/pengzhiliang/Conformer

此外，Conformer中含有并行的CNN分支和Transformer分支，通过特征耦合模块融合局部与全局特征，目的在于不损失图像细节的同时捕捉图像全局信息。

国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

特征图可视化

对一张背景相对复杂的图片的特征进行可视化，以此来说明Conformer捕捉局部和全局信息的能力：

浅层Transformer(DeiT)特征图（c列）相比于ResNet（a列）丢失很多细节信息，而Conformer的Transformer分支特征图（d列）更好保留了局部特征；
从深层的特征图来看，DeiT特征图（g列）相比于ResNet（e列）会保留全局的特征信息，但是噪声会更大一点；
得益于Transformer分支提供的全局特征，Conformer的CNN分支特征图（f列）会保留更加完整的特征（相比于e列）；
Transformer分支特征图（h列）相比于DeiT（g列）则是保留了更多细节信息，且抑制了噪声。

网络结构

Conformer是一个并行双体网结构，其中CNN分支采用了ResNet结构，Transformer分支则是采用了ViT结构。

国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

网络结构图

（c）展示了Conformer的缩略图：一个标准的ResNet stem结构，两条并行分支，两个分类器。

（b）展示了每个block中Trans和Conv的连接关系：以2个bottleneck为例，经过第一个bottleneck 3x3卷积后的局部特征经过特征耦合模块（FCU）传给Transformer block。

Transformer block将此局部特征与前一个Trans block的全局特征相加通过当前的trans block，运算结束后再将结果通过FCU模块反传给Conv block。

Conv block的最后一个bottleneck将其与经过1x1卷积后的局部特征相加，一起输入3x3卷积。

之所以将Transformer block夹在两个3x3卷积之间的原因有两个：

bottleneck中3x3卷积的channel比较少，使得FCU的fc层参数不会很大；
3x3卷积具有很强的位置先验信息，保证去掉位置编码后的性能。

实验结果

Conformer网络在ImageNet上做了分类实验，并做为预训练模型在MSCOCO上做了目标检测和实例分割实验。

国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

分类准确率对比

参数量为37.7M，计算量为10.6GFlops的Conformer-S超过了参数量为86.6M，计算量为17.6GFlops的DeiT-B 约1.6%的准确率。

当Conformer-S增大参数量到83.3M，准确率则是达到84.1%。

国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

不同基网在分类速度和准确率上的对比

国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

目标检测和实例分割结果的对比

运行帧率为：

国科大提出首个CNN和Transformer双体基网模型准确率高达84.1%

目标检测和实例分割帧率对比

在使用FPN+Faster Mask R-CNN框架时，Conformer-S/32在帧率/参数/计算量可比的情况下，目标检测精度超过Faster RCNN 3.7%，实例分割超过Mask R-CNN 3.6%。

分析总结

Conformer是第一个并行的CNN和Transformer混合网络，通过提出的特征耦合模块FCU在每个阶段的局部特征和全局特征都会进行交互，使得Conformer兼具两者的优势。

在分类上，能够以更小的参数和计算量取得更高的准确率，在目标和实例分割上也能一致地取得大幅度的提升。

目前Conformer只是在ImageNet1K数据集合上训练，其结合更大预训练数据（如ImageNet21K）集合以后将成为一种很有潜力的基网结构。

作者介绍

彭智亮、黄玮，中国科学院大学在读硕士生

顾善植，鹏城实验室工程师

王耀威，鹏城实验室研究员

谢凌曦，华为公司研究员

焦建彬、叶齐祥，中国科学院大学教授

参考资料：

https://arxiv.org/abs/2105.03889

—完—

欢迎点赞~ 关注新智元及时了解人工智能新动态~

展开阅读全文

页面更新：2024-05-29

标签：中国科学院卷积华为表征准确率全局分支局部实例模型图像特征准确参数目标

阿里女员工8000字长文曝光被P7领导性侵！CEO：震惊、气愤、羞愧

来源：weibo编辑：yaxin【新智元导读】8000字长文，阿里女员工自述受P7领导性侵事件。事发十多天，找领导搪塞，找HR拖延，被逼食堂发传单。阿里巴巴董事局主席兼CEO张勇表示，震惊、气愤、羞愧。阿里新瓜。 P7 领导（花名曲一）要求女

GitHub惹毛开源社区！不免费的Copilot只会抄？不能忍

来源：FSF编辑：Priscilla 好困【新智元导读】GitHub Copilot自从发布以来就风波不断，近日又「惹毛」了自由软件基金会FSF。FSF为捍卫用户的权益，宣布资助500美元发布白皮书，讨论Copilot生成的代码是否侵权等一系列问题。 G

暂缓上市！小马智行SPAC赴美上市计划推迟，自驾IPO路漫漫

来源：路透社编辑：Isabel【新智元导读】今日，消息传小马智行暂缓赴美上市。公司回应称：公司并未确认过上市计划抑或上市时间线，目前自动驾驶行业处于快速发展期，小马智行发展非常健康，对市场消息不予置评。自动驾驶IPO风云莫

略显潦草的苹果秋季新品发布会芯片成最大亮点

北京时间今天凌晨1点，苹果秋季新品发布会在线上举行，这也是今年以来苹果第一次就硬件新品举行专门的发布会。和之前的一些传言一样，今次发布会并没有发布新款iPhone产品，这也是近年来苹果第一次没有在9月的秋季新品发布

速度与质感！iQOO 5 Pro传奇版开箱

上个月，iQOO举办了下半年的新品发布会，并带来了iQOO 5和iQOO 5 Pro两款新品。相比之前我们评测过的iQOO 5，iQOO 5 Pro采用了120Hz的超视感3D曲面屏，搭载了120W超快闪充，并且把后置摄像头模组中的13MP人像镜头换成了8MP的

不仅有120W快充加持 iQOO 5 Pro还有这些“进化”

上个月，iQOO举办了下半年的新品发布会，并带来了iQOO 5和iQOO 5 Pro两款新品。在之前关于iQOO 5的评测中我曾经提到：“这可能是拍照最好的游戏手机”，因为iQOO 5无论是优秀的游戏体验亦或是扎实的拍照实力都是有目共睹的。

从“易用”、“乐用”再到“善用”写在vivo 影像+发布会后

vivo 7日下午在北京举行了“vivo 影像+”媒体发布会。如果不算上次他们邀请部分媒体前往深圳总部与X50系列设计师见面活动的话，那么今天这场发布会才是vivo自疫情后的首场大型线下媒体活动。嗯，它的成功举办也证明了至

「万能小编」缓解你的续航焦虑症

小米10至尊纪念版作为首台支持120瓦快充的旗舰手机，可以最快在5分钟内为手机充电40%，22分钟充满100%。这一功能从另一个方面大幅缓解了我们的续航焦虑。视频加载中... 从打开和平精英到开始跳伞的2分钟内，手机就可以充电

小米10 青春版哆啦 A 梦限定版开箱

四个月前小米10 青春版刚发布的时候，我就一直很期待会有哆啦 A 梦限定版。毕竟对于我这种 90 后来说，小叮当的那句“タケコプター”（竹蜻蜓）可是我童年的回忆呀。不过漫长的等待终究是值得的：看到蓝胖子萌萌的大眼睛是不是

iQOO BMW M4 DTM展车首次对外正式亮相

2020年9月11日，智能手机品牌iQOO在北京金港国际赛车场举办“iQOO竞速开放日”活动，与现场嘉宾、媒体共同体验和品鉴全新上市的iQOO 5系列。活动现场，iQOO BMW M4 DTM展车惊艳亮相，这是iQOO宣布成为BMW M Motorsport全球

颜值就是战斗力 Urbanears Luma真无线耳机体验

作为已经评测过多款真无线耳机的“老司机“，我自认为已经身经百战，对半入耳式真无线耳机了如指掌。但是就在我觉得这一品类的外观已经玩不出什么花样时，来自瑞典的创意生活方式品牌 Urbanears 带来了一款全新的真无线耳

节前新品扎堆发，国内国外好热闹 | 买微力新鲜报

十一就要到了，国内外的厂商就像约好了一样扎堆赶在 9 月结束之前发新品，各位是不是和我们一样，在这几天已经被琳琅满目的发布会“轰炸”得找不到北了？别慌，本期买微力新鲜报咱们就给大家缕一缕这两周各大厂商究竟都发布了

高通发布《音频产品使用现状调研报告2020》

今天上午，高通举行了一场语音和音乐业务的媒体沟通会。会上高通发布了《音频产品使用现状调研报告2020》。《报告》指出：随着技术的进步，耳塞已经进入真无线时代，产品也变得越来越成熟，但音质依然是首要购买驱动因素；与此同

那台CJ上搭载AMD 3990X的超级电脑被我搬回了公司

为了看看这台主机的配置，我们特地拆开了机箱一探究竟，64核128线程的AMD 锐龙（线程撕裂者) 3990X处理器，技嘉TRX40 “设计师”主板，3张撼讯RX 5700XT红龙显卡，单根32G、2666MHz的海盗船复仇者的256G内存套装，4根希捷FireCuda

「万能小编」120W 充电谁更快？

最近，我们有两个同事分别换了小米10至尊纪念版和 iQOO 5 Pro 。由于两部手机的有线充电都是 120W，导致他们俩都认为自己的手机充电更快。但真相只能有一个，就让咱们的「万能小编」为大家揭晓。视频加载中... 首先我们测

上滑加载更多 ↓

推荐阅读：

单张人像生成视频！中国团队提出3D人脸视频生成模型，实现

90后斯坦福博士论文登Science封面！AI算法准确预测RNA三

一行预处理代码，让你的CV模型更强

首个！7nm世界最大芯片打造AI集群，解锁120万亿「大脑级」

远不止“英译中”华为Mate40系列国内发布会都有哪些亮

这一次 DXOMARK 把目标对准了无线音箱

华为手机更具性价比的扩容之选：佰维NM卡评测

华为携手郎朗开启VR音乐新未来

华为P50系列日趋清晰 vivo或将加入折叠屏阵营买微力新

荣耀Magic 3定档华为P50系列或本月底发布｜买微力新鲜

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top