中科大刘泽博士一作斩获ICCV 2021最佳论文奖!中国学者占「半壁江山」

新智元报道来源:ICCV编辑:桃子小咸鱼【新智元导读】ICCV2021最佳论文新鲜出炉!微软亚洲研究院团队拔得头筹,获得了最佳论文奖。还有最佳学生论文,最佳论文荣誉提名,PAMI-TC奖全公布。其中,中国学者数量几乎占据半壁江山,超过美国近一半。ICCV最佳论文来了!今年ICCV

NetSmell 出品

  新智元报道

  来源:ICCV

  编辑:桃子小咸鱼

  【新智元导读】ICCV 2021 最佳论文新鲜出炉!微软亚洲研究院团队拔得头筹,获得了最佳论文奖。还有最佳学生论文,最佳论文荣誉提名,PAMI-TC 奖全公布。其中,中国学者数量几乎占据半壁江山,超过美国近一半。

  ICCV 最佳论文来了!

  今年 ICCV 2021 公布了最佳论文奖(马尔奖),最佳学生论文奖,最佳论文荣誉提名,PAMI-TC 奖多个奖项。

  其中, 微软亚洲研究院团队拔得头筹,获得了最佳论文奖 ,论文一作为中科大刘泽。苏黎世联邦理工大学和微软研究人员共同摘得最佳学生论文奖。

  还有 4 篇最佳论文荣誉提名,PAMI-TC 奖分设的 4 个奖项颁给了过往杰出研究的学者。

  作为计算机视觉领域三大会议之一的 ICCV(IEEE International Conference on Computer Vision)每年都会吸引众多 AI 研究人员参会。

  不同于在美国每年召开一次的 CVPR 和只在欧洲召开的 ECCV,ICCV 在世界范围内每 2 年召开一次。

  获奖论文一览:微软亚洲院摘桂冠

  最佳论文奖——马尔奖

  Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

  论文地址:https://arxiv.org/pdf/2103.14030.pdf

  这篇文章介绍了一种新的、可以应用于计算机视觉里的 Transformer,Swin Transformer。

  Transformer 解决计算机视觉问题的挑战主要来自两个领域:图像的比例差异很大,而且图像具有很高的分辨率,在有些视觉任务和如语义分割中,像素级的密集预测对于 Transformer 来说是难以处理的,因为其 self-attention 的计算复杂度与图像大小成二次关系。

  为了克服这些问题,Swin Transformer 构建了分层 Transformer 特征图,并采用移位窗口计算。移位窗口方案通过将 self-attention 计算限制在不重叠的局部窗口(用红色标出),同时还允许跨窗口连接,带来了更高的效率。

  Swin Transformer 通过从小尺寸的面片(用灰色勾勒)开始,并逐渐合并更深的 Transformer 层中的相邻面片来构建分层表示。这种分层体系结构可以灵活地在各种尺度上建模,并且在图像大小方面具有线性计算复杂度。线性计算复杂度是通过在分割图像的非重叠窗口(用红色标出)内局部计算自我注意来实现的。 每个窗口中的面片数量是固定的,因此复杂度与图像大小成线性关系。

  Swin Transformer 在图像分类、目标检测和语义分割等识别任务上取得了很好的性能,在三个任务中,Swin Transformer 的时间延迟与 ViT,DeiT 和 ResNeXt 模型相似,但性能却得到了大幅提升:COCO test-dev 58.7 box AP 和 51.1 mask AP,力压之前的最先进结果 2.7 box AP 和 2.6 mask AP。 在 ADE20K 语义分割任务中,Swin Transformer 在验证集上获得了 53.5 mIoU,比以前的最先进水平(SETR)提高了 3.2 mIoU。 在 ImageNet-1K 图像分类中,它也达到了 87.3% 的最高精度,充分展现 Transformer 模型作为新视觉 backbone 的潜力。

  该论文一作刘泽是中科大的学生,在微软亚洲研究院实习。他于 2019 年获中国科技大学学士学位,并以最高荣誉获得郭沫若奖学金。

  个人主页介绍,其 2 篇论文和 1 篇 Oral 被 ICCV2021 接收。

  个人主页:https://zeliu98.github.io/

  最佳学生论文奖

  Pixel-Perfect Structure-From-Motion With Featuremetric Refinement

  论文地址:https://arxiv.org/pdf/2108.08291.pdf

  找到跨多个视图可重复的局部特征是稀疏三维重建的基石。 经典的图像匹配范例一劳永逸地检测每个图像的关键点,这可能产生定位不良的特征,并将大的误差传播到最终的几何图形。

  这篇文章通过直接对齐来自多个视图的低级图像信息来细化 SfM(Structure-from-Motion),先在任何几何估计之前调整初始关键点位置,然后细化点和相机姿势作为后处理。

  本文认为精确的大规模 SfM(Structure-from-Motion)方法是使用稀疏的特征执行初始粗略估计,然后使用局部精确的密集特征进行细化。这种改进对于大的检测噪声和外观变化是鲁棒的,因为它基于神经网络预测的密集特征来优化特征度量误差。这显著提高了各种关键点检测器的相机姿态和场景几何的准确性。

  最佳论文荣誉提名

  论文1: Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

  论文地址:https://arxiv.org/pdf/2103.13415.pdf

  谷歌和 UC 伯克利研人员在本文提出了一种名为「mip-NeRF」的扩展解决方案。

  就 NeRF 来说,每条光线的像素渲染都需要查询多层感知器上百次。而 mip-NeRF 的视线以连续值的比例表示场景,通过高效渲染消除反锯齿圆锥锥体取代光线。

  研究结果表明,mip NeRF 减少了混叠瑕疵,将 NeRF 表示精细细节的能力显著提高,在速度上比 NeRF 快7%,大小仅为 NeRF 的一半。 此外,mip NeRF 在数据集上降低了 17% 的平均错误率,在多尺度变体上降低了 60% 的平均错误率。

  论文2: OpenGAN: Open-Set Recognition via Open Data Generation

  论文地址:https://arxiv.org/pdf/2104.02939.pdf

  机器学习过程中需要分析与训练数据不同的测试数据。为了和K闭集数据集区分,这通常在K-way 分类中被表述为开集识别。

  一般来说,开集识别有 2 种处理方案。然而,由于过度拟合训练离散值,这 2 种方案一种不能很好地推广到不同的开放测试数据,而另一种由于 GAN 训练不稳定导致效果不好。

  来自卡内基梅隆大学的论文一作 Shu Kong 在本文中基于上述问题,提出了全新解决方案 OpenGAN,它在三个方面不同于其他使用 GAN 的开集方法:通过学习一个鲁棒的开集-闭集鉴别器充当开集似然函数;用假数据(由生成器合成)和真实的开集训练示例训练鉴别器;用 OTS 特征而不是 RGB 像素来训练 GAN。

  OpenGAN 在包括图像分类和像素分割在内的各种任务中,在开放集识别方面的性能明显优于先前的工作,证明了 OpenGAN 可以提高其他基于 GAN 的开集方法的准确性。

  华人学者 Shu Kong 现在是卡内基梅隆大学在读计算机博士后。他的研究兴趣包括计算机视觉、机器学习、以及其在现实世界中的应用和整合。

  目前的研究重点为「visual perception and learning in an open world」,并在自己的书对这个内容中简要地进行了扩展。

  个人主页:https://www.cs.cmu.edu/~shuk/

  还有另外两篇论文获得荣誉提名,如下:

  论文3: Viewing Graph Solvability via Cycle Consistency

论文地址: 

https://openaccess.thecvf.com/content/ICCV2021/papers/Arrigoni_Viewing_Graph_Solvability_via_Cycle_Consistency_ICCV_2021_paper.pdf

 

  在 SfM(Structure from Motion)中,观察图的顶点对应摄像机,边代表基本矩阵。已知的理论要么不能完全表征所有观察图的可解性,要么非常难以计算,因为它们需要求解一个含有大量未知数的多项式方程组。

  本文提供了一种新的公式和算法来确定观察图是否可解,即它唯一地确定一组投影摄像机。主要方式是利用循环一致性来减少未知量。

  这种算法分为三步走,第一步要分类九个节点内的所有极小图;第二步将实际的可解性测试扩展到具有 90 个节点的最小图;最后,证明有限可解性并不意味着可解来回答一个开放的研究问题。

  论文4: Common Objects in 3D: Large-Scale Learning and Evaluation of Real-Life 3D Category Reconstruction

  论文地址:https://arxiv.org/pdf/2109.00512.pdf

  由于真实的以类别为中心的三维标注的数据不好获取,如果要学习三维对象的类别,传统方法主要在合成数据集上进行训练和评估。

  这项工作的主要贡献是收集了一个与现有合成数据相似的大规模真实数据集,名为 Common Objects in 3D,包含用相机姿态和地面真实 3D 点云来标注对象类别的真实多视图图像。该数据集总共包含来自近 19000 个视频的 150 万帧,对应 50 个 MS-COCO 类别的对象。

  利用这个新数据集对几种新的视图合成和以类别为中心的三维重建方法进行了第一次大规模的评估。论文还贡献了 NerFormer,一种新颖的神经渲染方法,利用强大的 Transformer 在给定少量视图的情况下重建对象。

  PAMI-TC 奖

  和往年一样,ICCV 21 还颁布了过往杰出研究类奖项 PAMI-TC 奖,其中包括 4 个奖项:Azriel Rosenfeld 终身成就奖、杰出学者奖,Everingham 奖和 ICCV Helmholtz 奖。

  Azriel Rosenfeld 终身成就奖颁发给了加州大学 Berkeley 分校电气工程与计算机科学系教授 RUzena Bajcsy,以表彰其长期以来在计算机视觉领域所作出的重大贡献。

  RUzena Bajcsy 是美国的工程师和计算机科学家,任职加州大学伯克利分校。2001 年,她获得了 ACM/人工智能促进协会 Allen Newell 奖,并在 2002 年 11 月的《探索》杂志上被评为科学界最重要的 50 位女性之一。

  由于她在机器人和自动化领域的贡献,她获得了本杰明富兰克林计算机和认知科学奖章(2009 年)和 IEEE 机器人和自动化奖(2013 年)。

  杰出学者奖项颁给了两位研究者,加州理工学院教授 Pietro Perona 和法国国家信息与自动化研究所研究员 Cordelia Schmid。

  还有 Everingham 奖颁发给了 KITTI 视觉基准团队和 Detectron 对象检测和分割软件团队。

  今年 ICCV Helmholtz 奖颁给了十年前对计算机视觉领域产生重大影响的三篇论文,以奖励对计算机视觉领域做出重要贡献的工作。

  中国学者占据半壁江山,谷歌 66 篇一骑绝尘

  一直以来,ICCV 论文录用率非常低,却是三大会议中公认级别最高的。

  今年在论文收稿和入围数量方面,ICCV 21 共收到论文投稿 6236 篇,最终入围 1617 篇,接收率约为 25.9%,较上届的 25% 有所上升。

  就接收论文分布领域而言,接收数量都超过了 80 篇的领域有:迁移/小样本/无监督学习(Transfer/low-shot/unsupervised learning)、图像视频合成(image and video synthesis)、识别和分类(detection and localization in 2D and 3D) ,位列前三。

  还有一些新领域,比如关于可解释性 AI、公平、道德等相关主题论文数量也较往年有所上涨。

  就机构组织来说,今年 ICCV 上,谷歌近 66 篇论文入选,实力霸榜。

  国内,商汤科技及联合实验室共计 50 篇论文入选 ICCV 2021,同时在 MFR、LPCV 等多项重要竞赛中夺冠。

  放眼全球,中国论文数量几乎占据了「半壁江山」(45.7%),赶超美国(23.6%)。

  据 Aminer 统计,起源人工智能研究院的邵岭教授,以及罗彻斯特大学助理教授 Chenliang Xu,还有南京大学计算机科学与技术系王利民共入选 3 篇,位列华人榜首。

  参考资料:

  https://www.aminer.cn/conf/iccv2021/roster

  https://twitter.com/CSProfKGD

显示余下内容
 

发表评论

邮箱地址不会被公开。 必填项已用*标注