你算个什么鸟?AI十级“找茬”选手诞生

杨净丰色发自凹非寺量子位报道公众号QbitAI你算个什么鸟?图片面对上面这两张图,一个AI发出了灵魂拷问。左边桃面牡丹鹦鹉,右边费氏牡丹鹦鹉。一眼识破的它早就看到左边的鸟的喙部和眼圈与右边的不一样。不行,再来!再来看这组。(文末揭晓答案)图片好,我放弃了。图片这个来自浙大计

NetSmell 出品

  杨净丰色发自凹非寺量子位报道公众号 QbitAI

  你算个什么鸟?


图片

  面对上面这两张图,一个 AI 发出了灵魂拷问。

  左边桃面牡丹鹦鹉,右边费氏牡丹鹦鹉。

  一眼识破的它早就看到左边的鸟的喙部和眼圈与右边的不一样。

  不行,再来!再来看这组。(文末揭晓答案)


图片

  好,我放弃了。


图片

  这个来自浙大计算机学院和阿里安全的“找茬”选手,识别准确率达到了 91.3%,已经是业内最优水平。研究成果已被多媒体国际顶会 ACM MM 2021 收录。

  不光鸟,阿猫阿狗也能行,甚至花草植物也能行。

  看看这连两张照片,吉娃娃还是英国玩具梗?


图片

  再来看这一波,羊驼还是美洲驼?驴还是骡?玫瑰还是羽衣甘蓝?


图片

  AI 好眼力!那到底是如何练成的?

  AI 如何练就的一副好眼力?

  实际上,这涉及到计算机视觉领域一个经典问题——细粒度图像识别,让 AI 一眼锁定类别之间的细微差异。

  看起来简单,实际不简,就比如下面左边这俩。


图片

  对于 AI 来说,区域注意力的定位和放大是保证识别准确率一个重要因素,此前大量基于 CNN 的探索发现,CNN 的感受野有限,且缺乏全局依赖关系的建模能力。

  感受野:网络内部的不同位置的神经元对原图像的感受范围

  研究人员认为,与 CNN 相比,图像序列化是一种全新的方式。

  他们把目光转向了最近在 CV 领域取得了非常多研究进展的视觉 Transformer(ViT)。

  一开始,研究人员引入了 ViT 中的自注意力机制,提取图像中的长距离依赖关系。

  不过 ViT 的感受野大小相对固定,对图像中的每个 patch 的关注程度没有产生区分,也就给细粒度图像识别带来了性能局限。

  既然如此,那该如何让 AI 找准“重点”呢?

  研究人员决定使用注意力权重的强度来衡量对应于原始图像的 patch 重要性,提出了多尺度循环注意力的 Transformer(RAMS-Trans)。

  它利用 Transformer 的自注意力机制,以多尺度的方式循环地学习判别性区域注意力。

  团队成员之一,阿里安全图灵实验室算法专家炫谦介绍道:

  我们方法的核心是动态 patch 建议模块(DPPM)引导区域放大,以完成多尺度图像 patch 块的集成。DPPM 从全局图像开始,迭代放大区域注意力,以每个尺度上产生的注意力权重的强度为指标,从全局到局部生成新的 patch 块。


图片

  具体来说,首先提取 ViT 每层的自注意力机制,并进行归一化,然后采取累乘的方式对自注意力整合。

  然后,得到了整合后的自注意力均值分布矩阵,由于细粒度图像识别任务的关键因素在于局部注意力,其往往存在于图像的局部区域,如鸟的尾部、喙和蛙类的头部等。

  因此研究者需要通过设定阈值的方式来“过滤”不需要的部位,增强对局部判别性区域的识别能力。

  最后,研究者通过插值算法将选定的 patch 块放大到原图像的尺寸,通过共享参数的模型,重新进行训练,整体结构对应于文章所提的多尺度循环机制。

  下图为 RAMS-Trans 在识别鸟类时根据注意力权重生成的注意图(attention map)。


图片

  △第二、三行分别为从原始和重新训练过的注意权重生成

  扩展到更多动物身上的效果:


图片

  战绩如何?

  RAMS-Trans 只需要 ViT 本身附带的注意力权重,就可以很容易地进行端到端的训练。

  实验表明,除了高效的 CNN 模型外,RAMS-Trans 的表现比同期进行的工作更好,分别在 CUB-200-2011(鸟类识别)、Stanford Dogs(狗类识别)、iNaturalist2017(动植物识别)获得 SOTA。

  分别达到 91.3%、68.5%、92.4% 的识别准确率。


图片

  在不同种类动植物的细粒度判别时,RAMS-Trans 可以聚焦到类别的独特特征区域。


图片 △第二、四、六行分别为放大到原图像尺寸的的 patch 块

  针对不同类别识别准确率不同,甚至还有较大的区别,一作浙大博士胡云青解释道,主要有两方面的因素。

  一是因为 Stanford Dogs 本身的类别数比其他两个数据集都要小。只有 120 分类(CUB 是 200,而 iNaturaList 更是达到了 5089)。

  类别数越多,通常意味着该数据集的细粒度问题越严重,因此 RAMS-Trans 在更细粒度的数据集上取得的提升相对明显。

  二则因为在某个类别上大部分样本具有相似的特征,而不同种类间的狗也具有明显的判别性特征。

  比如大部分博美都有相似的毛色和头型;德牧和金毛之间,人眼就可以做到明显区分。

  通过消融实验发现,当分辨率为 320、阈值为 1.3、patch 方案为 DPPM、patch 块大小为 16×16 时,模型效果最好。


图片

  接下来,团队还将在两个方面进行优化:

  提高定位能力。目前,RAMS-Trans 在原图上以 patch 为最小单位进行判别性区域定位和放大的过程,对于细粒度图像识别来说,这个较为“精细”的任务来说还是相当粗旷。

  动态网络的引入,包括动态训练和动态推理等。另外,已经有了可预见的应用场景,比如野生动物保护治理、山寨商标的识别。


图片

  浙大&阿里安全


图片

  这项研究主要由浙江大学计算机学院、阿里安全图灵实验室共同完成。

  其中第一作者胡云青,目前浙江大学计算机学院 DMAC 实验室博士在读,师从张寅教授。此外还是阿里安全图灵实验室实习生。

  论文链接:https://arxiv.org/abs/2107.08192

显示余下内容
相关文章:
  1. 腾讯音乐没了周杰伦独家,网易云为何不高兴
  2. 蚂蚁集团面临拆分
  3. 单季新增6000万用户 美团让阿里拼多多们感受到了压力
  4. Let’s Encrypt 根证书即将到期
  5. 侵害用户权益!工信部通报145款App:抖音极速版、迅雷在列
  6. 马斯克:视觉神经网络实现的自动驾驶 安全性超人类十倍以上
  7. 反铁磁体中磁性现象的新发现有望迎来更快、更有效率的数据存储
  8. 任天堂或将Game Boy和Game Boy Color游戏带到Switch Online
  9. NASA招募探险家在地球上进行为期一年的模拟火星任务
  10. 银河中心附近的奇怪射电信号难住科学家
 

发表评论

您的电子邮箱地址不会被公开。