国漫手机壁纸

语言模型“不务正业”做起目标检测,性能还比DETR、Faster R-CNN更好 | Hinton团队研究

博雯发自凹非寺长期以来,CNN都是解决目标检测任务的经典方法。就算是引入了Transformer的DETR,也是结合CNN来预测最终的检测结果的。但现在,GeoffreyHinton带领谷歌大脑团队提出的新框架Pix2Seq,可以完全用语言建模的方法来完成目标检测。团队由图

NetSmell 出品

  博雯发自凹非寺

  长期以来,CNN 都是解决目标检测任务的经典方法。

  就算是引入了 Transformer 的 DETR,也是结合 CNN 来预测最终的检测结果的。

  但现在,Geoffrey Hinton 带领谷歌大脑团队提出的新框架 Pix2Seq,可以完全用语言建模的方法来完成目标检测。

  团队由图像像素得到一种对目标对象的“描述”,并将其作为语言建模任务的输入。然后让模型去学习并掌握这种“语言”,从而得到有用的目标表示。

  最后取得的结果基本与 Faster R-CNN、DETR 相当,对于小型物体的检测优于 DETR,在大型物体检测上的表现也比 Faster R-CNN 更好,。

  接下来就来具体看看这一模型的架构。

  从物体描述中构建序列

  Pix2Seq 的处理流程主要分为四个部分:

  图像增强

  序列的构建和增强

  编码器-解码器架构

  目标/损失函数

  首先,Pix2Seq 使用图像增强来丰富一组固定的训练实例。

  然后是从物体描述中构建序列。

  一张图像中常常包含多个对象目标,每个目标可以视作边界框和类别标签的集合。

  将这些对象目标的边界框和类别标签表达为离散序列,并采用随机排序策略将多个物体排序,最后就能形成一张特定图像的单一序列。

  也就是开头所提到的对“描述”目标对象的特殊语言。

  其中,类标签可以自然表达为离散标记。

  边界框则是将左上角和右下角的两个角点的X,Y坐标,以及类别索引c进行连续数字离散化,最终得到五个离散 Token 序列:

  研究团队对所有目标采用共享词表,这时表大小=bins 数+类别数。

  这种量化机制使得一个 600×600 的图像仅需 600bins 即可达到零量化误差,远小于 32K 词表的语言模型。

  接下来,将生成的序列视为一种语言,然后引入语言建模中的通用框架和目标函数。

  这里使用编码器-解码器架构,其中编码器用于感知像素并将其编码为隐藏表征的一般图像,生成则使用 Transformer 解码器。

  和语言建模类似,Pix2Seq 将用于预测并给定图像与之前的 Token,以及最大化似然损失。

  在推理阶段,再从模型中进行 Token 采样。

  为了防止模型在没有预测到所有物体时就已经结束,同时平衡精确性(AP)与召回率(AR),团队引入了一种序列增强技术:

  这种方法能够对输入序列进行增广,同时还对目标序列进行修改使其能辨别噪声 Token,有效提升了模型的鲁棒性。

  在小目标检测上优于 DETR

  团队选用 MS-COCO 2017 检测数据集进行评估,这一数据集中含有包含 11.8 万训练图像和 5 千验证图像。

  与 DETR、Faster R-CNN 等知名目标检测框架对比可以看到:

  Pix2Seq 在小/中目标检测方面与 Faster R-CNN 性能相当,但在大目标检测方面更优。

  而对比 DETR,Pix2Seq 在大/中目标检测方面相当或稍差,但在小目标检测方面更优。

  一作华人

  这篇论文来自图灵奖得主 Geoffrey Hinton 带领的谷歌大脑团队。

  一作 Ting Chen 为华人,本科毕业于北京邮电大学,2019 年获加州大学洛杉矶分校(UCLA)的计算机科学博士学位。

  他已在谷歌大脑团队工作两年,目前的主要研究方向是自监督表征学习、有效的离散结构深层神经网络和生成建模。

  论文:https://arxiv.org/abs/2109.10852

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。