苏黎世华人博士提出模型SwinIR,只用33%的参数量就碾压图像修复领域sota

新智元报道来源:arXiv编辑:LRS【新智元导读】参数量和模型的性能有绝对关系吗?苏黎世华人博士提出SwinIR模型,实验结果告诉你,越小的模型还可能更强!SwinIR使用Transformer力压CNN,又在图像修复领域屠榜,模型参数量降低67%,再也不要唯参数量论英雄了!

NetSmell 出品

  新智元报道

  来源:arXiv

  编辑:LRS

  【新智元导读】参数量和模型的性能有绝对关系吗?苏黎世华人博士提出 SwinIR 模型,实验结果告诉你,越小的模型还可能更强!SwinIR 使用 Transformer 力压 CNN,又在图像修复领域屠榜,模型参数量降低 67%,再也不要唯参数量论英雄了!

  图像修复(image restoration)是一个受到长期关注和研究的最基础的 CV 问题,它能够从低质量的图像,例如缩略图、有噪音的图或是压缩图像中恢复为原始高质量图像。

  但目前图像修复领域的 sota 方法都是基于卷积神经网络 CNN 的,但是很少有人尝试使用 Transformer,尽管 ViT 在高级视觉任务中早已占据排行榜多年。

  来自苏黎世联邦理工学院的华人博士提出一个适用于图像修复的模型 SwinIR,主要包括浅层特征提取、深层特征提取和高质量图像重建三部分。

  实验结果证明 SwinIR 的性能比目前 sota 方法提高了 0.14-0.45dB,并且参数量还降低了 67%。

  论文地址:https://arxiv.org/abs/2108.10257

  项目地址:https://github.com/JingyunLiang/SwinIR

  大多数基于 CNN 的方法侧重于精细的架构设计,如 residual learning 和 dense learning,通过巧妙的模型设计来提升性能,增大模型容量。

  虽然与传统的基于模型的方法相比 CNN 的性能有了显著的提高,但通常会遇到两个源于卷积层的基本问题 :

  1)图像和卷积核之间的交互与内容无关。使用相同的卷积核来恢复不同的图像区域可能不是最佳选择;

  2)由于 CNN 更关注局部特征,所以卷积对于长依赖性、全局的特征建模是效果不好。

  在这种情况下,很容易想到 Transformer 来替代 CNN。Transformer 的自注意力机制能够很好地捕获上下文之间的全局交互,并在多个视觉任务上具有出了良好的表现。

  然而, 用于图像修复的 ViT 需要将输入图像分割为具有固定大小(例如 48×48)的 patch, 并对每个部分进行单独处理。

  这种策略不可避免地会产生两个缺点:

  1)边界像素不能利用块外的相邻像素进行图像恢复;

  2)恢复的图像可能会在每个图像块周围引入边界伪影。

  虽然这个问题可以通过 patch 重叠来缓解,但它会带来额外的计算负担。

  模型设计

  SwinIR 的设计基于 Swin Transformer,包括三个部分:

  1)浅层特征抽取 shallow feature extraction

  浅层特征提取模块采用卷积层提取浅层特征,并将浅层特征直接传输到重构模块,以保留低频信息。

  2)深层特征抽取 deep feature extraction

  深层特征提取模块主要由 residual Swin Transformer Block(RSTB)组成组成,每个块利用多个 Swin Transformer layer (STL)进行局部注意力和交叉窗口的交互。此外,还在块的末尾添加一个卷积层以增强特征,并使用残差连接为特征聚合提供快捷方式,也就是说 RSTB 由多个 STL 和一个卷积层共同构成残差块,

  3)高质量图像重建 high-quality(HQ) image reconstructi

  重建模块是最后一步,融合了浅层和深层特征用了恢复高质量的图像。

  在实验方面,作者首先研究了通道数,RSTB 数目和 STL 数目对结果的影响。可以观察到 PSNR 与这三个超参数正相关。对于信道数,虽然性能不断提高,但参数量呈二次增长。为了平衡性能和模型尺寸,在剩下的实验中选择 180 作为通道数。对于 RSTB 数和层数,性能增益逐渐饱和,所以后续实验设置为 6 以获得一个相对较小的模型。

  和经典的图像超分辨率(super-resolution, SR)模型对,包括 DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA 和 IPT。可以看出,当在 DIV2K 数据上进行训练时,SwinIR 在几乎所有五个基准数据集的所有比例因子上都取得了最佳性能,在 Manga109 在 4 倍缩放上的最大 PSNR 增益达到 0.26dB。

  不过需要注意的是,RCAN 和 HAN 引入了通道和空间注意力,IGNN 提出了自适应 patch 特征聚合,NLSA 基于非局部注意机制。所有这些基于 CNN 的注意机制的表现都不如所提出的基于 Transformer 的 SwinIR,这也表明了文中所提出模型的有效性。

  当在更大的数据集(DIV2K+Flickr2K)上训练 SwinIR 时,性能进一步大幅度提高,也实现了比基于 Transformer 的模型 IPT 更好的精度,达到 0.47dB。即使 IPT 在训练中使用 ImageNet(超过一百三十万图像),并且具有超过一亿的参数。相比之下,即使与基于 CNN 的 sota 模型相比,SwinIR 的参数也很少(1500 万-4430 万)。

  在运行时方面,与基于 CNN 的代表性的模型 RCAN 相比,IPT 和 SwinIR 在 1024×1024 分别需要约 0.2、4.5 和 1.1 秒。

  实验结果

  从可视化结果来看,SwinIR 可以恢复高频细节并减轻模糊瑕疵,并产生锐利且自然的边缘。

  相比之下,大多数基于 CNN 的方法会产生模糊的图像,甚至是不正确的纹理。与基于 CNN 的方法相比,IPT 生成的图像更好,但它存在图像失真和边界伪影。

  在图像降噪任务上,比较的方法包括传统模型 BM3D 和 WNNM,基于 CNN 的模型 DnCNN,IR-CNN,FFDNet,N3Net,NLRN,FOC-Net,RNAN,MWCNN 和 DRUNet。可以看到 SwinIR 模型比所有方法都强。

  特别是它在具有 100 个高分辨率测试图像的大型 Urban100 数据集上通过最先进的 DRUNet 模型,最高可达 0.3dB,并且 SwinIR 只有 1200 万的参数,而 DRUNet 有三亿参数,也就能侧面证明 SwinIR 的架构在学习用于图像恢复的特征表示方面是高效的。

  SwinIR 模型可以去除严重的噪声干扰并保留高频图像细节,从而获得更清晰的边缘和更自然的纹理。相比之下,其他方法要么过于平滑,要么过于锐利,无法恢复丰富的纹理。

  参考资料:

  https://arxiv.org/abs/2108.10257

显示余下内容
相关文章:
  1. 14岁上清华!清华最小数学领军人才程大拙,初中特招8年本硕博连读
  2. 腾讯联合国家天文台启动探星计划,用AI寻找脉冲星线索
  3. 噬血者瓜分元宇宙
  4. 「事件相机」告别模糊!CVPR 2021发表视频慢动作的新sota,还发了160FPS的数据集
  5. 淘特“助农半年报”:直供产地覆盖全国近500个县区,农产品销售规模翻5倍
  6. 美国AI再加码:投资2.2亿美元新增11个国家AI研究中心
  7. 阿里云总裁张建锋:以云为核心的新型计算体系结构正在形成
  8. 小米汽车变更为台港澳法人独资
  9. 上海超级工厂成特斯拉主要出口中心
  10. 车主发布NOP系统认知联合声明 蔚来回应:与官方无关
 

发表评论

您的电子邮箱地址不会被公开。