国漫手机壁纸

最会造假的GAN模型,雪地里都能有骆驼!FB发布IC-GAN,迁移能力史上最强

新智元报道来源:FacebookAI编辑:LRS【新智元导读】GAN模型好是好,但就是对训练数据的要求太高,并且在场景和物体的语义组合时容易出现不合常理的生成图像,导致一眼假!最近Facebook发布了一个IC-GAN模型,迁移能力号称史上最强,能把各种场景和物体组合起来,训练集中

NetSmell 出品

  新智元报道

  来源:Facebook AI

  编辑:LRS

  【新智元导读】GAN 模型好是好,但就是对训练数据的要求太高,并且在场景和物体的语义组合时容易出现不合常理的生成图像,导致一眼假!最近 Facebook 发布了一个 IC-GAN 模型,迁移能力号称史上最强,能把各种场景和物体组合起来,训练集中没出现过的也能完美复原!甚至把雪地和骆驼放一起都毫无违和感!

  生成对抗网络 (GAN) 在图像生成领域可以说是最强大的 AI 模型,无论是逼真的图片、抽象的拼贴画、风格迁移都不在话下。

  但 GAN 也有神经网络模型所共有的致命缺点,就是具有局限性,通常只能生成与训练数据集密切相关的物体或场景的图像。

  例如,在汽车图像上训练的 GAN 在生成汽车相关图像时可以做到特别逼真,但可能让它生成鲜花、动物之类的模型就会一眼假,因为生成的图像可能会违反物理常识等。

  Facebook AI Research 为了解决这个问题,提出了一个新模型 Instance-Conditioned GAN (IC-GAN) ,可以生成逼真的、没有见过的图像组合。

  https://arxiv.org/abs/2109.05070

  例如雪和骆驼这种照片或者在城市中的斑马,可以无缝衔接起来。

  目前代码已经开源。

  研究人员从核密度估计(kernel density estimation, KDE)技术中得到启发,引入了一种非参数化方法来建模复杂数据集的分布。KDE 是一种非参数密度估计器,以参数化核的混合形式对每个训练数据点周围的密度进行建模。

  IC-GAN 可以看作是一种混合密度估计器,其中每个分量都是通过对训练实例进行条件化得到的。

  然而与 KDE 不同的是,IC-GAN 没有显式地对数据概率进行建模,而是采用了一种对抗性的方法,其中我们使用一个神经网络隐式地对局部密度进行建模,该神经网络将条件实例和噪声向量作为输入。

  因此,IC-GAN 中的内核不再独立于我们所处理的数据点,我们通过选择实例的邻域大小来控制平滑度,而不是内核带宽参数,我们从中采样真实样本以馈送到鉴别器。

  IC-GAN 将数据流形划分为由数据点及其最近邻描述的重叠邻域的混合物,IC-GAN 模型能够学习每个数据点周围的分布。通过在条件实例周围选择一个足够大的邻域,可以避免将数据过度划分为小的聚类簇。

  当给定一个具有M个数据样本的未标记数据集的嵌入函数f,首先使用无监督或自我监督训练得到f来提取实例特征(instance features)。

  然后使用余弦相似度为每个数据样本定义k个最近邻的集合。

  使用生成器隐式地模拟条件分布p(x hi) 时,生成器从单位高斯先验z∼ N (0, 1) 变换样本从条件分布中抽取样本x,其中 hi 是从训练数据中抽取的实例 xi 的特征向量。

  在 IC-GAN 中,采用对抗式方法来训练生成器,因此生成器与判别器可以联合训练,判别器用来区分 hi 的真实相邻节点和生成的相邻点。对于每个 hi,真实邻居都从 Ai 中均匀采样。

  生成器 G 和判别器 D 都参与了一个两人最小-最大博弈,在博弈中,二者试图找到目标的纳什均衡的等式。

  在训练 IC-GAN 时,使用所有可用的训练数据点来微调模型。在推理时,与 KDE 等非参数密度估计方法一样,IC-GAN 的生成器也需要实例特征,这些特征可能来自于训练分布或不同的分布。

  并且这种方法可以扩展到具有类条件(class condition)的生成上。通过在类标签y上添加一个额外的生成器和判别器,可以让 IC-GAN 用于有类条件的生成。IC-GAN 通过向生成器和判别器提供实例的表示作为额外的输入,并通过使用实例的邻居作为鉴别器的真实样本,学习对数据点(也称为实例)的邻域的分布建模。

  与对离散簇索引进行条件处理不同,对实例表示进行条件处理自然会导致生成器为相似实例生成相似样本。并且一旦训练完成,IC-GAN 可以通过在推理时简单地交换条件实例,轻松地迁移到训练期间未看到的其他数据集。

  实验部分研究人员使用了 ImageNet 和 COCO Stuff 数据集,实验结果表明,与无条件模型和无监督数据分割基线相比,IC-GAN 显著提高了性能。

  非选择性的基线模型 BigGAN 是通过将训练集中的所有标签设置为零来训练的,IC-GAN 在 FID 和 IS 分数方面均以 64×64 和 128×128 分辨率超过了所有以前的方法,并可以在高分辨率下生成更高的质量的图像。

  在进行迁移实验时,首先使用 ImageNet 上使用 BigGAN 架构训练 IC-GAN,并在测试时使用 COCO Stuff 实例生成图像,这种数据分割模式都包含未见过的对象组合方式。在 ImageNet 上训练的 IC-GAN 在所有分割方面都优于在 COCO Stuff 上训练的相同模型:在 128 分辨率下 8.5 比 16.8 训练 FID。

  为了研究 ImageNet 和 COCO Stuff 数据分布的接近程度,研究人员以 128×128 分辨率计算了两个数据集的实际数据序列分割之间的 FID 得分为 37.2。

  因此,IC-GAN 的显著迁移能力不能用数据集的相似性来解释,而可以归因于 ImageNet 预先训练的特征提取器和生成器的有效性。

  将 COCO Stuff 中的条件实例替换为 ImageNet 中的条件实例时,可以得到 43.5 的训练 FID 分数,强调了通过改变条件实例可以实现的重要分布迁移。

  研究人员将 IC-GAN 扩展到类条件情况,并在 ImageNet 上显示语义可控生成和可比的量化结果。

  类条件 IC-GAN 在 FID 和所有分辨率方面都优于 BigGAN,除了 FID 在 128×128 分辨率下的分数。与 BigGAN 不同,IC-GAN 可以通过固定实例特征和交换类条件,或者通过固定类条件和交换实例特征来控制生成图像的语义。

  生成的图像保留了类标签和实例的语义,可以在相似的背景下生成不同的狗品种,或在雪地中生成骆驼,在 ImageNet 中属于未知场景。

  凭借这些新功能,IC-GAN 可用于创建新的视觉示例,以扩充数据集以包含不同的对象和场景;为艺术家和创作者提供更广泛、更有创意的 AI 生成内容;并推进高质量图像生成的研究。

  参考资料:

  https://ai.facebook.com/blog/instance-conditioned-gans/

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。