国漫手机壁纸

女妆马斯克,秃头扎克伯格!最好玩的模型StyleCLIP开源,快给自己也捏脸换装

新智元报道来源:futurism编辑:LRS【新智元导读】马斯克真是为科研事业奉献太多!最近以色列的科研人员推出一个新的生成模型StyleCLIP,只需要输入文本提示符,就可以获得一个你想要的假图,例如「化妆」就可以获得一个精致的马斯克,或者输入「短发」给马斯克换发型,那输入「女装」岂不是?

NetSmell 出品

  新智元报道

  来源:futurism

  编辑:LRS

  【新智元导读】马斯克真是为科研事业奉献太多!最近以色列的科研人员推出一个新的生成模型 StyleCLIP,只需要输入文本提示符,就可以获得一个你想要的假图,例如「化妆」就可以获得一个精致的马斯克,或者输入「短发」给马斯克换发型,那输入「女装」岂不是?

  马斯克又被网友以科研的名义玩坏了,只需要输入你想要的发型或者肤色的名称,立刻就能获得一个相应发型的马斯克!

  例如输入苍白的(Pale),就可以获得一个雪白的马斯克;输入晒黑的(Tanned),又可以获得一个马斯克日光浴限定版。

  输入化妆、卷发、直发等等,解锁更多马斯克肖像,不过第三排的发型,在马斯克的脑袋上显得十分违和。

  这是一项来自以色列的研究人员的工作 StyleCLIP,可以使用基于人工智能的生成对抗性网络对照片进行超逼真的修改,并且只需要让用户输入他们想要的东西的描述即可,无需输入特定的图片。

  https://arxiv.org/pdf/2103.17249.pdf

  这个模型也会产生一些非常搞笑的结果。例如可以给 Facebook 的 CEO 马克 · 扎克伯格的脸随意修改,例如让他看起来秃顶,戴上眼镜,或者在下巴上扎上山羊胡。

  这个「火星人」的脸上似乎也有了一点人类的感觉。

  目前代码已经开源,快玩一玩看看自己适合什么样的发型吧!

  https://github.com/orpatashnik/StyleCLIP

  StyleCLIP

  StyleCLIP 模型主要由 StyleGAN 和 CLIP 模型组成。

  StyleGAN 可以在不同领域(domain)生成高度真实图像,最近也有大量的工作都集中在理解如何使用 StyleGAN 的隐空间来处理生成的和真实的图像。

  但发现语义上潜在有意义的操作通常需要对多个自由度进行细致的检查,这需要耗费大量的人工操作,或者需要为每个期望的风格创建一个带注释的图像集合。

  既然基于注释,那多模态模型 CLIP(Contrastive Language-Image Pre-training)的能力是否就可以利用上,来开发一个不需要手动操作的基于文本的 StyleGAN 图像处理。

  例如输入可爱的猫(cute cat),眯眼睛的猫就被放大了眼睛,获取了所有可爱小猫的特征,还可以老虎变狮子等等。

  提出三种方法来利用 CLIP 的语义表达能力:

  1、隐优化技术(latent optimization technique)

  使用标准的反向传播方法修改给定的潜编码,使得生成的图像和给定的目标文本之间的 CLIP-space 内距离最小。

  2、隐映射(latent mapper)

  训练网络将输入的隐编码转换为修改生成图像中文本描述属性的编码。这个映射器使用相同的全局 CLIP 损失进行训练,从而最小化到目标文本的 CLIP-space 距离。对于一些剧烈的形状修改,研究人员发现训练这样一个隐映射器可以帮助提高识别结果。

  文本引导 mapper 的架构,在输入”surprise”后,源图像被转换为隐编码w。训练三个单独的映射函数来生成残差(蓝色),这些残差被添加到w中以生成目标代码,从中预训练的样式(绿色)生成图像(右侧),通过 CLIP loss 进行评估生成效果。

  mapper 经过训练后,可以操作文本提示t所指示的图像的所需属性,同时保留输入图像的其他视觉属性。

  为了保持原始输入图像的视觉属性,还需要在隐空间中最小化操作步骤的 L2 范数。

  文本提示一次不限于单个属性,例如可以同时设置头发属性的四种不同组合,直发/卷发和短发/长发,每种组合都会产生预期的结果,并且任何先前的方法都无法达到这种控制程度。

  由于隐映射器上为每个输入图像推断定制的操作步骤,因此检查潜在空间中的步骤方向在不同输入上的变化程度也是很有趣的。

  3、全局方向(Global Direction)

  通过确定修改哪些维度的隐编码会导致图像空间变化,从而发现 GAN 隐空间中有意义的变化方向。尽管隐映射器允许快速推理,但研究人员发现,当需要细粒度的操作时,有时会出现不足的映射能力。

  此外,对于给定的文本提示,不同操作步骤的方向趋于相似。所以需要一种将文本提示映射到单一、全局的 StyleGAN 样式空间中的方法,文中提出的方法已被证明比其他隐空间更为有效。

  在实验部分,和其他基于文本驱动的图像处理方法如 TediGAN 相比,输入强指定文本为”Trump”, 弱特指”Mohawk”, 更常见的文本”without wrinkles”。

  特朗普比较复杂,包括多个属性,如金发、眯眼、张嘴、有点肿胀的脸和特朗普的特殊身份,但全局隐方向则能够捕捉到主要的视觉属性,尽管这些视觉特征并非专属于特朗普,并且它也无法感知到特朗普的特定身份。

  对于无皱纹(without wrinkle)的文字提示,Global Direction 模型可以成功地消除皱纹,同时保持其他属性大部分不受影响,而 Mapper 模型做不到这点。

  可以得出结论,对于复杂和特定属性(尤其是涉及身份的属性),Mapper 能够产生更好的生成结果。

  但对于更简单和/或更常见的属性,一个全局方向就足够了,同时提供了更多的分离操作。

  并且可以看到 TediGAN 产生的结果在三个实验中都不太理想。

  但 StyleCLIP 也有缺陷,例如依赖于一个预训练的 StyleGAN 生成器和 CLIP 模型来实现联合语言视觉 embedding,因此无法将图像操纵到某些预训练模型的域外点。

  类似地,映射到到 CLIP 空间中没有图像填充的区域的文本提示也不能期望产生期待的结果。

  并且在视觉变化较大的操作是很难实现的,例如,虽然老虎很容易转化为狮子,但将老虎转化为狼的成功率较低。

  参考资料:

  https://futurism.com/the-byte/neural-network-elon-musk-makeovers

  https://arxiv.org/pdf/2103.17249.pdf

  https://github.com/orpatashnik/StyleCLIP

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。