国漫手机壁纸

一键让「手绘图」变动画!AnT模型技术公开,手绘图变动画准确率提升10%

新智元报道来源:arXiv编辑:LRS【新智元导读】有了AI技术的加持以后,普通人借助各种辅助工具可以很容易地进行艺术创作!这次有一个AI公司带来了一个让手绘图动起来的app,现在已经开放测试体验,还发表了一篇论文来介绍具体使用的技术,相比以往的研究,准确率提升超10个点!手绘

NetSmell 出品

  新智元报道

  来源:arXiv

  编辑:LRS

  【新智元导读】有了 AI 技术的加持以后,普通人借助各种辅助工具可以很容易地进行艺术创作!这次有一个 AI 公司带来了一个让手绘图动起来的 app,现在已经开放测试体验,还发表了一篇论文来介绍具体使用的技术,相比以往的研究,准确率提升超 10 个点!

  手绘动画已经存在了超过 100 多年,即使在电子产品时代也是十分流行,可以使用绘图平板电脑或者数字软件进行手绘。

  电子产品将手绘动画的制作过程也大大简化了,但仍然需要大量的手工操作,需要对每一帧进行绘制和编辑。

  这些任务处于重复劳动和完全艺术创作的中间地带,也是 AI 辅助工具最擅长的领域:缓解重复劳动,辅助人类进行艺术创作。

  目前商业的手绘辅助工具大多使用启发式算法,但效果十分有限,而且这些工具通常要求创作者以矢量格式进行绘制或使用复杂、特定的流程工作,这些限制可能会对最终生成作品的手绘感有所影响。

  而深度学习方法比较适用于这种场景,神经网络模型可以很自然地把原始像素作为模型输入,但它的泛化性要弱一些,例如训练好的模型对于输入图像的 size 有要求,无法直接扩展到更高分辨率的情况,也无法利用到手绘图像的结构信息,特别是那些矢量信息。

  针对这个问题,Cadmium 公司最近在 arxiv 上传了一篇论文,介绍了一下他们的解决方法。研究人员主要关注学习光栅动画线条图(raster animation line drawings)序列之间的视觉对应(visual corresponding)关系。

  论文地址:https://arxiv.org/abs/2109.0261

  视觉对应是构建手绘动画辅助工具的基本模块,主要用于着色、中间处理和纹理等任务,这些任务也是创作动画流程中的主要非创造性工作。目前大量工作都在关注如何在像素层次上学习视觉对应,而很少去考虑线条层次的是视觉对应学习。

  通过视觉对应信息,动画师可以对序列中的几帧进行着色或处理纹理,并在其余图像中复制相同的颜色,而无需重复上色。并且使用对应信息的相邻帧,可以自动生成新的中间帧,能够减少生成平滑运动所需的线条数量。

  深度学习模型是一个数据驱动的问题解决方案,但由于模型设计上比较有难度,并且缺乏可用的带标签数据集,所以目前这方面还没有吸引太多人研究。

  这个预期的模型应当具备 5 个能力:

  1)能够在光栅(raster)输入上操作,并缩放至 1920×1080 及以上分辨率

  2)在 segment 层面上产生视觉对应关系;

  3)能够处理复杂的真实世界动画;

  4)能够使用彩色图像作为数据进行有监督训练;

  5)要做成交互式应用程序,速度要足够快。

  这篇文章就提出了一个模型 Animation Transformer (AnT)来解决这些问题。

  与基于像素的视频跟踪方法需要大量注意力计算不同,AnT 在线条图像中的线条封闭段上进行操作,并使用基于 Transformer 的架构来学习线条之间的空间和视觉关系。

  通过对这种表示进行操作,AnT 不需要直接处理整张图片,也就很容易提高计算效率和内存利用率。并且这种方法可以扩展到 4K 图像甚至更高,使用前向匹配损失和循环一致性损失对 AnT 进行优化,使其能够在真实世界的动画数据集上进行训练,而无需完整的真实标签。

  AnT 模型的主要架构由三个模块组成:

  1、CNN 主干网络用于提取每个 segment 的视觉特征

  2、边界框编码器(bounding box encoder) 用于提取每个 segment 的位置 embedding

  3、一个多路复用转换器(multiplex transformer) 用于学习 segment 和帧的全局结构并预测最终匹配矩阵

  虽然位置和视觉特征是估计线段对应关系的基础,但经常出现的视觉特性不能仅通过局部特征来解决。

  例如遮挡或变形会破坏单个片段的形状,或者可能存在多个片段相同的片段,例如眼睛,如果单独查看每个部分则无法区分。

  并且一组动画线条通常包含属于同一语义部分的相邻线段组,但需要被分割为多个线段,因为前景中包含一个对象,但这些线段的轮廓线有可能和后面的对象相交(例如两个打架的小人)。

  为了能够从对应标签和颜色标签中学习, AnT 使用了两个损失函数,既可以单独使用,也可以根据标签来源取平均。

  1、前向匹配损失(Forward match loss): 为了促进模型直接使用视觉对应或颜色标签信息,研究人员使用数据集中预测的目标标签和真实目标标签之间的分类交叉熵损失。

  在存在视觉对应标签的情况下,作为加权平均计算输入的目标标签和参考标签都是唯一的,所以模型可以直接将不正确的视觉对应最小化。

  但是,在有颜色标签的情况下,目标标签和参考标签可能是不唯一的,并且该模型仅最小化错误的颜色指定。这将导致模型学习到捷径并找到匹配项,这些匹配项将产生正确的颜色分配,但可能导致不正确的视觉对应。

  2、周期一致损失(cycle consistency loss): 为了解决前向损失产生不正确视觉对应的问题,当存在有不唯一颜色标签的情况下,周期一致损失将阻止模型学习捷径匹配。并且不使用数据集中的参考标签,而是给唯一片段 ID 初始化一个随机向量,使用它们代替目标标签进行加权标签聚合。

  由于缺少公开可用的数据集,论文中使用了两个自用数据:

  1、合成数据集(Synthetic Dataset): 为了训练 AmT 的分段对应标签,研究人员使用免费的 3D 模型在 Cinema4D 数据集中生成一个合成数据集。使用卡通着色器渲染线条图像,并通过为单个网格指定唯一 ID 来生成线段对应标签。角色通过不同的运动、变形和旋转来模拟实际动画。使用 TurboSquid 的 11 个 3D 角色模型,以 1500×1500 像素的分辨率为每个角色生成 1000 帧,总共生成 11000 帧。

  2、真实数据集(Real Dataset): 由于动画师不局限于 3D 程序的限制,所以手绘动画比 3D 动画更具多样性和表现力,并且手绘动画包含更广泛的动画样式和角色设计。但对于视觉对应模型来说,它们并不能从 3D 程序的合成数据中训练。

  为了解决这个问题,研究人员从 17 个不同的真实动画作品中收集了一个高分辨率手绘动画数据集,总共 3578 帧。每部作品的动画风格差异很大,但风格更接近美国和欧洲动画,数据集极其多样化,有数百个不同的人物。真实数据集没有唯一的对应标签,所以使用彩色图像中的段颜色来提取标签。与合成数据集相比,这个操作会产生非唯一的数字分段标签。

  通过量化结果可以看出 AnT 的准确率提升了近 10 个点,比以往的模型都有较大提升。

  目前这项技术已经落地成产品,目前处于 beta 测试版,可以访问 Cadmium 的官网 https://cadmium.app/ 申请体验。

  参考资料:

  https://arxiv.org/abs/2109.0261

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。