国漫手机壁纸

我,谷歌AI编舞师,能据音乐来10种freestyle,想看爵士or芭蕾?

丰色发自凹非寺量子位报道公众号QbitAITransformer又又接新活了——这次谷歌用它搞了一个会根据音乐跳舞的AI。话不多说,先让它给大家来几段freestyle(原视频见文末地址):嗯,动作还挺美观,各种风格也驾驭住了。看着我都想跟着来一段。你pick哪个?而这个

NetSmell 出品

  丰色发自凹非寺

  量子位报道公众号 QbitAI

  Transformer又又接新活了——

  这次谷歌用它搞了一个会根据音乐跳舞的 AI

  话不多说,先让它给大家来几段 freestyle(原视频见文末地址):

  嗯,动作还挺美观,各种风格也驾驭住了。

  看着我都想跟着来一段。

  你 pick 哪个?

  而这个 AI 也凭借着对音乐和舞蹈之间的关联的深刻理解,打败了 3 个同类模型取得 SOTA,登上了 ICCV 2021。

  另外,除了代码开源,研究团队还随之一起公开了一个含有 10 种类型的 3D 舞蹈动作数据集。

  心动的,搞起来搞起来!

  这个 freestyle 怎么来?

  前面咱们不是说,这个 AI 用了 Transformer 吗?

  但这里的 Transformer 不是普通的 Transformer,它是一个基于完全注意力机制(Full-Attention)的跨模态 Transformer,简称FACT

  为什么要搞这么复杂?

  因为研究人员发现,光用单纯的 Transformer 并不能让 AI 理解音乐和舞蹈之间的相关性

  所以,这个 FACT 是怎么做的呢?

  总的来说,FACT 模型采用了独立的动作和音频 transformer

  首先输入 2 秒钟的 seed 动作序列和一段音频,对其进行编码。

  然后将 embedding(从语义空间到向量空间的映射)连接起来,送入跨模态 transformer 学习两种形态的对应关系,并生成n个后续动作序列。

  这些序列再被用来进行模型的自监督训练。

  其中 3 个 transformer 一起学习,采用的是不用预处理和特征提取,直接把原始数据扔进去得到最终结果的端到端的学习方式。

  另外就是在自回归框架中进行模型测试,将预期运动作为下一代阶段的输入。

  最终,该模型可以逐帧地生成一段(long-range)舞蹈动作。

  下图则展示了该模型通过同一段种子动作(嘻哈风格)、不同音乐生成了四种舞蹈作品(霹雳舞、爵士芭蕾、Krump 和 Middle Hip-hop)。

  有没有懂行的点评一下?

  而为了让 AI 生成的舞蹈生动且和音乐风格保持一致,这个模型设计里面有3 个关键点

  1、模型内部 token 可以访问所有输入,因此三个 transformer 都使用一个完全注意力 mask。这使得它比传统的因果模型更具表现力。

  2、不只预测下一个,该模型还预测N个后续动作。这有助于模型关注上下文,避免在几个生成步骤后出现动作不衔接和跑偏的情况。

  3、此外,在训练过程的前期还用了一个 12 层深的跨模态 transformer 模块来融合两个 embedding(音频和动作)。研究人员表示,这是训练模型倾听分辨输入音乐的关键。

  下面就用数据来看看真实性能。

  打败 3 个 SOTA 模型

  研究人员根据三个指标来评估:

  1、动作质量:用 FID 来计算样本(也就是他们自己发布的那个数据集,后面介绍)和生成结果在特征空间之间的距离。一共用了 40 个模型生成的舞蹈序列,每个序列 1200 帧(20 秒)。

  FID 的几何和动力学特性分别表示为 FIDg 和 FIDk。

  2、动作多样性:通过测量 40 套生成动作在特征空间中的平均欧氏距离(Euclidean distance)得出。

  分别用几何特征空间 Distg 和动力学特征空间k来检验模型生成各种舞蹈动作的能力。

  3、动作与音乐的相关性:没有好的已有指标,他们自己提出了一个“节拍对齐分数”来评估输入音乐(音乐节拍)和输出 3D 动作(运动节拍)之间的关联。

  下面是 FACT 和三种 SOTA 模型(Li 等人的、Dancenet、Dance Revolution)的对比结果:

  可以看到,FACT 在三项指标上全部 KO 了以上三位。

  *由于 Li 等人的模型生成的动作不连续,所以它的平均动力学特征距离异常高,可以忽略。

  看了数据,咱们再看个更直观的:

  emmm,相比动作灵活的 FACT,其他两位看起来都有点“不太聪明”的亚子……

  舞蹈动作数据集 AIST++

  最后,再来简单介绍一下他们自己打造的这个3D 舞蹈动作数据集 AIST++

  看名字你也发现了,这是基于现有的舞蹈数据集 AIST 的“加强版”,主要是在原有基础上加上了 3D 信息。

  最终的 AIST++ 一共包含 5.2 小时、1408 个序列的 3D 舞蹈动作,跨越十种舞蹈类型,包括老派和新派的的霹雳舞、Pop、 Lock、Waack,以及 Middle Hip-Hop、LA-style Hip-Hop、House、Krump、街头爵士和爵士芭蕾,每种舞蹈类型又有85% 的基本动作和 15% 的高级动作

  (怎么感觉全是街舞啊?)

  每个动作都提供了 9 个相机视角,下面展示了其中三个。

  它可以用来支持以下三种任务:多视角的人体关键点估计;人体动作预测/生成;人体动作和音乐之间的跨模态分析。

  团队介绍

  一作李瑞龙,UC 伯克利一年级博士生,UC 伯克利人工智能研究室成员,Facebook Reality Labs 学生研究员。

  研究方向是计算机视觉和计算机图形学的交叉领域,主要为通过 2D 图像信息生成和重建 3D 世界。

  读博之前还在南加州大学视觉与图形实验室做了两年的研究助理。

  本科毕业于清华大学物理学和数学专业、硕士毕业于计算机专业,曾在 Google Research 和字节 AI Lab 实习。

  共同一作 Yang Shan,就职于 Google Research。

  研究方向包括:应用机器学习、多模态感知、3D 计算机视觉与物理仿真。

  博士毕业于北卡罗来纳大学教堂山分校(UNC,美国 8 所公立常春藤大学之一)。

  David A. Ross,在 Google Research 领导 Visual Dynamics 研究小组。

  加拿大多伦多大学机器学习和计算机视觉专业博士毕业。

  Angjoo Kanazawa,马里兰大学博士毕业,现在是 UCB 电气工程与计算机科学系的助理教授,在 BAIR 领导旗下的 KAIR 实验室,同时也是 Google Research 的研究员。

  最最后,再来欣赏一遍 AI 编舞师的魅力吧:

  论文:

  https://arxiv.org/abs/2101.08779

  GitHub:

  https://github.com/google-research/mint

  数据集:

  https://google.github.io/aistplusplus_dataset/

  项目主页:

  https://google.github.io/aichoreographer/

  参考链接:

  [1]https://www.marktechpost.com/2021/09/15/google-ai-introduces-full-attention-cross-modal-transformer-fact-model-and-a-new-3d-dance-dataset-aist/

  [2]https://ai.googleblog.com/2021/09/music-conditioned-3d-dance-generation.html

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注