英伟达新研究:不用动捕,直接通过视频就能捕获3D人体动作
丰色发自凹非寺不靠昂贵的动捕,直接通过视频也能提取3D人体模型然后进行生成训练:英伟达这项最新研究不仅省钱,效果也不错——其合成的样本完全可以用在以往只在动捕数据集上训练的运动合成模型,且在合成动作的多样性上还能更胜一筹。成果已被ICCV2021接收。四个步骤从视频获得人体模型
丰色发自凹非寺
不靠昂贵的动捕,直接通过视频也能提取 3D 人体模型然后进行生成训练:
英伟达这项最新研究不仅省钱,效果也不错——
其合成的样本完全可以用在以往只在动捕数据集上训练的运动合成模型,且在合成动作的多样性上还能更胜一筹。
成果已被 ICCV 2021 接收。
四个步骤从视频获得人体模型
下图概述了英伟达提出的这个从视频中获得动作样本的框架。
包含 4 步:
1、首先输入一个视频,使用单目姿势预估模型(pose estimator)生成由每帧图像组成的视频序列。
2、然后利用反向动力学,用每帧的 3D 关键点形成 SMPL 模型动作。
SMPL 是一种参数化人体模型,也就是一种 3D 人体建模方法。
3、再使用他们提出的基于物理合理性的修正方法来优化上述动作;
4、 使用上述步骤处理所有视频,就可以使用获得的动作代替动捕来训练动作生成模型了。
概括起来就是用输入视频生成动作序列,然后建模成 3D 人体,再进行优化,最后就可以像使用标准动作捕捉数据集一样使用它们来训练你的动作生成模型。
下面是他们用该方法生成的一个样本合集:
具体效果如何?
研究人员对比了该方法与一些动捕模型,比如最新的 PhysCap 等。
PhysCap,一款基于 AI 算法的单目 3D 实时动捕方案。
结果发现,他们的方法在平均关节位置(MPJPE)的误差低于 PhysCap。
其中的基于物理的修正方法更是将样本的脚切线速度误差降低 40% 以上,高度误差降低 80%。
那用这些样本来训练生成模型的效果如何呢?
他们使用 3 个不同的训练数据集训练相同的 DLow 模型。
DLow(GT)是使用实际动捕数据进行训练的人体运动模型。
DLow(PE-dyn)是他们提出的方法,使用物理校正后的姿势训练。
DLow(PE-kin)也是他们的方法,没有优化过动作。
结果是 DLow(PE-dyn)模型的多样性最好,超越了动捕数据集下的训练。
但在最终位移误差(FDE)和平均位移误差(ADE)上略逊一筹。
最后,作者表示,希望这个方法继续改进成熟以后,能够非常强大地利用身边的在线视频资源为大规模、逼真和多样的运动合成铺平道路。
作者信息
Xie Kevin,多伦多大学计算机专业硕士在读,也是英伟达 AI Lab 的实习生。
王亭午,多伦多大学机器学习小组博士生,清华本科毕业,研究兴趣为强化学习和机器人技术,重点集中在迁移学习、模仿学习。
UmarIqbal,英伟达高级研究科学家,德国波恩大学计算机博士毕业。
后面还有其他 3 位来自多伦多大学和英伟达的作者,就不一一介绍了。
论文地址:
https://arxiv.org/abs/2109.09913
参考链接:
https://nv-tlabs.github.io/physics-pose-estimation-project-page/
相关文章:
- 信用卡 PIN 码很容易猜测
- 神经元簇发能模拟 AI 学习策略
- 蜘蛛丝可能根本不具有抗菌性质
- 佳能因禁止无墨水打印机扫描被起诉
- DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
- 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
- 格芯提交上市申请IPO,筹资约26亿美元
- 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
- 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
- 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
- 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
- DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
- 多位游戏巨头联合希望美国政府监管盗版和作弊网站
- Google Play Data Safety开始接受开发者申请:2022年将强制执行
- 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
发表回复