1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍

博雯发自凹非寺量子位报道公众号QbitAI机器人要如何完成这样一个动作?我们一般会基于强化学习,在仿真环境中进行模拟训练。这时,如果在一台机器的CPU环境下进行模拟训练,那么需要几个小时到几天。但现在,只需一个TPU/GPU,就能和数千个CPU或GPU的计算集群的速度一样快,

NetSmell 出品

  博雯发自凹非寺量子位报道公众号 QbitAI

  机器人要如何完成这样一个动作?

  我们一般会基于强化学习,在仿真环境中进行模拟训练。

  这时,如果在一台机器的 CPU 环境下进行模拟训练,那么需要几个小时到几天。

  但现在,只需一个 TPU/GPU,就能和数千个 CPU 或 GPU 的计算集群的速度一样快,直接将所需时间缩短到几分钟!

  相当于将强化学习的速度提升了 1000 倍!

  这就是来自谷歌的科学家们开发的物理模拟引擎 Brax。

  三种策略避免逻辑分支

  现在大多数的物理模拟引擎都是怎么设计的呢?

  将重力、电机驱动、关节约束、物体碰撞等任务都整合在一个模拟器中,并行地进行多个模拟,以此来逼近现实中的运动系统。


△对于每个模拟时间步长,力和力矩被整

  这种并行布局也就导致了较高的延迟时间——即学习者可能需要超过 10000 纳秒的等待时间,才能从模拟器中获得经验。

  那么怎样才能缩短这种延迟时间呢?

  Brax 选择通过避免模拟中的分支来保证数千个并行环境中的计算完全统一,进而降低整个训练架构的复杂度。

  直到复杂度降低到可以在单一的 TPU 或 GPU 上执行,跨机器通信的计算开销就随之降低,延迟也就能被有效消除。

  主要分为以下三个方法:

  连续函数替换离散分支逻辑比如,在计算一个小球与墙壁之间的接触力时,就产生了一个分支:

  如果球接触墙壁,就执行模拟球从墙壁反弹的独立代码;

  否则,就执行其他代码;

  这里就可以通过符号距离函数来避免这种 if/else 的离散分支逻辑的产生。

  使用 JAX 即时编译中评估分支在仿真时间之前评估基于环境静态属性的分支,例如两个物体是否有可能发生碰撞。

  在模拟中只选择需要的分支结果在使用了这三种策略之后,我们就得到了一个模拟由刚体、关节、执行器组成环境的物理引擎。

  同时也是一种实现在这种环境中各类操作(如进化策略,直接轨迹优化等)的学习算法。

  那么 Brax 的性能究竟如何呢?

  速度最高提升 1000 倍

  Brax 测试所用的基准是 OpenAI Gym 中 Ant、HalfCheetah、Humanoid、Reacher 四种。

  同时也增加了三个新环境:包括对物理的灵巧操作、通用运动(例如前往周围任何一个放置了物体的地点)、以及工业机器人手臂的模拟:

  研究人员首先测试了 Brax 在并行模拟越来越多的环境时,可以产生多少次物理步骤(也即对环境状态的更新)。

  测试结果中的 TPUv3 8×8 曲线显示,Brax 可以在多个设备之间进行无缝扩展,每秒可达到数亿个物理步骤:

  而不仅是在 TPU 上,从 V100 和 P100 曲线也能看出,Brax 在高端 GPU 上同样表现出色。

  然后就是 Brax 在单个工作站(workstation)上运行一个强化学习实验所需要的时间。

  在这里,研究人员将基于 Ant 基准环境训练的 Brax 引擎与 MuJoCo 物理引擎做了对比:

  可以看到,相对于 MuJoCo(蓝线)所需的将近 3 小时时间,使用了 Brax 的加速器硬件最快只需要 10 秒。

  使用 Brax,不仅能够提高单核训练的效率,还可以扩展到大规模的并行模拟训练。

  论文地址:https://arxiv.org/abs/2106.13281

  下载:https://github.com/google/brax

  参考链接:https://ai.googleblog.com/2021/07/speeding-up-reinforcement-learning-with.html

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。