国漫手机壁纸

20+顶尖高校同时开打《王者荣耀》!实际上是一场科研battle,你能信?

金磊假装发自王者峡谷量子位报道公众号QbitAI不是吧,不是吧。一群学霸聚集在一起,竟然是为了打《王者荣耀》?!而且还是来自清北、中科院、浙大等 20余所顶级学府的那种。但毕竟是一帮学霸们的“聚会”,果然连打游戏的“姿势”都那么与众不同:他们竟然要用《王者荣耀》搞科研!(妥妥的是有

NetSmell 出品

  金磊假装发自王者峡谷

  量子位报道公众号 QbitAI

  不是吧,不是吧。

  一群学霸聚集在一起,竟然是为了打《王者荣耀》?!

  而且还是来自清北、中科院、浙大等 20 余所顶级学府的那种。

  但毕竟是一帮学霸们的“聚会”,果然连打游戏的“姿势”都那么与众不同:

他们竟然要用《王者荣耀》搞科研!

  (妥妥的是有种诸葛亮“黄金分割率”的味道了。)

  这到底是怎么一回事?

  在《王者荣耀》里搞科研

  要想搞清楚这件事,就需要先来颠覆一下你对《王者荣耀》的认知。

  友友们,其实它不单单是一款游戏那么简单:

还是一个极具科研价值的游戏环境。

  更准确来说,《王者荣耀》背后是一个 AI 开放研究平台,它背靠腾讯各方面资源优势,为学术研究和算法开发开放的研究与应用探索平台——

  “开悟”。

  但搞科研嘛,算法、算力、数据、场景,可以说是缺一不可。

  于是“开悟”就放话了:

各路英雄豪杰,我这儿啥都有!

  比如《王者荣耀》提供了游戏测试环境、脱敏游戏数据集,还有游戏核心集群等资源。

  腾讯 AI Lab 则把搭建好的算法、计算平台、评估工具亮了出来;算力的支持则是由 腾讯云计算提供。

  于是乎,来自各大顶尖高校的学霸们,就华山论剑般地汇聚于此。

  至于各家高手们的“论剑之道”,就是在限定时间和资源内,训练出 最优模型,并把它部署到 AI 服务器当中。

  在提交系统之后,学霸们就相当于“炼”出了他们各自的《王者荣耀》英雄。

  这不,同样是 貂蝉,在修炼完不同“功法”后,便展开了一场激烈的博弈。

  在 1 级狭路相逢之际,便来了个同归于尽。

  △注:动图来自 2021 高校联赛 AI 表演赛

  虽说都只是 智能体,但在这波 battle 中,她们很好地发挥了自身的基本功:

作战中……

预测敌方走位……

已击杀,阵亡……

  每个基本功背后,都是智能体在“审时度势”后的最佳决策。

  而在双方复活之后,策略之间的博弈就变得更加紧凑和激烈。

  毕竟常言道:一招棋错,满盘皆输

  蓝方貂蝉在入场发觉自己经济较低,果断选择“发展我方经济”。

  但同时也没有做到过分“猥琐发育”,还是该出手时就出手——发起进攻、持续进攻。

  △注:动图来自 2021 高校联赛 AI 表演赛

  而在后期的决策博弈更是精彩:

战略撤退、进攻防御塔、返回基地、追击地方……

  很是有种人类玩家的感觉了。

  不仅如此,智能体在紧张的战斗决策同时,还兼顾了 出装策略。

  大家都知道,出完血书 (血族之书)的貂蝉,战斗中的续航能力会得到大幅提升。

  为此,蓝方貂蝉第二个法术大件果断选择梦魇之牙,以此来克制红方貂蝉的回血。

  △注:动图来自 2021 高校联赛 AI 表演赛

  红蓝貂蝉在交手“八百回合”之后,终于迎来了“决战紫禁之巅”的时刻。

  在红方水晶之下,两位貂蝉纷纷喊出“花开了,怒放吧”开启大招,完成最后的较量。

  最终,以双方纷纷倒地,由蓝方小兵推倒红方水晶结束战斗。

  ……

  这就是学霸们在《王者荣耀》里搞科研的结果展示。

  而更具体一点来说,就是在特定的环境中,对多智能体之间的博弈展开研究,属于 强化学习领域范畴。

  它的难点之一,就在于智能体的每一个决策与动作,都会对全局产生非常复杂的变化,是有种“牵一发而动全身”的感觉了。

  而在刚才的例子中,只是展示了学霸们在 1V1 场景中的科研成果,但其实他们还会有 3V3 的战斗。

  这种场景对于智能体的挑战就更高了,因为每个智能体仅能获取局部的观测信息,但无法得知其他“队友”或“敌人”的信息。

  这就对合作与竞争、完成特定任务背后的算法,提出了高难度的要求。

  果然,学霸们打个游戏都是如此烧脑 。

  ……

  不过讲真,如此“名场面”还真不是什么新鲜事。

  游戏中搞科研,并不是第一次

  其实刚才学霸们的“科研展示”,就是去年中科大和电子科大,在第一届 腾讯“开悟”AI 大赛上演的一场决斗。

  这场比赛可以说是扩大了社会各界对 “AI+ 游戏”的认知。

  但说实话,在游戏里搞科研这件事,国内外早就有所行动了。

  例如早在 2017 年,OpenAI“修炼”的智能体,就单挑苦练了半辈子 Dota 的人类玩家 Dendi,最终 AI 大获全胜。

  时隔一年 (2018 年),OpenAI 再次派出 OpenAI Five,以 5V5 模式对战人类顶级阵容。

  结果,又是以 AI 100% 胜率告终比赛。

  当时这样的结果简直是出乎观众的意料之外,就连 马斯克在比赛前被问及“谁会赢”,都非常自信地回复到“人类”。

  与此相关的技术论文也早就有所公布。

  而除了在 Dota2 这种 5V5 团队竞技类型游戏外,“AI+ 游戏”在其他类型的游戏中也有所渗透。

  例如 DeepMind 从 2017 年开始,也频繁曝出在 《星际争霸2》这款游戏中碾压人类顶级玩家的消息。

  DeepMind 在这方面的科研研究—— AlphaStar,其背后的相关技术论文,更是登上了顶刊 Nature。

  而在国内,对于“AI+ 游戏”的科研也是如火如荼地进行中。

  例如早在 2018 年开始,腾讯 AI Lab 便在《王者荣耀》中持续发力,并与游戏团队打造出了策略协作型 AI “王者绝悟”。

  这个数字远远大于围棋及其他简单游戏,甚至超过整个宇宙的原子总数 (10 80 ) 。

  在这三年期间,腾讯 AI Lab 在与之相关的研究,更是频频登上了 AAAI、NeurIPS 等 AI 顶级会议 (相关链接附在文末,感兴趣的读者可深入研究)。

  而就在前不久的世界人工智能大会中,“王者绝悟”更是以全英雄达到职业电竞水平亮相。

  在与人类顶级选手的较量中,更是以绝对的胜率惊艳四座。

  值得一提的是,正是由于腾讯 AI Lab 在“AI+ 游戏”领域的技术沉淀,才能够在将其能力“打包”输送给高校的学霸们,也就是我们刚才提到的“开悟”AI 开放研究平台。

  ……

  至此,或许你有一个大大的疑问:

在游戏里搞科学研究,对我们现实生活有什么意义吗?

  直接上答案—— 有的!而且意义非凡。

  游戏,会是下一个 AI 里程碑的诞生地吗?

  是的,这就是业界目前普遍认同的一种看法:

下一个 AI 里程碑可能会在复杂策略游戏中诞生。

  这种说法并不是空穴来风。

  首先,“AI+ 游戏”所涉足的大领域,便是 强化学习。

  一般来说,强化学习是用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。

  而一些复杂的强化学习算法,更是在一定程度上具备了解决复杂问题的通用智能。

  但要通过训练,让智能体“炼就”如此能力,正如我们刚才说到的,算法、数据、算力、场景,这四样缺一不可。

  尤其是场景和数据,需要够复杂、够具备不确定性,才能更好的贴近真实世界中人类决策时面对的环境。

  游戏场景,恰恰就是符合这些高要求的“阵地”。

  因此,长远来看,“AI+ 游戏”研究将是攻克通用人工智能 (AGI)的关键一步。

  而之于现实意义,以近几年大火的自动驾驶为例。

  在这一领域中,随着技术的不断发展,自动驾驶逐步地从“感知层”向“决策层”过渡。

  这是因为自动驾驶车辆在面临突发、不确定性问题时,需要作出精准的决策,来避免意外的发生。

  可以把一辆自动驾驶汽车想象为一个游戏中的智能体,当它在现实生活中运行时,所要面对的问题复杂度之高,就不言而喻了。

  这就离不开通过强化学习方法的大量训练,让自动驾驶这个“智能体”的应变能力,能够无限接近甚至超越人类。

  但要练就这身功夫,在真实生活场景中训练定然是不现实的,而游戏,就成了一个非常好的训练场。

  自动驾驶只是应用场景的案例之一,更多的还包括城市/空中交通管理、多机器人协调、能源分配等问题。

  ……

  而腾讯 AI Lab 之所以打造“开悟”,也是基于上述情况的考量,不过他想要的做的却更多:

推动多智能体强化学习的发展。

  尤其是高校在这方面的研究,更是“硬性条件”上面临着较为严峻的挑战。

  但开放“开悟”,仅仅是腾讯 AI Lab 为了完成这一目标的举措之一。

  据了解,开悟还携手高校合作开发课程,进一步普及多智能体强化学习教育。

  例如在今年 8 月,腾讯就宣布与四所国内一流高校 (北京大学、电子科技大学、清华大学、中国科学技术大学),共建教学内容和课程体系改革项目。

  据悉,这些顶尖高校将分别构建一门至少 20 学时的多智能体及强化学习平台的专业课程,理论授课知识点包括但不限于机器学习、强化学习、多智能体决策等相关的知识点。

  除此之外,腾讯“开悟”还联合高校成立了 人工智能科教联盟,并携手高校、科研院所、产业园区、投资机构组建人工智能科创联合体。

  正如《王者荣耀》执行制作人、腾讯天美 L1 总经理 黄蓝枭总结的那样:

我们开放了《王者荣耀》核心机制,提供标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等,给高校老师和同学们进行多智能体的机器学习算法研究、学习成果交流,对算法成果反复迭代升级。期待这些研究成果能够落地其他产业环境,为工业机器人、救灾机器人等提供助力。

  ……

  读到这里,你想不想围观清北等高校的学霸们,如何不仅打了游戏,还顺便把科研也一块搞了?

  请继续关注开悟平台及赛事动向。

  传送门

  开悟官网地址:

  https://aiarena.tencent.com/aiarena/zh/index

  绝悟相关论文地址:

  Mastering Complex Control in MOBA Games with Deep Reinforcement Learning:

  https://arxiv.org/abs/1912.09729

  Hierarchical Macro Strategy Model for MOBA Game AI:

  https://arxiv.org/abs/1812.07887

  Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings:

  https://arxiv.org/abs/2011.12582  

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注