国漫手机壁纸

「事件相机」告别模糊!CVPR 2021发表视频慢动作的新sota,还发了160FPS的数据集

新智元报道来源:CVPR编辑:LRS【新智元导读】把视频变慢动作你可能会想到插帧的方法,但这种方法无法处理高速运动的物体,可能会导致模糊、过曝等问题!华为在CVPR2021发表了一篇文章,同时使用事件相机和普通相机进行插帧,画质提升到新高度!如何把一段正常的视频变慢?常见的方法就是插帧

NetSmell 出品

  新智元报道

  来源:CVPR

  编辑:LRS

  【新智元导读】把视频变慢动作你可能会想到插帧的方法,但这种方法无法处理高速运动的物体,可能会导致模糊、过曝等问题!华为在 CVPR2021 发表了一篇文章,同时使用事件相机和普通相机进行插帧,画质提升到新高度!

  如何把一段正常的视频变慢?

  常见的方法就是插帧,在视频的关键帧之间预测图像中的物体运动状态生成中间帧。

  在缺少额外信息的情况下,必须借助光流(optical flow)进行一阶近似(first-order approximations),但这种方法能够建模的物体运动类型比较少,从而可能导致在高度动态的场景下插帧错误的情况。

  事件相机(event camera)是一种新型传感器,可以通过在帧间的盲时间(blind-time)内提供辅助视觉信息来解决这一限制。通过异步测量每个像素亮度的变化,事件相机能够以高时间分辨率(temporal resolution)和低延迟来实现这种效果。

  事件相机不同于传统相机拍摄一幅完整的图像,事件相机主要拍摄的是事件,可以理解为像素亮度的变化就是一个事件。

  传统相机的拍摄过程需要一个曝光时间,这个帧率极大的限制了事件捕获的延迟,即便帧率达到 1000Hz,仍然存在 1ms 的延迟,对于拍摄慢动作来说这个延迟已经很高了。如果物体存在高速运动,就会产生模糊。

  并且过曝现象也比较常见,在光线极差或者亮度极高时,相机获取的信息有限,丢失了应有的细节。

  事件相机从硬件的设计上来解决上述问题,它的原理就是当某个像素的亮度变化累计达到一定阈值后,输出一个事件,这个阈值是相机的固有参数。

  事件相机中的事件具有三要素:时间戳、像素坐标与极性,也就是在什么时间,哪个像素点,发生了亮度的增加或减小。

  当场景中由物体运动或光照改变造成大量像素变化时,会产生一系列的事件,这些事件以事件流(Events stream)方式输出。事件流的数据量远小于传统相机传输的数据,且事件流没有最小时间单位,所以可以做到非常低的延迟。

  在事件相机眼中,世界只有明暗的变化,如下图红色和蓝色分别表示当前像素亮度的增加或减小,也是一组事件流积累获得的一组事件。

  事件相机具有低延迟(<)、高动态范围()、极低功耗()等特性。

  然而事件相机也并非万能,虽然这些方法可以捕捉非线性运动,但它们会受到重影的影响,并且在事件较少的低纹理区域中表现不好。

  所以基于合成和基于流的方法应当是互补而非对立的。

  针对这个问题,华为技术(Huawei Technologies)在苏黎世的研究中心研究院在 CVPR 2021 上发表了一篇文章,介绍了一个新模型 Time Lens,能够同时利用两种相机的优点。

  Time Lens 是一个基于学习的框架,由四个专用模块组成,这些模块互相之间可以进行补充插值,能够同时进行基于 warping 和合成的插值。

  1、基于 warping 的插值模块(Interpolation by synthesis),通过使用从各个事件序列估计的光流 warping 边界 RGB 关键帧来估计新帧;

  首先通过反转事件序列,分别使用事件的边界关键帧 I0 和 I1 之间的新帧估计光流。使用计算出的光流,使用可微干涉在时间步长τ中 warping 边界关键帧,从而产生两个新的帧估计值。

  与传统基于 warping 的插值方法主要区别在于后者使用帧本身计算关键帧之间的光流,然后使用线性运动假设近似潜在中间帧和边界之间的光流。当帧之间的运动是非线性的且关键帧受到运动模糊的影响时,此方法不起作用。

  相比之下,论文的方法计算来自事件的光流,因此可以自然地处理模糊和非线性运动。尽管事件是稀疏的,但只要产生的流足够密集,尤其是在具有主要运动的纹理区域就很有效,这对于插值也最为重要。

  2、warping refinement 模块通过计算剩余光流来改进这种帧估计;

  通过估算剩余光流,细化模块能够基于 warping 之间的插值结果计算细化的插入帧。然后通过估计的剩余光流再次测量τ。细化模块的灵感来源于光流和奇偶性细化模块的有效性,也来源于研究人员观察到的合成插值结果通常与实际标注真值新框架完全一致。除了计算剩余流外,warping 细化模块还通过填充对值附近的阻塞区域进行修复。

  3、合成插值模块通过直接融合来自边界关键帧和事件序列的输入信息来估计新帧;

  在给定左帧 I0 和右帧 I1 的 RGB 关键帧和事件序列 E0 的情况下,直接回归新帧。该插值方案的优点在于处理照明变化的能力,如水反射和场景中新对象的突然出现都能有效处理。与基于 warping 的方法不同,它不依赖于亮度恒定性假设。但主要缺点是,当事件信息因高对比度阈值而有噪声或不足时,图像边缘和纹理会失真。

  4、基于注意力的平均模块结合了基于 warping 和基于合成的插值结果。

  注意力平均模块,以像素方式混合合成和基于 warping 的插值结果来获得最终插值结果。利用基于 warping 和合成的插值方法的互补性,其 PSNR 比两种方法的结果高 1.73 dB。

  其他的研究使用了类似的策略,但是这些工作仅混合了基于 warping 的插值结果以填充遮挡区域,而这篇论文中混合了基于 warping 和合成的结果,因此也可以处理光线变化。使用一个以插值结果为输入的张力网络来估计混合系数,光流结果和双线性系数τ取决于新帧作为具有常量值的通道的位置。

  Time Lens 的框架能够使生成的插入帧成为具有颜色和高纹理细节的新帧,同时能够处理非线性运动、光线变化和运动模糊。在整个工作流中,所有的模块都使用相同的骨架结构沙漏网络(hourglass network),沙漏网络能够在收缩和扩张部分之间进行跳跃连接(skip connections)。

  在用于编码事件序列的学习表示时,所有模块都使用 voxel grid 表示。

  在三个合成基准和两个真实基准上对的方法进行评估后,实验结果显示,与最先进的基于帧和基于事件的方法相比,PSNR 指标提高了 5.21 dB,画质有所提升。

  除此之外,研究人员还在高动态的场景中发布了一个新的大规模数据集,使用一个事件相机和 RGB 相机同时拍摄,记录室内和室外各种条件下的数据。序列记录在室外的曝光时间低至 100μs,在室内曝光时间为 1000μs。

  该数据集的帧速率为 160 FPS,相比以往的数据集要高得多,并且使用真实彩色帧创建更大的跳帧。该数据集包括具有非线性运动的高度动态近距离场景和主要以 cam 时代自我运动为特征的远距离场景。

  对于遥远的场景,立体校正足以实现良好的每像素对齐。对于每个序列,根据深度通过立体校正或使用基于特征的单应估计来执行对齐。在 RGB 图像和 E2VID 重建之间执行标准立体校准,并相应地校正图像和事件。对于动态近景,还通过匹配这两个图像之间的 SIFT 特征来估计全局同调。

  参考资料:

  https://youtu.be/HWA0yVXYRlk

  http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。