Menu

Menu

  1. 首页
  2. 行业新闻
  3. 成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

基于单曝光压缩成像和NeRF的高质量图像与视频重建

SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image

本期导读

单曝光压缩成像(Snapshot Compressive Imaging, SCI)系统使用2D传感器进行测量,通过重建算法将含有噪声的2D测量数据还原为原始的高维数据。该过程涉及求解逆问题(Inverse Problem)。近年来,深度学习的发展促进了重建算法的快速发展,然而,当前的重建算法依然存在准确性低,稳定性差,泛化性不足等问题;重建算法并没有考虑被拍摄场景的3D结构,只能单纯地逐帧还原2D图像。
鉴于此,来自西湖大学和浙江大学的研究人员提出了基于单曝光压缩成像的端到端重建方法:SCINeRF。该方法基于神经辐射场(NeRF),以一张时域压缩单曝光图像作为输入,通过优化NeRF网络和对应的相机轨迹,利用场景中的3D信息,提升重建图像/视频的质量。与传统SCI重建相比,该研究借助NeRF的3D场景估计能力和图像渲染能力,实现了高质量、高帧率的图像与视频重建。同时,由于NeRF实行测试时间优化(Test-time Optimization TTO),该方法具有极佳的泛化性。在各种合成和真实数据上的定性和定量评估都证明了该方法的优异性能。该工作已被计算机视觉领域顶级会议IEEE CVPR 2024接收,并被选为Highlight论文。

技术背景

受益于新颖的光学硬件和成像算法的设计,单曝光压缩成像系统可以在一次压缩测量中,将高维数据(例如视频、高光谱图像)进行采样和压缩,实现了通过2D传感器(如CCD/CMOS相机)高效获取视觉信号。如图1所示,SCI系统可以分为两部分,硬件编码;软件解码。

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

图1. 单曝光压缩成像(SCI)系统使用2D传感器在测量中捕获高维数据。以拍摄视频为例,通过硬件编码,SCI系统对视频数据进行采样,在时间维度上进行压缩。此后,采用软件算法来重建原始的高维视频数据。

在对场景进行拍摄时,通过单次测量时间内拍摄快速移动的场景,将多视角图像/视频信息压缩到单张SCI图像中。该图像中既包含了被压缩的多视角图像,也隐含有被拍摄场景的3D信息。在接下来的解码环节,将利用一个基于NeRF的重建算法还原出高帧率图像和视频。

技术路线

目前各种基于深度学习模型的重建方法可以从SCI图像中恢复高维视频。然而,这些方法都各有缺陷。端到端的深度学习网络可以提高重建性能,但过高的内存占用和运行时间使得训练和部署该类模型都比较困难。同时,由于数据集(尤其是真实的压缩图像数据集)难以获得,已有方法普遍存在泛化性较差的问题。除此之外,已有算法往往以还原2D视频帧为目标,并未考虑被拍摄场景中隐含的3D结构。因此,还原多视角图像会出现不同视角下物体外观不一致的情况,如图2所示。

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

图2. 已有算法还原的多视角图像存在不一致现象(红色和蓝色方框区域所示),其原因是已有算法没有考虑被拍摄场景的3D结构。

为实现效果更好的SCI重建,该研究提出使用神经辐射场(NeRF)来实现端到端的SCI三维场景重建,即通过单张SCI图像重建出被拍摄3D场景。NeRF模型在2020年被首次提出,主要用于3D场景重建和新视角图像合成。经典NeRF算法以一系列多视角图像和对应的相机位姿作为输入,通过一个全连接神经网络来估计场景的3D结构和外观信息,并通过一个可微分渲染机制将神经网络输出的场景信息渲染为图像。通过反向传播渲染图像和真实场景图像的误差,NeRF可以不断优化神经网络对于3D场景的估计,如图3所示。NeRF可以对3D场景进行端到端重建,并通过重建的3D场景渲染出高质量的场景图像。

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

图3. NeRF以多视角图像和相机位姿为输入,通过神经网络来估计3D场景,并通过可微分渲染机制和反向传导来优化神经网络。借助重建好的3D场景,NeRF可以生成高质量的场景图像(图片来自于论文Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis.")。

值得注意地是,将NeRF直接用于SCI图像重建存在极大困难:NeRF需要多张不同视角拍摄的图像作为输入,并且需要图像对应的相机位姿。而SCI系统只返回一张压缩图像,且无法获得相机位姿。为此,需要对NeRF的训练机制进行改进。
    首先,在训练NeRF时,将相机位姿作为优化参数,与神经网络一同优化。由于在拍摄场景时测量时间很短,SCI系统移动的幅度较小,假设拍摄时SCI系统作匀速直线运动,大幅降低了训练复杂度。其次,通过模拟SCI系统的成像原理,将各视角下渲染出的图像进行采样并压缩,得到一张合成的SCI图像来与真实的SCI图像计算误差并进行反向传导。通过以上训练机制,可以从SCI图像中直接获得重建好的3D场景,以及在拍摄时SCI系统的运动轨迹。如图4所示。当场景重建好后,利用NeRF强大的图像渲染能力,可以获得恢复的图像。

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

图4. 本论文中NeRF模型的训练机制。通过共同优化相机位姿和NeRF神经网络,并模拟SCI成像机理,合成一张SCI图像与实际测量得到的SCI图像计算误差并反向传导,从而将单张SCI图像恢复为3D场景和高帧率图像。

该研究在6个SCI合成数据集上进行了对比实验。在SCI图像/视频恢复方面,该工作显著优于已有方法,如图5所示。

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

图5. 在合成数据集上,该工作与已有SCI重建算法进行了对比实验。实验结果表明该工作在重建图像质量上显著优于已有算法。

除此之外,该工作还通过搭建SCI系统(如图6所示),在真实数据集上进行了对比测试,实验结果表明在真实数据集上仍优于已有方法,如图7所示。

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

图6. 本论文中搭建的SCI成像系统,包含一个CCD相机(用来记录2D测量图像),DMD(用来对输入图像/视频进行采样和压缩),及镜头。

成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)

图7. 利用搭建的SCI成像系统,该工作在真实数据集上与已有工作进行了对比实验。实验结果表明该工作在真实数据集上仍显著优于已有工作。

论文信息:
  • Li, Yunhao, et al. "SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image." arXiv preprint arXiv:2403.20018 (2024).

技术详见:
https://github.com/WU-CVGL/SCINeRF
*该技术分享所涉及文字及图片源于发表论文和网络公开素材经适当编辑,不做任何商业用途。

免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间联系我们,我们将协调进行处理,最终解释权归旭为光电所有。