成像专题 | 压缩成像+NeRF助力基于单张图片的高质量视频重建 (CVPR Highlight)
基于单曝光压缩成像和NeRF的高质量图像与视频重建
本期导读
技术背景

在对场景进行拍摄时,通过单次测量时间内拍摄快速移动的场景,将多视角图像/视频信息压缩到单张SCI图像中。该图像中既包含了被压缩的多视角图像,也隐含有被拍摄场景的3D信息。在接下来的解码环节,将利用一个基于NeRF的重建算法还原出高帧率图像和视频。
技术路线

图2. 已有算法还原的多视角图像存在不一致现象(红色和蓝色方框区域所示),其原因是已有算法没有考虑被拍摄场景的3D结构。

图3. NeRF以多视角图像和相机位姿为输入,通过神经网络来估计3D场景,并通过可微分渲染机制和反向传导来优化神经网络。借助重建好的3D场景,NeRF可以生成高质量的场景图像(图片来自于论文Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis.")。
首先,在训练NeRF时,将相机位姿作为优化参数,与神经网络一同优化。由于在拍摄场景时测量时间很短,SCI系统移动的幅度较小,假设拍摄时SCI系统作匀速直线运动,大幅降低了训练复杂度。其次,通过模拟SCI系统的成像原理,将各视角下渲染出的图像进行采样并压缩,得到一张合成的SCI图像来与真实的SCI图像计算误差并进行反向传导。通过以上训练机制,可以从SCI图像中直接获得重建好的3D场景,以及在拍摄时SCI系统的运动轨迹。如图4所示。当场景重建好后,利用NeRF强大的图像渲染能力,可以获得恢复的图像。

图4. 本论文中NeRF模型的训练机制。通过共同优化相机位姿和NeRF神经网络,并模拟SCI成像机理,合成一张SCI图像与实际测量得到的SCI图像计算误差并反向传导,从而将单张SCI图像恢复为3D场景和高帧率图像。

图5. 在合成数据集上,该工作与已有SCI重建算法进行了对比实验。实验结果表明该工作在重建图像质量上显著优于已有算法。

图6. 本论文中搭建的SCI成像系统,包含一个CCD相机(用来记录2D测量图像),DMD(用来对输入图像/视频进行采样和压缩),及镜头。

图7. 利用搭建的SCI成像系统,该工作在真实数据集上与已有工作进行了对比实验。实验结果表明该工作在真实数据集上仍显著优于已有工作。
-
Li, Yunhao, et al. "SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image." arXiv preprint arXiv:2403.20018 (2024).
免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间联系我们,我们将协调进行处理,最终解释权归旭为光电所有。