3D成像技术介绍

3D
2023年2月23日

编者按:随着时代的发展,内容传播的形式在不断演进,而从 2 维升级到 3 维,是科技发展之必然。在未来几年,3D 影像技术将加速全面向市场渗透。LiveVideoStack 邀请到了螳螂慧视的骆晓峰老师,为我们介绍 3D 成像技术。

文 / 骆晓峰

整理 / LiveVideoStack

大家好!我是骆晓峰,来自螳螂慧视,很高兴能跟大家做一次分享。今天,我分享的主题是:3D 成像技术。

图片

今天,我分享的内容主要分为三个章节。首先,介绍一些相关的背景。然后,介绍 3D 成像技术。最后,介绍几种 3D 的应用场景。

01  2d 到 3d

首先,介绍从 2D 到 3D 的背景。

图片

两百年前,人类拍下了第一张照片。经过两百年的发展,2D 影像技术渗透到各行各业,为了追求更好的展示,开始了 3D 影像技术的研究。从 2 维升级到 3 维,也是科技发展之必然。

图片

我们的感受也在不断变化。最初,我们从平面媒体(比如报纸)获取信息,这涉及到视觉。然后,我们可以从广播获取信息,这涉及到听觉。接着,我们可以看电视来获取信息,这涉及到视觉和听觉。再然后,我们使用电脑和智能手机来获取信息,这涉及到视觉和听觉,并且我们还获得了交互体验。现在我们可以使用 VR、AR 和 XR,而 3D 光学是 AR、VR 和 XR 的核心。从硬件方面来看,硬件已经发展到了一定的阶段,可以在现有的硬件上呈现一些 3D 的效果。

图片

无论是元宇宙还是虚拟现实,都需要大量 3D 数据。之前认为 3D 数据可以通过建模得到,比如需要一个桌子,可以通过计算机建模得到。那么有没有更好的方法来获取 3D 数据呢?

02  3D 成像技术

3D 成像技术就是利用 3D 相机使一个 3D 物体进行快速成像。我们的主要目标是使现实世界数字化。

图片

3D 成像技术的原理是三角成像原理。三角成像原理参考了眼睛成像原理,单个眼睛或单一镜头无法获取深度数据,所以需要两个眼睛。右图展示了与结构光相关的原理,摄像头拍摄激光上的激光数据来成像。

图片

目前主流的 3D 成像技术主要是以下几种。首先是双目,这是大家常用的技术,现在的闸机就采用了这种技术。双目模拟了人的眼睛,观察同一物体时,两只眼睛看到的物体是不一样的,通过该差异性可以计算得到 3D 数据。然后是结构光,主要有两种方案。一种是散斑结构光,目前很多公司都在使用这项技术。散斑结构光在 2005 年由以色列的 PrimeSense 公司创建,iPhone 使用了这项技术,并使这项技术进入大众视野。目前,苹果公司掌握了散斑结构光的大部分专利。PrimeSense 曾与微软一起开发 Kinect,在国内也会经常接触到 Kinect,因此国内很多 3D 方面的研究基于 Kinect 3D 相机,国内大部分使用的也是散斑结构光技术。另一种是编码结构光,散斑结构光投射出来的是点,而编码结构光投射出来的是图案。编码结构光在 2005 年由以色列的 MantisVision 公司创建。目前,小米 8 透明探索版的前置摄像头采用了编码结构光技术。最后是 TOF,即飞行时间,其计算发射光和光从物体反射回来的时间差,激光雷达就使用了 TOF 技术。TOF 主要有两种方案,一种是 dTOF,其原理是通过光源发射脉冲,接收端接收从物体发射回来的脉冲,并计算两个脉冲的时间差。另一种是 iTOF,光经过连续波调制后发射出去,通过比较发射时的图和接收时的图得到载波相位差,并基于此得到深度信息。

图片

接下来详细介绍散斑结构光。这是一张镜头的示意图,其原理如下。首先是一个发光器件,由其发射光。然后经过准直镜,发射出来的光较为发散,亮度不够,而准直镜可将发散光路变成平行光路。最后,通过 DOE 投射出点阵。众所周知,在远的地方看点会发现点比较小,在近的地方看点会发现点比较大(结果大致如图所示),这就是散斑结构光的原理。

图片

然后,详细介绍编码结构光。与散斑结构光不同的是,编码结构光投射出来的是图案。这个现象可以参考我们小时候的手指游戏,即用手指做出不同形状,然后手电筒照射手指,可以投影出不同动物的样子。同理,在镜头上放置一个 mask 图案,发射光时就可以将图案投影到物体上。由于物体是凹凸不平的,投影到物体上的图案会变形,可以基于此计算得到 3D 数据信息。在散斑结构光和编码结构光中,光发射出去和光反射回来即为一帧。

目前,大多使用 IR 摄像头,这是因为为了与可见光有区别,我们使用了红外光。激光器发射光,IR 摄像头则拍下相应图像然后进行计算。由于有时需要获取颜色的信息,所以会增加一个 RGB 摄像头。以上内容就组成了整个模组,iPhone 和小米 8 就有此类前置摄像头模组。除了这些基本构成,还添加了接近感应器等。iPhone 配备了接近感应器,一方面是为了在接听电话时使手机自动灭屏,另一方面是为了保证安全性,因为红外光对人眼有损害,所以在人眼离手机的距离在一定范围内时,会关闭发射器。

在散斑结构光中,DOE 会发射散斑光。当镜头损坏或 DOE 破损时,准直后的激光光束可能会直接照射到人眼,从而对人眼造成伤害,所以采用散斑结构光技术时必须做人眼安全方面的工作。在编码结构光中,在投影镜头上放置了 mask,光束受到了遮挡,不会直接照射到人眼,所以在编码结构光中,一般不会引进人眼安全相关的技术。

图片

接下来,详细介绍 dTOF,即 LiDAR。在 dTOF 中,发光器发射脉冲,脉冲碰到物体时会反射回来,然后计算得到脉冲的时间差。时间差越小则距离越近,时间差越大则距离越远。这其中有一个难点,由于很多时候拍摄时距离物体较近,时间差较小,所以需要一个精密度较高的时钟。

图片

iPhone 12 Pro 和 iPad Pro 采用了 dTOF,华为、vivo 和 OPPO 采用了 iTOF。这是因为苹果掌握了 dTOF 的大部分专利,且很多功能不开放。在 iTOF 中,发射出来的不是脉冲而是正弦波,然后计算发射时的波和接收到的波的相位差,可以得到时间等信息。总之,iTOF 以面发射光,dTOF 以点发射光。

此外,还有很多其他的 3D 成像技术,此处不再做介绍。

03  3D 摄像录制

最后,介绍几种 3D 的应用场景。

图片

这是 iPhone 上的摄像头,当人在解锁手机或进行支付时,拍摄单帧图像就可完成相关操作。这通常用于活体识别、人脸识别和人脸支付等。比如,在前段时间比较火的人脸支付中,就采用了这种单帧摄像的方式,即拍摄单帧深度图或点云进行处理。

采用 3D 摄像头还可以避免 “照片攻击”。在 2019 年,曾有新闻报道称可以用照片解锁丰巢快递柜,因此人们开始质疑人脸识别的安全性。iPhone X 采用了 3D 摄像头,其识别到的是 3D 数据,可以进行活体识别,避免了 “照片攻击”。

图片

接下来介绍单设备扫描。当一帧图像不够时,可以使用设备对物体进行扫描。在扫描的过程中,3D 图像会慢慢呈现出来。当物体有遮挡时,要采用合适的扫描方式。单设备扫描的主要对象是静态物体,比如石狮子、杯子、沙发等。

图片

另一种是多设备静态拼接。如图是一个 demo,采用一组摄像头使其各拍摄一帧图像,并将图像拼接起来得到人脸模型。目前,这种设备已经开始出售,其原理就是使用多设备对物体进行多角度同时拍摄。单设备扫描的成像速度较慢(需要持续扫描才能成像),而多设备静态拼接的成像速度较快,就像只按了一下快门,因为其采用了多设备进行拍摄。在遮挡部位较多的情况下,比如拍摄人的下颌,就要采用多设备拍摄。

图片

接下来介绍动态 3D 影棚。之前介绍的录制方式的对象主要是静态物体,动态 3D 影棚则可实现实时预览和动态直播,延迟可以控制在 500ms 以内。其中,主要的问题是 3D 相机同步和多镜头干扰。之前提到,为了与可见光有区别,我们采用了红外光,当两个镜头同时向同一个物体发射光束时,物体上会有两个叠加在一起的图案,这就造成了多镜头干扰。为了解决这个问题,多镜头需要进行分时拍摄,但间隔时间不宜太长,要保证当前镜头拍摄完后,紧接着下一个镜头就开始拍摄,将速度保持在 20-30fps。这样,拍摄出来的就是动态的画面。

图片

以上就是今天介绍的主要内容,谢谢大家!


还可输入800
全部评论
作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周