LiveVideoStack

3D成像技术介绍

2023年2月23日

编者按：随着时代的发展，内容传播的形式在不断演进，而从 2 维升级到 3 维，是科技发展之必然。在未来几年，3D 影像技术将加速全面向市场渗透。LiveVideoStack 邀请到了螳螂慧视的骆晓峰老师，为我们介绍 3D 成像技术。

文 / 骆晓峰

整理 / LiveVideoStack

大家好！我是骆晓峰，来自螳螂慧视，很高兴能跟大家做一次分享。今天，我分享的主题是：3D 成像技术。

今天，我分享的内容主要分为三个章节。首先，介绍一些相关的背景。然后，介绍 3D 成像技术。最后，介绍几种 3D 的应用场景。

01 2d 到 3d

首先，介绍从 2D 到 3D 的背景。

两百年前，人类拍下了第一张照片。经过两百年的发展，2D 影像技术渗透到各行各业，为了追求更好的展示，开始了 3D 影像技术的研究。从 2 维升级到 3 维，也是科技发展之必然。

我们的感受也在不断变化。最初，我们从平面媒体（比如报纸）获取信息，这涉及到视觉。然后，我们可以从广播获取信息，这涉及到听觉。接着，我们可以看电视来获取信息，这涉及到视觉和听觉。再然后，我们使用电脑和智能手机来获取信息，这涉及到视觉和听觉，并且我们还获得了交互体验。现在我们可以使用 VR、AR 和 XR，而 3D 光学是 AR、VR 和 XR 的核心。从硬件方面来看，硬件已经发展到了一定的阶段，可以在现有的硬件上呈现一些 3D 的效果。

无论是元宇宙还是虚拟现实，都需要大量 3D 数据。之前认为 3D 数据可以通过建模得到，比如需要一个桌子，可以通过计算机建模得到。那么有没有更好的方法来获取 3D 数据呢？

02 3D 成像技术

3D 成像技术就是利用 3D 相机使一个 3D 物体进行快速成像。我们的主要目标是使现实世界数字化。

3D 成像技术的原理是三角成像原理。三角成像原理参考了眼睛成像原理，单个眼睛或单一镜头无法获取深度数据，所以需要两个眼睛。右图展示了与结构光相关的原理，摄像头拍摄激光上的激光数据来成像。

目前主流的 3D 成像技术主要是以下几种。首先是双目，这是大家常用的技术，现在的闸机就采用了这种技术。双目模拟了人的眼睛，观察同一物体时，两只眼睛看到的物体是不一样的，通过该差异性可以计算得到 3D 数据。然后是结构光，主要有两种方案。一种是散斑结构光，目前很多公司都在使用这项技术。散斑结构光在 2005 年由以色列的 PrimeSense 公司创建，iPhone 使用了这项技术，并使这项技术进入大众视野。目前，苹果公司掌握了散斑结构光的大部分专利。PrimeSense 曾与微软一起开发 Kinect，在国内也会经常接触到 Kinect，因此国内很多 3D 方面的研究基于 Kinect 3D 相机，国内大部分使用的也是散斑结构光技术。另一种是编码结构光，散斑结构光投射出来的是点，而编码结构光投射出来的是图案。编码结构光在 2005 年由以色列的 MantisVision 公司创建。目前，小米 8 透明探索版的前置摄像头采用了编码结构光技术。最后是 TOF，即飞行时间，其计算发射光和光从物体反射回来的时间差，激光雷达就使用了 TOF 技术。TOF 主要有两种方案，一种是 dTOF，其原理是通过光源发射脉冲，接收端接收从物体发射回来的脉冲，并计算两个脉冲的时间差。另一种是 iTOF，光经过连续波调制后发射出去，通过比较发射时的图和接收时的图得到载波相位差，并基于此得到深度信息。

接下来详细介绍散斑结构光。这是一张镜头的示意图，其原理如下。首先是一个发光器件，由其发射光。然后经过准直镜，发射出来的光较为发散，亮度不够，而准直镜可将发散光路变成平行光路。最后，通过 DOE 投射出点阵。众所周知，在远的地方看点会发现点比较小，在近的地方看点会发现点比较大（结果大致如图所示），这就是散斑结构光的原理。

然后，详细介绍编码结构光。与散斑结构光不同的是，编码结构光投射出来的是图案。这个现象可以参考我们小时候的手指游戏，即用手指做出不同形状，然后手电筒照射手指，可以投影出不同动物的样子。同理，在镜头上放置一个 mask 图案，发射光时就可以将图案投影到物体上。由于物体是凹凸不平的，投影到物体上的图案会变形，可以基于此计算得到 3D 数据信息。在散斑结构光和编码结构光中，光发射出去和光反射回来即为一帧。

目前，大多使用 IR 摄像头，这是因为为了与可见光有区别，我们使用了红外光。激光器发射光，IR 摄像头则拍下相应图像然后进行计算。由于有时需要获取颜色的信息，所以会增加一个 RGB 摄像头。以上内容就组成了整个模组，iPhone 和小米 8 就有此类前置摄像头模组。除了这些基本构成，还添加了接近感应器等。iPhone 配备了接近感应器，一方面是为了在接听电话时使手机自动灭屏，另一方面是为了保证安全性，因为红外光对人眼有损害，所以在人眼离手机的距离在一定范围内时，会关闭发射器。

在散斑结构光中，DOE 会发射散斑光。当镜头损坏或 DOE 破损时，准直后的激光光束可能会直接照射到人眼，从而对人眼造成伤害，所以采用散斑结构光技术时必须做人眼安全方面的工作。在编码结构光中，在投影镜头上放置了 mask，光束受到了遮挡，不会直接照射到人眼，所以在编码结构光中，一般不会引进人眼安全相关的技术。

接下来，详细介绍 dTOF，即 LiDAR。在 dTOF 中，发光器发射脉冲，脉冲碰到物体时会反射回来，然后计算得到脉冲的时间差。时间差越小则距离越近，时间差越大则距离越远。这其中有一个难点，由于很多时候拍摄时距离物体较近，时间差较小，所以需要一个精密度较高的时钟。

iPhone 12 Pro 和 iPad Pro 采用了 dTOF，华为、vivo 和 OPPO 采用了 iTOF。这是因为苹果掌握了 dTOF 的大部分专利，且很多功能不开放。在 iTOF 中，发射出来的不是脉冲而是正弦波，然后计算发射时的波和接收到的波的相位差，可以得到时间等信息。总之，iTOF 以面发射光，dTOF 以点发射光。

此外，还有很多其他的 3D 成像技术，此处不再做介绍。

03 3D 摄像录制

最后，介绍几种 3D 的应用场景。

这是 iPhone 上的摄像头，当人在解锁手机或进行支付时，拍摄单帧图像就可完成相关操作。这通常用于活体识别、人脸识别和人脸支付等。比如，在前段时间比较火的人脸支付中，就采用了这种单帧摄像的方式，即拍摄单帧深度图或点云进行处理。

采用 3D 摄像头还可以避免 “照片攻击”。在 2019 年，曾有新闻报道称可以用照片解锁丰巢快递柜，因此人们开始质疑人脸识别的安全性。iPhone X 采用了 3D 摄像头，其识别到的是 3D 数据，可以进行活体识别，避免了 “照片攻击”。

接下来介绍单设备扫描。当一帧图像不够时，可以使用设备对物体进行扫描。在扫描的过程中，3D 图像会慢慢呈现出来。当物体有遮挡时，要采用合适的扫描方式。单设备扫描的主要对象是静态物体，比如石狮子、杯子、沙发等。

另一种是多设备静态拼接。如图是一个 demo，采用一组摄像头使其各拍摄一帧图像，并将图像拼接起来得到人脸模型。目前，这种设备已经开始出售，其原理就是使用多设备对物体进行多角度同时拍摄。单设备扫描的成像速度较慢（需要持续扫描才能成像），而多设备静态拼接的成像速度较快，就像只按了一下快门，因为其采用了多设备进行拍摄。在遮挡部位较多的情况下，比如拍摄人的下颌，就要采用多设备拍摄。

接下来介绍动态 3D 影棚。之前介绍的录制方式的对象主要是静态物体，动态 3D 影棚则可实现实时预览和动态直播，延迟可以控制在 500ms 以内。其中，主要的问题是 3D 相机同步和多镜头干扰。之前提到，为了与可见光有区别，我们采用了红外光，当两个镜头同时向同一个物体发射光束时，物体上会有两个叠加在一起的图案，这就造成了多镜头干扰。为了解决这个问题，多镜头需要进行分时拍摄，但间隔时间不宜太长，要保证当前镜头拍摄完后，紧接着下一个镜头就开始拍摄，将速度保持在 20-30fps。这样，拍摄出来的就是动态的画面。