元宇宙交互入口技术简史及未来趋势简析

Max 2022年12月9日

编者按: 元宇宙概念的火爆以及我们对AI、虚拟现实、数字人等技术的不断尝试与探索,催生了大量新应用、新内容和新交互的方式,逐步向更真实、更沉浸、更轻量化的方向发展。现实与虚拟的融合发展,驱动着虚拟现实产业的革新。LiveVideoStackCon2022上海站大会我们邀请到了北航青岛研究院副院长 , 歌尔视觉与空间技术负责人 迟小羽为大家详细介绍了虚拟现实、交互技术的发展迭代以及未来更多的场景与可能。

文/迟小羽
整理/LiveVideoStack

我今天讲的主要内容是元宇宙中AR、VR为主。广义来看元宇宙,AR、VR实际上是元宇宙的一个入口技术,可以把它当作AR、VR的交互。传统的交互都是人机交互,现在可以继续拓展,人和整个元宇宙的生态和整个世界、宇宙进行交互。AR、VR是如何发展的?都有哪些?今天我会带来AR、VR历史的全景,其中和视频技术、光场技术都会有大量的交集和重叠。

图片

今天主要分为四个部分:1、虚拟现实技术的由来与应用;2、虚拟现实产品设备的迭代更新;3、虚拟现实交互、追踪等技术发展;4、虚拟现实未来的技术发展与产品形态设想,未来五年甚至未来15年才有可能落地的技术。

01虚拟现实技术的由来与应用

图片

第一部分,虚拟现实技术是什么时候来的?

1.1虚拟世界让人类感知的方式:从画家和射影几何说起

图片

实际上人类最早去描述、再现这个世界,存在很多艺术。最上面这张图是一张古代的岩画,全世界有大量这样的遗迹,这是我们的祖先在没有任何文字的时候记录世界的技术手段。岩画下面的图是一个简单的室内设计效果图,里边有很简单的一些基本的绘画原理,例如近大远小,它实际上是三维空间在你这张画纸上或者在你的视网膜上的一个投影,专业名词叫摄影几何。人类为什么被局限在二维空间上做投影,因为人类最早成本最低、最可靠的描述世界的方式是在一块石头上、一张画布上做雕刻或者绘画。工具是静态的、二维的,因此必须将三维世界的信息压缩到二维的世界上,这个就是最早的人类描述世界的方式。

1.2虚拟世界让人类感知的方式:从空间与时间再现世界的照相和影视技术

图片

进入18\19世纪,出现了新的技术:摄影,用技术的方式实现了绘画,并且十分精确地用光学和传感器来复刻这个世界。17世纪文艺复兴早期,有一些画家,创造的绘画技术,用一套光学设备去做折射,能够精确地去画画。1980年前后美国有一个公司叫卢卡斯艺术,

创始人乔治卢卡斯拍了星战系列,在这个时间点之前绝大部分电影的动画特效都是造布景,但是80年代开始由于计算机图形、三维绘制技术的提升,可以用计算机去虚拟一些空间中的三维模型。

1.3虚拟世界让人类感知的方式:电影特效的推动

图片

最右上角这张图是1987年完全用计算机画出来的,没有任何现实的东西,全都是虚拟的。右下角这张图是最近最近4、5年的好莱坞影片的画面。比如中国最新上新的影片《独行月球》,为了营造更恢弘的场景和外太空的空间,利用图形图像技术或者基于模型的真实感渲染和绘制技术。

1.4虚拟世界让人类感知的方式:实时互动

图片

与此同时,游戏行业也运用相同技术。左上角是任天堂的红白机游戏《双截龙2》的第一关截图,看上去是三维的,但其实都是二维的贴图,模拟了绘画中的投影。到了94、95年,左下角这张图《极品飞车》里边的所有内容都已经可以用三维技术去绘制生成,并且投影在显示屏上,右上角这些游戏也是非常的炫酷。

如今做三维游戏有各种各样的引擎,比如说Unreal,翻译过来就是不真实、虚幻,营造虚拟世界的场景。

1.5虚拟现实技术的应用

图片

回到电影,电影可以生成那种以假乱真的动画,比如《独行月球》、《复仇者联盟》。这些电影和游戏有什么区别呢?那就是电影的真实感是远远高于游戏的真实感的。电影是处于离线状态的,并且每一帧有足够的算力进行渲染,而游戏的算力是非常有限的,所以真实感比电影差。另外,电影实际上需要花费很多钱在真实感上,对成本的容忍度很高。因此电影和游戏的背后的最大差别就是算力和成本的限制,会得到不同的真实感和绘制效果。

另外的一个区别就是自由度。电影自由度非常低,只能按照时间轴顺序去访问,但是游戏的自由度非常高,可以从任何一个角度体验这个三维世界。比如《极品飞车》,你可以开车把路边栏杆撞坏、开到草地上等等。这就带来了游戏背后最本质的核心,不一定是三维、不一定是显示,最大的区别是交互。之前的所有艺术是没有互动的,艺术家生成之后按照顺序或者静态地去体验,我们都是一个被动的体验者。但是游戏和其他艺术的最大区别就是,用户可以在这个世界里边互动。因此,为什么元宇宙如此有吸引力?它可以带来互动的可能。元宇宙技术希望能够带来更多人与世界的互动,可能是真实世界也有可能是虚拟世界。今天的重点就在于入口层面,源于游戏技术的AR、VR技术。

如今说起AR、VR可能觉得就是头戴式显示器,但实际上60、70年代就有类似的东西了。最开始的三维技术比二维技术、视频技术贵很多,因为二维技术是采自于真实世界,可以继承胶片、光学系统等等,实际上只是将其数字化。然而三维技术需要一套三维的几何空间坐标,对算力的要求非常高。另外显示还需要有高清的显示设备。最开始60年代,现在公认的计算机图形学之父苏泽兰做了一套系统,供美国军方训练飞行员使用。左上角这张图是公司CAE为了训练飞行员做的飞机模拟器,左下角是军方的一个仿真系统。右下角是电影《终结者2》的截图,显示的是一个游戏机,实际上游戏厅中很多设备都是B to B的,右上角是模拟汽车驾驶。当一个技术很新很昂贵的时候,我们称之为三高:高风险、高成本、高难度的应用。比如说训练航天员,需要各种模拟不同场景。因此最开始虚拟现实技术是用在高沉浸感的训练中,之后再运用到其他行业。

1.6虚拟现实工业技术上的应用

图片

自从贝塞尔曲线被发明出来之后,我们所有设计的工业零件都不是用图纸画出来的,都是用计算机辅助设计出来的。但是特别复杂的设备除了有设计过程之外,还有一个过程叫评审,

评审就需要在高沉浸的这种体验环境里边去做。所以如今有一个字叫cave洞穴,四面八方都是三维显示,人能够完全沉浸其中。为什么如今AR、VR能够飞入寻常百姓家,就是因为在移动互联网时代,手机将移动芯片、屏幕、惯性传感器做到了白菜价。

1.7虚拟现实娱乐技术上的应用

图片

如今我们坐的动车、飞机,设计CAD模型和评审的时候,都是需要用到虚拟现实技术的。更接近我们生活的,还有迪士尼的游乐项目飞跃地平线等等高沉浸感的项目都是用的虚拟现实。只不过将其做成了静态的,让用户以为是动态的。

02虚拟现实产品设备的迭代更新

图片

第二部分虚拟现实产品设备的迭代更新。在历史上,能够让老百姓体验的虚拟现实设备都是什么样的?

2.1头戴式显示设备:发展历程

图片

最左边的图是60年代Sutherland制造的第一个头戴式显示设备,更专业来说是近眼显示,意思是离你的眼睛非常近。这样的好处是可以用更小的显示屏幕尺寸获得更大的观看效果。中间的是80年代虚拟现实之父所做的头戴式显示设备,这和目前我们市面上能买到的设备已经非常类似,重量相对较轻。并且配套有带有传感器的数据手套,能够感知手部和手指的空间位置,但是价格非常贵,大概是五万多美元。为了能够让更多老百姓能够玩得起游戏,日本厂商开始努力,1995年任天堂发布virtual boy,但仍旧算力比较低,分辨率非常低并且不是真彩的。此外看到图片上有个支架,它是坐在桌子上把脑袋架在上面玩的。这样的好处是不需要动,就可以省略昂贵的空间。但是他只相当于给你提供了一个更大的黑白显示器,因此效果并没有预期中的理想。因此只能等待时间的推进。最右边这四张图是15、16年我们能够买到的设备。今天的虚拟现实里边的一些核心的技术,比如说手机屏实际上就是跟移动手机共享的一些相关的技术;比如说追踪算法里最重要的惯性传感器,在我们C每个人的手机里边都有。图中四个产品分别是:三维交互手柄、Google Cardboard、HTC Vive和Oculus Quest2。

2.2结合虚拟与现实:AR、MR穿透式显示技术介绍

图片

那么AR、VR和平时使用的手机、电脑到底有什么区别?学术圈用人、计算机、真实世界之间的关系来解析。最左边的图是传统的图形交互界面,人可以和电脑、真实世界交互。但虚拟现实是尽可能地把你放到一个人造的假的世界中,你与外界是隔绝的。虚拟现实其实就是这么一个功能。

从通信和移动互联网的角度看,人和人有大量的交互,人和其他终端也有大量的交互。除了能跟个人的终端交互,还可以去跟真实世界同时地进行交互,这个就是一个很有意思的区别。

很多人已经意识到虚拟现实的问题是,最终替代手机不是戴在头上那个笨重的设备,而且一个戴在头上同时还能跟真实世界交互。手机其实是一个传统的图形交互界面,和笔记本电脑没有本质的区别。用手机的时候,用户抬头可以看到外面,但虚拟现实不行。

图中一个科学家背着很重的一个电脑和传感器就是将近20年前的增强现实技术,当时算力不行,传感器也不行。在它旁边是一个iPad,后面有一个摄像头,能够照真实的世界,并且通过算法去叠加到真实世界上,这个就是增强现实。

最右下角这三张图是混合现实,首先是Google Glass能够做到近眼的信息提示,同时不影响观看外部的世界。第二个微软Hololens代表了2010年代增强现实/混合现实头戴式显示设备的最高水平。第三个Magicleap也是在增强现实、混合现实做了很多研发工作。未来手机增长开始乏力了,带来的盈利也很短。从个人终端来说,很有可能在孕育这下一个不同的产品形态进行替代,但这个的背后有大量的技术瓶颈。

2.3展望未来:元宇宙显示终端的可能形态

图片

那么元宇宙的魅力到底是什么?我们在互联网时代或者移动互联网时代有了新的生活方式,比如网游、社交等,这些都有可能成为元宇宙或者未来三维世界中的一部分。还有一些东西是三维技术能提供,而今天的技术提供不了的,这个很有可能就是推动元宇宙的和虚拟现实的动力。在万物皆可元宇宙的当下,其中很多东西都是泡沫的,因为任何新技术都是有代价和成本的,如果这个代价和成本能带来额外的革命性的体验,消费者愿意为其买单,但如果不是的话,消费者很难接受。因此元宇宙也是这样,如果利用三维和高沉浸感的技术去做今天已经能搞定的购物、社交等,那么它就是一个华而不实的技术。

这里举了几个例子,最右边是工业上的训练和虚拟拆装,例如航空工业、汽车行业等。当我们的技能和知识不需要天天在自己脑子里边的话,虚拟现实除了做训练还可以远程指导,还可以做机对人的信息输入。人工智能出现深度学习和大数据之后,律师就不需要打普通官司了,只需要进行特别难的官司;医生也只要看疑难杂症,减少了每个人的知识负担,实际上是知识结构和操作技能上的解放。中间这张图是导航,利用增强现实眼镜实现三维导航,能够自动规划路径。另外当中也有其竞争对手,那就是iBeacon射频技术,射频技术的成本也好,穿透力、稳定性也好,都比增强技术要好得多。最左边的图是虚拟办公的场景,但也存在一定的问题。手机的交互精度没有办法代替鼠标和键盘,并且其分辨率和屏幕大小也存在一定问题。那么虚拟现实或者增强现实能把显示的空间扩大,并且带有高沉浸感。从如今角度来看元宇宙技术能不能很好地运用就是要看它能不能够解决新的问题。比如说光场可能很少有人提到,它是一个既能像游戏一样全自由度访问的空间,同时又能跟视频一样非常真实的技术。但它的成本太高,因此实际应用上存在一些问题,并且不是非常稳定,需要很多用户去尝试、试错。元宇宙也是如此,在空间定位、三维显示等技术上还有待于稳定、加强。

03虚拟现实的交互、追踪等技术发展

图片

第三部分是虚拟现实的交互、追踪等技术发展。虚拟现实技术和我们今天所说的交互有什么的最大的区别?

3.1源自电影动画动作捕捉的追踪Tracking技术

图片

首先是源自电影动画动作捕捉的追踪tracking技术,我们需要追寻用户头部、手部和身体的位置和姿态。这套技术本来是电影中使用的,来追踪人的骨骼动画,使其非常真实。

3.2元宇宙时代的三维空间定位技术简介

图片

在虚拟现实中,首先需要惯性传感器,它非常的便宜且快速,并且算力依赖非常小。第二个是HTC Vive推出的光塔定位技术,但存在一个问题,需要外置一个设备,对于用户非常不友好。相比较手机,虚拟现实每次还需要携带一个设备,操作难度系数大。

3.3 Inside-out还是Out-sidein?

图片

因此如今已经变换了一种模式,由这种由外而内的追踪变成了这种由内而外的inside out tracking,使得设备变得简单、易于部署。今天的VR能够卖1000万台,16、17年只能卖100万台,这就是我们技术的进步,推动了设备的易用性。但tracking也有问题,其刷新率不够。由于它是近眼设备,距离头部非常近,头轻微的转动带来的角速度和角加速度都非常高,因此对设备的要求更加高。所以如今的虚拟现实技术还不是很稳定,很多硬件设计都没有做到最高效。

3.4运动眩晕:制约进一步发展的瓶颈

图片

3.5手势交互:人对于世界的互动

图片

游戏行业的人认为虚拟现实是体感游戏的进一步,有一个游戏叫《节奏光剑》,由于它是一个三维的沉浸感的显示体,在做音乐类游戏和体感类游戏有很大的优势。但如果做卡牌类游戏,就不一定用得着虚拟现实。

3.6语音交互:人与人的沟通

图片

语音是继承于今天我们手机上的移动时代的语音。但必须要提到,将来的设备要足够简,是不能够有手柄的,否则对用户很不友好。因此除了手势之外,语音就是最重要的做交互的方式。

3.7眼动追踪与表情识别:感知一个人的内心世界

图片

眼动追踪中提到除了注释点渲染之外,还有一个最重要的在视频会议的的过程中,一对一的时候沟通效率很流畅,但一对n的时候,沟通效率会大幅度下降,其中涉及了语音和视觉信道。如果要看真实世界中看到其他人,需要实时地做交互,采集肢体动作、眼睛、表情等信息。

04虚拟现实未来的技术发展与产品形态设想

图片

最后分享虚拟现实未来的技术发展与产品形态设想。

4.1下一代感知技术:视网膜投影

图片

首先是视网膜投影,必须和眼动一起作用,它可以省掉所有的光学模型,直接将光线和需要显示内容投到你的视网膜上,不需要担心对焦等问题。这个技术还需要15年左右来成熟。

4.2下一代感知技术:光场显示技术

图片

第二个是光场显示技术,Google开发的Starline是一套简化的光场,能够真正地从任意角度去进行三维的体验,但它目前只是一个会议系统的原型,还到不了产品的程度。光场是基于图像或者视频的绘制,因此会比游戏渲染更加真实,在将来实际运用人与人的沟通会议的场景中,会更加受青睐。

4.3下一代感知技术:其他感官交互技术

图片

第三是其他感官交互技术,比如力触觉、远程操控等,都可以运用在医疗培训中。

4.4终极目标:脑机接口

图片

最后最重要的部分是脑机接口。其实已经到现在人类已经做了好几十年,但除了聋哑人治疗有很好的效果之外,其他的效果都不是很稳定。长远来看,有一些非接触的方法可以做数据收集。长远来看,脑电可能需要20年或者更久的时间落地,但有很大可能大幅提高交互的效率,让大家更好地体验元宇宙。

以上就是本次演讲的所有内容,谢谢!

(全文完)


图片

还可输入800
全部评论
作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周
热门视频

HLS性能优化之旅

熊子良/资深研发工程师

贝壳找房联络中心的RTC实践

安海波/语音架构师