Clubhouse:使用空间音频提升对话质量

LiveVideoStack 2022年5月5日

翻译 | Alex

技术审校 | 朱梦尧

本文来自Clubhouse Blog,作者为Clubhouse流媒体技术负责人Justin Uberti。

 

影音探索 #010#

多年来环绕声一直是影院的一大特色。当你置身于影院中,声音从四面八方传来,这种感觉就像在亲历电影中的情节。空间音频是一种新技术:当你只是戴上耳机,它也能重现影院级别的环绕声。对于Clubhouse这样的群组通信app,空间音频不仅能带来很棒的音效,还能使你与他人轻松对话。

概述

我在加入Clubhouse之后就开始研究实现空间音频的可能性。我们的耳朵非常擅长定位声音从何处而来,它们通过几种不同的方法定位,包括对比声音到达每只耳朵的时间。事实证明,如果你将这种微妙的时间变化方法同样用于app播放的声音,你就能使声音从任意你想要的位置发出。

这种技术被称为头传输函数(HRTF ,Head-Related Transfer Function),它将音频信号处理成好像来自头部的特定方向。即使你戴的是普通耳机,也可以在二维空间内创建定位,使音频听起来像是来自你的左右两边,甚至是背后!这种技术假设针对某一种头部和耳部的几何形状(但人和人的头部和耳部的几何形状是不同的),但对于大部分听者而言,效果非常逼真。

在常见的音频通信应用程序中,如果多个用户同时讲话,他们的音频在播放前会被混合为单通道音频流。而在Clubhouse,我们可以将空间音频HRTF应用于每个音频流,这种做法能够将每个讲话者定位在他们自己的独特空间内。你会感觉自己正置身于对话之中,而不仅仅是在听电话会议。

空间音频的优势

除了带来沉浸式体验,研究显示,空间音频提高了对话清晰度,并降低了对话中的认知负荷。

如果没有空间音频,听者需要依靠其他音频特征(通常为音色和话音幅度)来确定谁在讲话,虽然这些提示非常有效,这也是我们在大部分情况下能够进行传统会议电话的原因。然而,音色上的差异带来了认知成本,尤其当声音非常相似时(比如年龄和性别相似时)。此时,听者需要有意识地关注讲话者讲话,这样一来就产生了不小的认知负荷。

而使用空间音频后,即使在注意力缺失的情况下也能区分讲话者的声音,它在降低认知负荷的同时提高了对话清晰度。

凭直觉判断,这也很有道理。几千年以来,我们的大脑一直在使用空间提示来理解真实世界中的对话,但我们在使用传统电话会议和会话app时已经放弃了这种特殊能力。Clubhouse的空间音频提供了这些重要提示,使app上的对话更人性化、同时也更容易听懂。

集成复杂度

音频管道

为了将HRTF技术集成到Clubhouse,我们必须访问客户端接收到的原始音频流。我们之所以选择访问客户端而非服务端是为了避免向音频添加额外的延迟(如果服务端必须解码、处理以及重新编码每个包,就很有必要访问服务端)。通过客户端方法,我们需要从会议服务中将接收到的音频流连接起来,将接收到的音频原生采样率重采样为HRTF采样率,然后再将每个接收到的音频流进行HRTF处理。这就产生了一组立体声音频流输出,我们将其混合再传送给播放设备。

注意,因为左右耳的HRTF输出不同(正如大部分的定位来源),所以使用立体声播放就非常关键。这在使用有线耳机时会相对简单,但对蓝牙耳机而言却要复杂得多。只有A2DP蓝牙音频配置可以支持立体声播放,而通信app通常使用的HSP和HFP配置却无法支持。

现在,还没有蓝牙配置可以同时支持立体声播放和麦克风输入,所以当佩戴蓝牙耳机时,就限制了空间音频的使用。我们希望和移动OS供应商一起合作,在不久的将来解决这个问题。

心理声学

我们在研究空间音频的产品方面时,其实还有很多其他问题要考虑到。讲话者应该处在虚拟音频空间的什么位置?当房间内参与人数增加,位置是否发生变化?我们做了一系列不同的调整,其中一些问题很快就解决了(通过高效的技术实现)。但有些问题却很难靠技术解决:比如讲话者位置太靠边让人感觉很奇怪,但彼此太近又会减少空间定位的价值。

最有效的方法还是从现实生活中获取灵感。我们考虑到人们在群体中讲话时通常如何安排自己的位置,并据此安排前几位加入者。然后,当新的讲话者到达房间时,我们将他们定位在最大的剩余空间内,这与现实生活中人们加入对话的方式很相似。我们还使用了一个巧妙的过度,这样如果靠边位置的人开始讲话时,定位就会逐渐更新到你会面对他们(就像现实生活中那样)。

我们进行了相当多的试错试验,通过听力测试和对照试验,我们调整了这里的准确值。下面是来自我们用户的反馈。

图片

Clubhouse的空间音频实现得非常好,以至于要花些时间才能习惯。我今晚散步时回头了三次来确认是谁在说话,最后才意识到声音来自app。

图片

Clubhouse的空间音频功能太棒了!

音乐

到现在为止,我所讨论的内容都是假设Clubhouse上的用户都是单声源。但在Clubhouse上,还有很多房间在直播演奏音乐,人们利用app的功能来传输立体声音频。这就给空间音频带来了一个特殊的难题:我们如何在精准定位房间内每个人的同时支持立体声源?

我们使用的方法是将每个立体声源拆分为两个单声源,彼此间隔预定距离(有些像音箱)。其中存在很多挑战:准确确定何时使用这种模式并不容易,因为一些音源会动态地从单声源变为立体声,但是这种技术保留了立体声的丰富效果,同时还允许立体声音频流来自不同的空间位置。

总结

以上就是Clubhouse的空间音频速览。我们认为空间音频让app上的对话更具真实感,它是一种很棒的功能,我希望你们都能喜欢。

References:

https://pubmed.ncbi.nlm.nih.gov/15301615/

https://pubmed.ncbi.nlm.nih.gov/19062861/

https://pubmed.ncbi.nlm.nih.gov/25920841/

https://www.clubhouse.com/room/mgE9RY9Y?utm_medium=ch_room_xerc&utm_campaign=sI95qy9i-EC5I3MvlueR7g-139084


致谢:

本文已获得作者Justin Uberti授权翻译和发布,特此感谢。

原文链接:

https://blog.clubhouse.com/enhancing-conversations-with-spatial-audio/

延伸阅读:

对话Justin Uberti:RTC的过去、现在和未来

还可输入800
全部评论
作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周