算法也浪漫——我们和声网音频专家聊了聊美声、降噪与超高音质

LiveVideoStack 2021年3月17日

/与其说音频技术小众,不如说大家对周围最常用的东西太过习以为常,反而没意识到这些“习以为常”背后的音频技术的存在。/

算法也浪漫——我们和声网音频专家聊了聊美声、降噪与超高音质


算法也浪漫——我们和声网音频专家聊了聊美声、降噪与超高音质


音频专家的浪漫主义情怀

LiveVideoStack:在您参与过的音频领域的开发项目中,印象最深刻的是哪一个?可以与我们分享您当时的经历与体验吗?

冯建元:我做过的音频领域的项目比较广一些,从实时的美声、音效、音频鉴黄到AI降噪、AI-codec等。印象最深刻的应该是实时美声这个项目,这块我们通过数据挖掘的方式总结出了一套对“好声音”的定义,利用AI和传统算法相结合的方式让人声可以从多个维度进行美化,从而开创了实时美声这一功能。

这个项目之所以最深刻,主要是因为在做项目的过程中需要在各种好听的声音中寻找它们发音好听的原因。此外,“通过不同的算法让一些普通的声音也能焕发光彩”这件事本身也让我自己提升了审美。把科学和艺术结合起来分析还满足了不少我的浪漫主义情怀。


LiveVideoStack:您最近关注的新创以及技术趋势有哪些?

冯建元:最近我关注的趋势主要是如何把 AI 更好地用到我们的音频技术之中,这其中就包括了AI降噪、音源分离、AI-codec、变声等领域。


LiveVideoStack:如果要为想从事音频算法技术领域工作的同学推荐一本书,你会推荐什么?

冯建元:亨宁·雷茨和阿拉德·琼曼的《语音学:标音、产生、声学和感知》。这本书可以说是非常经典的老酒型(愈久弥香,温故知新)书籍,它系统而科学地告诉了读者语音是怎么产生的,又是怎么被接收的。如果大家在设计算法前就能有这些对语音的科学理解,事情往往可以事半功倍。


超高音质与深度学习

LiveVideoStack:您目前负责的声网的“超高音质音频系统”的设计研发工作,这里的“超高音质”在技术和产品体验上是什么样的概念?

冯建元:超高音质,顾名思义就是超越高音质。我们可以先看一下什么是高音质:把采样率拉到 48K——从而满足所有人耳所能听见的频率范围、使用对语音损伤较少的 codec、降噪、AEC——从而不会破坏原有的音质。在这个“高音质”的基础上,我们还要研究如何在不同的场景做声音美化、人声增强,从而让人声听起来更好听、细节更丰富。此外,我们还落地了如语聊美声、歌唱美声等一系列产品。


LiveVideoStack:能请您和我们聊聊深度学习在音频算法中的地位吗,目前声网结合深度学习&机器学习设计研发的音频功能&相关产品的思路是怎样的?

冯建元:深度学习已经成为声网音频算法中不可或缺的一部分。我们在事件检测、降噪、codec 等多个领域都将深度学习的算法集合了进去。其实我们在算法设计的时候会把传统算法、物理建模与深度学习相结合以优化效果和算力。同时,我们还成立了深度学习的模型优化团队,专门负责深度学习算子的优化,从而让深度学习的算法快速落地。


“习以为常” 的背后

LiveVideoStack:RTC场景下的音频算法所面对的还没有完全解决的难题有哪些?当下,配套RTC场景的音频系统还需要要得到怎样的提升与改进,以及目前国内在这方面的进展如何?

冯建元:RTC场景中网络不稳定、回声问题、噪声问题、空间声还原等方向都还有很多需要改进和完善的地方。国内在降噪、去回声等技术上还是有很多不错的发展的,比如AI降噪的使用,以及回声消除在软件和硬件中都有不少优秀的产品。

网络方面的问题不只需要网络设施稳定性的提升,也需要算法层面作出更小码率的codec、更好的 PLC 以及更好的空间声还原等等。这些方面国外的发展可能要稍微领先一些。


LiveVideoStack:您的下一个研发方向是什么?

冯建元:高音质场景下更极致的音频体验。具体来说包括全频带超低码率codec,更好的全频带降噪系统等。


LiveVideoStack:音频技术在国内似乎仍然处于比较小众的地位,您是否同意这一说法以及您如何看待这一现象?

冯建元:从事音频技术的总人数确实不是很多,但音频技术的应用却十分广泛。从通信到娱乐行业,人们每时每刻都在各种声场中切换,但音频技术方向的人才缺口却一直很大。与其说音频技术小众,不如说大家对周围最常用的东西太过习以为常,反而没意识到这些“习以为常”背后的音频技术的存在。


LiveVideoStack:对于这次LiveVideoStackCon 2021 上海站的音频场“音频新势力”的讲师阵容/分享内容(

https://sh2021.livevideostack.cn/topics/3169),您有什么样的期待?目前看来,您对哪方面/哪位讲师的分享最感兴趣?

冯建元希望能听到更多音频技术的使用场景和发展方向:工作上来说, 我比较感兴趣的是 OPPO 吴汉杰的演讲,就是有关如何做出更好听的声音的内容;就我自己兴趣而言,unveil 游戏制作背后的故事我也很有兴趣。


LiveVideoStack:可以与我们分享一个您的 New Year Resolution 吗?

冯建元希望疫情早日结束,互动精彩永不落幕。


编辑:Coco Liang


还可输入800
全部评论
作者介绍

Coco Liang

LiveVideoStack

编辑

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周