对话王晶:音频人才亟待培养,高水平研究人员尤其欠缺

LiveVideoStack 2022年1月25日

编者按:春节前夕的最后一次采访,LiveVideoStack有幸邀请到了北京理工大学信息与电子学院副教授王晶。王教授目前在北京理工大学信息与电子学院通信技术研究所从事教学科研工作,讲授本科生《数字通信网》和研究生《语音信号数字处理(全英文)》课程。在教学的同时,王教授还承担有国家自然科学基金、国家重大科技专项、国际合作项目及与中国移动、华为等的企事业横向科研项目。她长期参与信息技术领域标准化工作,目前为AVS中国数字音视频编解码标准组织成员,CCF语音对话与听觉专委会委员。在此次与LiveVideoStack的对话中,王教授分享了过去几年音频领域的重要发展和创新、音频编解码器的独特之处、AI与音频编码技术结合的突破以及目前音频领域人才培养和输出所面临的困境等。

图片

北京理工大学信息与电子学院副教授 王晶
LiveVideoStack: 王教授,您好,非常欢迎您参加LiveVideoStack的年终访谈,还请您跟我们的读者介绍一下自己。
王晶:本人现在北京理工大学信息与电子学院通信技术研究所从事教学科研工作,讲授本科生《数字通信网》和研究生《语音信号数字处理(全英文)》课程。博士期间研究课题为“低速率和变速率语音编码”,并且对声音质量评价技术有近20年的研究积累,承担ITU/3GPP/AVS等国内外标准化组织和知名企事业单位委托的音质评测任务。自进入到实验室工作便参与北京理工大学和瑞典爱立信公司国际合作项目,对2G/3G/4G/5G/B5G移动通信中语音和音频关键技术进行研究。所承担的国家和省部级研究课题涉及音频编码、多媒体质量评价、VoIP、语音增强、声音事件检测、空间音频、虚拟现实等技术领域。当前的主要研究兴趣包括基于深度学习的声音处理技术和沉浸式音视频通信技术等。
LiveVideoStack: 据您观察,过去几年,音频领域有哪些重要的发展和创新?目前的音频技术研究主要有哪几个方向?
王晶:音频领域广义上包含语音、音乐、环境声等各类人耳可闻的声音处理技术研究,涉及信号处理算法、计算机编程、声学系统设计和底层芯片开发等一系列软硬件技术。在过去几年,声音通信从单一的语音通信发展到语音和音乐混合,立体声及多声道音频,三维音频和虚拟现实音频,逐步提升用户的听音体验。自2012年以来,音频领域和人工智能技术的结合使得声音分析、理解和生成等研究获得飞速发展和技术创新,基于深度学习的语音识别技术突破了传统框架的限制,使得智能语音交互应用更为广泛;近年来神经网络模型尝试用于语音压缩编码,使得沉寂许久的低速率声音编码技术引起业界关注;虚拟现实和通信网络的发展使得全方位的空间音频体验成为可能。在硬件设计方面,阵列麦克、蓝牙音频传输,声场定位、智能语音处理芯片等技术使得手机通讯、无线耳机、扬声器回放、车载环境等相关产品的音频体验有了极大的提升。
目前的音频技术研究从技术差异角度来看主要包括智能语音交互、音频压缩编码、空间音频处理、声音质量评价、音乐计算、听觉场景分析等方向,在不同应用领域可能涉及与计算机、通信网络、物理声学、心理学、语言学、生物医学、脑科学、艺术等交叉领域的研究问题。

LiveVideoStack: 和视频编解码器相比,音频编解码器有哪些独有的特点?二者相比,哪一个更复杂?

王晶:音频编码和视频编码从理论上来看都属于信源压缩编码,都是将一种格式的音频/视频文件/信号转换为另一种格式,通过去除信号或数据冗余达到压缩的目的。视频编码处理的是连续的二维或三维图像序列,通常需要去除空间和时间上的冗余,并借助人眼感知特性去除感知冗余,典型的视频压缩技术主要使用帧内压缩、帧间压缩和熵编码等。音频编解码器从技术框架上来看与视频编解码有较大区别,其中从信源类型上又可分为偏语音类、偏音乐类、语音音乐混合类的编码技术。音频编码处理的是一维的非平稳语音或音频信号,通常需要去除时间上的冗余,并借助人耳感知特性去除听觉上的冗余,在三维音频编码场合对于多通道信号还需要去除通道间冗余。典型的音频编码技术可以使用线性预测、感知编码、时频分析、频带扩展、熵编码、声道去相关等技术手段。

 

从技术原理上来看,音频编码由于涉及到非平稳信号处理及复杂的人耳听觉特性,需要考虑的技术模块相对较多,往往需要通过主观测试才能得到可靠的音质评级;从硬件实现上来看,音频编码处理一维信号的复杂度比视频编码相对较小,所需要的硬件资源消耗也更少一些。

LiveVideoStack: 我们知道,数字音频编码又被分为语音编码和音频编码,您能否给我们介绍一下,这两种编码技术在应用领域和发展趋势上有何不同? 

王晶:语音编码通常用于语音通信和语音存储场合,更关注人声的编解码效果。目前中高速率以上的编码标准和算法已经比较普遍,例如ITU-T的G.711、G.729等G.xxx系列,3GPP AMR、EVS系列,VoIP中的Opus编码算法等都属于语音编码,并兼顾考虑对音乐信号的支持,但低速率语音编码尤其是3kbps以下编码的音质还未达到通信级别的听音要求,ITU-T在4kbps以下的低速率编码标准化进程也停滞了很久。

 

音频编码通常用于广播、影视制作、流媒体等场合,更关注对音乐信号或者混合音频信号的压缩效果。国际上MPEG标准化组织相继推出了MP3、AAC、MPEG-H等一系列的音频编码标准,国内AVS标准工作组自2002年开始面向国内需求研制适合我国数字音视频产业的音频编码标准,此外杜比、DTS、Fraunhofer IIS等也都是国际上比较知名的音频编码研究机构。当前音频编码从单声道、立体声发展为多通道和三维音频编解码,并朝下一代沉浸音频编码方向发展。

 

另外,近年来谷歌公司推出的AI语音和音频编码器结合神经网络模型突破了传统技术框架,尤其在低速率下体现出更为优势的声音编码质量,成为业界关注的焦点。

 

LiveVideoStack: 去年谷歌推出了两款基于AI的音频编解码器——Lyra和SoundStream,您认为这两款音频编解码器会给整个行业带来什么样的变化?在音频编码与AI的技术结合上,未来可能会有哪些突破? 

王晶:谷歌推出的AI编解码器Lyra和SoundStream给沉寂已久的语音和音频编码研究领域注入了新的活力,尤其是SoundStream采用了端到端的神经网络模型,从数据驱动角度出发,不依赖于传统的信号处理和编解码框架,体现出比传统编码和上一代Lyra更新的技术特点和性能优势,例如压缩效率更高,支持语音和音乐等多类型信号,同时可以兼顾压缩和增强,尤其在低速率下性能表现更好,并在继续推进开发版本和工具的整合,以期在实际应用中发挥作用。这两款音频编解码器打破了行业许久以来对低速率编码技术研究和应用的沉寂,进一步推动了AI编解码器的发展,促进了人工智能和编解码器的深度融合,引起产业界和研究界的广泛关注。在音频编码与AI技术的结合上,未来可能会在传统信号处理和AI建模相结合的方式上进行继续探究,并由语音扩展为音频甚至多通道音频的压缩效率提升,进一步可能通过引入新的AI模型及算法优化策略在需要统一多类型信号编码框架以及对速率要求较低的场合下实现技术应用上的突破。

LiveVideoStack: 最近元宇宙是一个比较热的话题。您认为元宇宙的到来,音频会在其中发挥什么样的作用?

王晶:元宇宙Metaverse确实是当下比较热门的话题,从一开始概念的提出到后来饱受争议,再到当前成为广泛关注的热点,投资热潮不断追捧,甚至连Facebook都将公司名字改为Meta。2016年被称作是虚拟现实VR元年,2022年有望成为元宇宙的元年,元宇宙和虚拟现实、数字孪生有密切的关联性,但更多的是实现虚拟和现实的融合与交互,未来比较大的场景是将虚拟现实、人工智能、区块链、下一代互联网等技术融为一个大的体系。当前元宇宙引发的数字资产(例如数字人)、数字孪生等研究热点仍然是以计算机图形图像呈现技术为主,鲜有元宇宙音频应用场景的深入讨论,大概因为音频业界人士还在积极推进全景音频、沉浸音频等技术的深入研究和应用落地。

 

未来音频技术将会是以虚实交互为主的元宇宙中不可或缺和非常重要的信息内容,例如在元宇宙的世界里进行语音和音频交互时,人们将会更为关注声音的真实感、空间感、沉浸感以及音视频的时间、空间同步等体验,VR音频里6DoF技术也将会成为元宇宙音频中的必备支撑技术之一。

LiveVideoStack: 王教授,您一直在参与信息技术领域标准化工作,同时也是AVS中国数字音视频标准组织成员,您能否跟我们介绍一下我国音频编码标准的发展现状?

王晶:AVS工作组在2002年6月由原信产部(现工信部)批准成立,自成立以来就一直致力于我国数字音视频编解码技术的标准化工作,联合国内外相关企事业单位及高校进行编解码相关技术研发、知识产权管理以及产品开发和产业应用推广等。AVS音频组迄今为止研制的音频标准包括:

  • AVS1-P3 《信息技术 先进音视频编解码 第3部分:音频》,支持双声道、5.1声道,无损和有损编码,于2009年提交标准报批稿;

  • AVS1-P10《信息技术 先进音视频编解码 第10部分:移动语音与音频编码》,主要面向移动通信业务支持低码率下的宽带语音和音频编码,于2013年12月颁布为国家标准(GB/T 20090.10-2013);

  • AVS2-P3《信息技术  高效多媒体编码 第3部分:音频》,支持基于声道、对象的三维音频编解码以及无损编码,于2018年6月颁布为国家标准(GB/T 33475.3-2018);

  • AVS VR-P3音频《信息技术 虚拟现实内容表达 第3部分:音频》自2016年开始制定,并于2021年确定国标号(20214282-T-469),支持基于声道、对象、场景等沉浸式音频内容的呈现,以及3DoF和6DoF等虚拟现实场景下音频渲染技术等,目前处于WD标准工作草案阶段。

 

自2021年初,AVS音频组开始着手制定面向8k和5G等应用场景的下一代音频标准,目前AVS3-P3《信息技术 智能媒体编码 第3部分:沉浸式音频》的第一阶段“端到端模式的沉浸音频高效压缩方法”于2022年1月形成标准报批稿。

LiveVideoStack: 与视频相比,您认为音频有哪些无可替代的优势?

王晶:音频和视频都是多媒体内容的重要组织部分,这两种内容的信号特点、感知特性以及技术处理手段有差异,从信息压缩角度来看,视频相比音频需要更大的传输带宽,但对于用户体验来讲音视频感受都同等重要。与视频相比,音频不受人眼视场角的影响,可以全方位地感受周围的声音信息。从认知神经的角度来看,声音对听觉记忆的影响因人而异,有很多关键的事件信息往往更容易通过音频获得。从应用场景角度来看,除了影像照片这种只需要视觉呈现的场合,大多数应用场景都需要音视频的配合,例如影视播放、视频会议、手机视讯等;某些应用场景只需要音频,例如音频广播、音乐播放、有声读物等;某些背景信息的震撼感则必须配以环境音效来更好的呈现。对于虚拟现实或者说未来元宇宙场景,沉浸音频更显得异常重要,当用户转动头部或移动身体的时候,周围重现的声音应当和实际中听音的方位及空间感受保持一致,音频相比视频更能提供全方位的信息指引,这些都需要有更好的音频技术作为支撑。我们无法想象,未来在一个没有音频或仅能发声的“元宇宙”里人们保持交流或与周围环境进行交互就能达到和现实世界一样的体验。

 

LiveVideoStack: 感觉同视频相比,音频相对小众,从事音频相关工作的人不是很多,实际情况是这样吗?作为一名大学教授,您如何看待音频人才的培养和输出?

王晶:纵观学术会议、标准组织、企业构架、产品发布等有关信息,视频领域的研究及从业人员相比音频领域的人数显得更多一些,这可能是因为视觉的冲击感更容易让人直观地感受到,且视频的信息量相比同步的音频而言会更大一些,对于通信网络、硬件资源的需求也更大。而音频则会被误以为只要能听清就可以(实际上音频对主观测试的要求要更高,用户的听音体验也是需要提升和普及的),相比视频而言对于带宽和复杂度的要求相对较低,这也造成了很多实际产品的关注焦点大多是视频或者视觉特征。

 

尤其是国内对音频的技术研究和人才储备远不如视频多,往往是国际上一些知名企业推出新的音频应用之后,国内企业才着手跟进和开发,例如杜比公司推出的Atoms全景音频体验,苹果近年来推出的TWS耳机附带空间音频功能,谷歌引发的AI编解码器研究热点等。实际上音频技术相比视频技术要复杂一些,需要更多的非平稳信号处理和音频听觉感知基础知识以及交叉学科的常识。对人才培养而言,语音和音频处理能够贯通从本科到研究生阶段所涉及的信息学科、计算机学科等各种知识储备,是一种非常典型的信号和信息处理场景,无论对于音频领域还是其他信号处理场合的人才培养都很有借鉴意义。每年各大互联网公司、信息技术领域的企业对语音和音频相关应聘岗位的需求量还是很大的,但从事音频技术研究的人才培养还有所欠缺,尤其是高端人才有待加强,这对于提升我国数字音频领域的自主技术研发能力和国际竞争力显得异常重要。

 

LiveVideoStack: 对于未来想从事音频工作的同学,您有哪些建议和意见?

王晶:相比计算机视觉、通信网络、人工智能等概念较大的发展方向,目前专门从事音频信号处理或者音频相关技术的研究人员并不太多,但实际的工作岗位需求还是挺大的,尤其是高水平研究人员相对欠缺。事实上,从事音频工作的人员由于对信号处理和计算机编程能力都需要兼顾,也很容易过渡到其他技术岗位。音频领域(广义上包括语音和音频处理)当前和计算机技术、通信网络、人工智能、虚拟现实甚至生物医学等结合都非常紧密,相比传统单纯从信号处理或计算机编程的角度来看,很多实际应用问题的解决更倾向于需要交叉学科基础。

 

对于未来想从事音频工作的同学们,尤其是想在理论结合实践上有技术突破,建议首先学习数字信号处理、信息论、计算机编程、通信网络、人工智能等基础知识,然后深入掌握音频信号处理的各类常用算法和典型应用场景,研究课题或者工作内容的选择可以针对实际应用场景的需求开展具体研究。目前网络上开源代码和学习材料非常多,尤其是基于AI的声音处理技术,建议同学们在系统学习基础知识的同时多加编程实践练习,以便更好地理解算法思路,至少应当独立完成一到两个案例的实现。进入研究生学习阶段的同学则需多关注领域内的顶级会议和刊物,参加一些学术或者行业会议与同行进行交流,善于发现研究中的问题,并利用所学知识进行分析和解决。

 
还可输入800
全部评论
作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周