RTSCon 2022由RTS社区和LiveVideoStack音视频技术社区联合出品,本次大会主题围绕“实时通信与价值赋能”开展,邀请到了腾讯游戏语音(GVoice)内核算法负责人 杨栋,详细介绍超低复杂度Neural卡尔曼滤波回声消除算法。
杨栋
随着人工智能高速发展,智能语音交互技术正在被国内外巨头公司逐步落地和规模化应用。 LiveVideoStack联合滴滴语音团队,邀请滴滴AI Labs三位技术专家对其在国际声学、语音与信号处理的顶级会议“ ICASSP ”中的两篇论文进行深入解读。
LiveVideoStack
人工智能产业领域的技术着眼点会更关注神经网络和深度学习算法以及数据,但是随着技术的落地,不可避免的要涉及到硬件产品的基础体验问题。而由于使用场景、使用方式的差异,以及人际通讯和人机对话的技术要求差异,使得人工智能硬件和传统具有音频功能的硬件又有所不同。本次分享拟从声学硬件系统的角度来剖析声学信号处理算法、声学硬件指标及相关技术对于语音交互体验的影响。
邓滨
人类大脑对声音的响应速度和敏感程度非常高。K歌时对人声音轨和伴奏音轨的时间对齐有很强的要求。本次分享将主要介绍手机K歌在混音时间对齐方面存在的问题,常规的工程解决方案以及值得探索的方向。
LiveVideoStack
本次演讲内容主要分为以下几点:1. 一般 VoIP 框架的组成,各个模块的功能介绍,以及常见的坑有哪些; 2. 在高清音乐场景下面,普通 VoIP 框架面临的痛点;3. 云信高清音乐场景方案的大致介绍。
李备
在谈到实时音视频技术时,往往会将音频和视频技术混在一起讨论,其中音频技术给开发者带来更多的挑战。此外,各种音视频应用场景下又延伸出很多创新的玩法,形成众多的“微场景”。比如说,K歌直播、合唱直播和唱歌PK等微场景需要混音、混响和立体声等实时语音技术。这些实时语音技术是如何实现的?它们又是如何为具体的微场景进行定制的?
冼牛
在实时语音通信过程中,不可避免的引入噪声、混响以及回声,这大大降低了语音质量,严重干扰了用户的正常通话,因此,音频后处理技术显得非常重要。针对这些的问题,本次演讲将主要围绕回声消除、噪声抑制、音量自动控制三部分内容分享,并对音频后处理技术未来发展做展望。
LiveVideoStack
视频编解码领域除了现在广泛使用的H.264以及受版权限制的HEVC,AV1和AVS2作为新一代的标准也在虎视眈眈。而相对来说,音频Codec的演进很少为人们关注,但它在多媒体开发中同样是至关重要的一部分。本次分享将介绍下一代音频Codec的研发以及一些3D spatial coding的方向。
LiveVideoStack
在本次分享中,郝一亚将从AirPods开发者的角度,为大家讲解: 1. “主动降噪”背后的原理; 2. “降噪耳机”的结构; 3. 如何专业的评测一款“降噪耳机”。
郝一亚
在LiveVideoStack线上交流分享中,Cisco资深音频算法工程师高华基于思科的企业协作服务产品实践,分析整理了协作服务中遇到的音频需求,详细介绍了思科WebEx meeting 中的音频方案——WebEx Media Engine (WME)。
高华
紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合;熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础;课程包含图文、代码、视频,降低学习门槛; 李超精准讲解,及时详细解答