随着人工智能高速发展,智能语音交互技术正在被国内外巨头公司逐步落地和规模化应用。 LiveVideoStack联合滴滴语音团队,邀请滴滴AI Labs三位技术专家对其在国际声学、语音与信号处理的顶级会议“ ICASSP ”中的两篇论文进行深入解读。
LiveVideoStack
斗鱼作为国内一流的游戏直播平台,每天都会有上万名主播直播,同时会生成海量的视频内容,传统的直播除了做内容审核以外,是不做内容的多次消费的。自从短视频兴起后,我们一直在思考一个问题,如何将我们平台海量的直播内容转化为点播内容?一种方案是直接提供主播的回看视频,另一种方案是基于AI的技术进行智能的直播流云剪辑。很显然第二种方案更好,这也是本次分享主要内容。
LiveVideoStack
传统视频超分辨率技术包括子像素提取,边缘增强,噪声过滤和图像锐化处理等多种手段,这些过程计算量都非常大,一般需要专有硬件来实现。此次分享的超分辨率技术,结合了当下先进的机器学习技术,并具有训练时间短,硬件要求低等优势。通过多种算法和HEVC解码器的高效结合,算法和代码高度优化,大大提高了超分辨率的图像输出质量和计算速度。能够在普通PC上达到实时从1080P到4k的输出性能,移动平台上则可以达到720P到3k。
鲍金龙
点播视频(包括短视频)压制完成后,需要经过内部存储和分发才能接入到视频CDN,内部存储分发的功能由点播视频源站来实现。源站内部分发的过程中,视频数据会通过大量的服务器节点,这些节点分布在不同地域、不同运营商的机房、不同的时间,连通性都是不断变化着的。传统的做法是根据运维经验,配置固定的主备线路进行分发,缺点是线路发生拥塞和故障时,分发的质量会受严重影响甚至失败。PP云则引入机器学习算法,实时生成转发链路的方案,选择最优质的网络链路,提高分发速度。本次分享将对优化方案架构、模型、算法设计和实践,以及未来发展做详细介绍。
曾小伟
紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合;熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础;课程包含图文、代码、视频,降低学习门槛; 李超精准讲解,及时详细解答