LiveVideoStack

音视频技术开发周刊 | 231

流媒体技术推流信号处理音频技术深度学习视频压缩

LiveVideoStack 2022年1月30日

几年前，很多人对在线网课还非常陌生。随着移动设备的普及和音视频技术的发展，如今在线教育产品百花齐放。而在线教育产品能服务千万学子离不开流媒体分发技术的支撑。本次LiveVideoStackCon 2021 音视频技术大会北京站邀请到了网易有道研发工程师周晓天，为我们分享网易有道在线教育业务的流媒体分发相关内容。

音视频中的语音信号处理技术

语音信号处理是以语音语言学和数字信号处理技术相结合的交叉学科，它和认知科学、心理学、语言学、计算机科学、信号与信息处理、声学、模式识别和人工智能等学科联系紧密。

RTMP 协议：为什么直播推流协议都爱用它？

RTMP 在两个对等的通信端之间通过可靠的传输协议（例如 TCP）提供双向的消息多路服务，用来传输带有时间信息的并行的视频、音频和数据。通常的协议的实现会给不同类型的消息赋予不同的优先级，当传输能力受到限制时它会影响消息下层流发送的队列顺序。

KCP 协议：为流速和低延时设计的协议

KCP 是一个开源的快速可靠协议，KCP 能以比 TCP 浪费 10%-20% 带宽的代价，换取平均延迟降低 30%-40%，最大延迟降低 3 倍的传输速度。KCP 是一层纯算法实现，并不负责底层协议（如 UDP）的收发，需要使用者自己定义下层数据包的发送方式，并以 callback 的方式提供给 KCP 。

Dialog+ : 基于深度学习的音频对话增强技术

研究者通过调研发现，现今观众经常会受到听不清音频中人物对话的困扰，为给观众提供个性化的声平衡方案，这篇文章主要提出了一种利用深度学习改善音频中人物对话和环境声相对水平的声平衡方案 Dialog+，并通过线上调研和实地广播测试验证了该方案的有效性。

掌握量化技术是视频压缩的关键

演讲首先回顾了关于标量量化和率失真理论的基础知识，然后讨论了如何联合优化不同级别的量化以提高编码效率的方法。介绍了两个量化技术：时空依赖自适应量化（STAQ）与局部量化细化（LQR），这些方法可以在 HM 和 X265 上带来约 30% 的压缩性能。

DSCT：一种数据驱动的图像编码框架

基于块的 DCT 变换和量化在 JPEG 等众多图像编码标准中起着重要作用。本文提出了一种名为 'DSCT' 的图像编码框架，它采用数据驱动的机器学习方法，基于像素的统计特性进行色彩变换和空间变换。

ffmpeg 源码分析-命令行1

本文章以 FFMpeg 4.2.5版本的源码为准，一定要对着源码看本文章，很多地方采用 cmdutils.c:778行之类的写法。本系列主要分析 ffmpeg_parse_options() 转码的内部逻辑。

https://juejin.cn/post/7052332931062169608

ffmpeg 源码分析-命令行2

ffmpeg 源码分析系列以一条简单的命令开始，ffmpeg -i a.mp4 b.flv，分析其内部逻辑。本文主要分析 parse_optgroup() 的内部逻辑，函数调用用流程图如下。

https://juejin.cn/post/7052333158460555301

AR发展简史

随着技术的不断发展，如今AR已经成为人尽皆知的行业热点，受到国内外巨头竞相追捧。那么一路走来，AR都经历了哪些鲜为人知的重要事件呢？下面小编整理了一份AR发展简史，带大家了解一下AR从无到有的发展历程。

虚拟现实多模态操作技能研究

随着人工智能的发展，对机器人复杂技能的教学需求增加。如何通过人工演示让机器人了解复杂的操作技能，是人工智能领域的一个重要课题。现阶段多采用编程和动觉教学来获得演示。这些方法的缺点是需要大量的人工和调试，并且不能很容易地初始化装配场景。因此，在 VR（虚拟现实）中进行演示可能是解决这些困难的关键。

中国数字经济时代人工智能生态白皮书2021,41页pdf

白皮书围绕一个主题“ AI 生态”，三个关键词“技术、产业、开放平台”，统观 AI 技术在多行业落地情况，剖析开放平台对于 AI 产业生态繁荣的效能与价值，解析典型公司在 AI 产业生态建设方面的创新实践，并结合技术、产业和平台发展现状，研判 AI 生态发展趋势。

2022年人工智能全球最具影响力学者榜单出炉

人工智能全球最具影响力学者榜单（简称“AI 2000”），由清华大学计算机系AMiner团队联合智谱AI、清华-中国工程科技知识中心知识智能联合研究中心共同发布，旨在通过AMiner学术数据，在全球范围内遴选过去十年人工智能（AI）学科最有影响力、最具活力的顶级学者。

利用AI技术释放网络应用创新

英特尔在AI领域推动芯片和软件技术的进步，降低了网络应用开发者进入AI新领域的技术门槛，从而释放了开发者在商业化产品中部署AI高级技术的创新力，充分实现网络应用创新。

B站开源自研动漫超分辨率模型，助力动漫UGC视频高清化

人类对于视频画质的升级是一个永无止尽的过程。从马赛克到高清画质，从720P到4K，视频平台正在不断提升画质，但目前各大视频平台的超高清内容还并不是很多，其关键在于超高清视频的制作难度远超普通视频制作，对设备以及后期技术的要求，为视频内容贡献者带来了很大的阻碍。

OpenCV的实用图像处理操作案例分享

图像处理适用于图像和视频。良好的图像处理结果会为后续的进一步处理带来很大的帮助，例如提取到图像中的直线有助于对图像中物体的结构进行分析，良好的特征提取会优化深度学习的结果等。今天我们来回顾一下图像处理中的最基础的，但是却非常实用的一些操作。

综述：当医学影像遇上深度学习

近年来，随着深度学习的发展，医学影像逐渐成为人工智能最有潜力的落地领域之一。在这里我们将对医学影像遇上深度学习后的当前行业应用进行介绍和分析，希望能够帮助对人工智能在医学影像上的研究和应用感兴趣的同学们更好地了解行业的现状和发展方向。

GAN--提升GAN训练的技巧汇总

GAN模型相比较于其他网络一直受困于三个问题的掣肘：1.不收敛；模型训练不稳定，收敛的慢，甚至不收敛；2. mode collapse; 生成器产生的结果模式较为单一；3. 训练缓慢；出现这个原因大多是发生了梯度消失的问题。本文主要以下几个方面入手，聚焦于解决以上三个问题的一些技巧。

自动驾驶仿真测试工具链示例

没有一种仿真工具可以用于测试ADS自动驾驶系统软件的所有方面，这就是为什么制造商将利用各种仿真工具的属性来建立对整个系统安全性的信心。

自动驾驶中的毫米波雷达——何去何从？

在激光雷达的量产元年，各大造车新势力公司逐步上线自研视觉感知算法，特斯拉宣布彻底抛弃毫米波雷达之际，毫米波雷达在自动驾驶中应何去何从，是最近一直在思考的一个问题，利用这篇文章记录下一些观点与相关从业者分享，也希望更多的人投身到自动驾驶毫米波雷达相关技术的研发中。

2022年智能驾驶行业研究报告（附下载）

电动化开启汽车革命上半场，而智能化将引领下半场，在此交替过程中：核心竞争力转移：性能指标转变：燃油车以内燃机马力为指标；电动车以动力电池续航为目标；智能汽车时代，算力成为影响汽车性能的核心要素。

阅读推荐

对话王晶：音频人才亟待培养，高水平研究人员尤其欠缺

在此次与LiveVideoStack的对话中，王教授分享了过去几年音频领域的重要发展和创新、音频编解码器的独特之处、AI与音频编码技术结合的突破以及目前音频领域人才培养和输出所面临的困境等。

全部评论

作者介绍

阅读排行

2周
4周
16周

热门视频

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案

活动推荐

LiveVideoStackCon 2023 深圳站