LiveVideoStack

音视频技术开发周刊 | 203

P2P hls+ WebRTC QUIC

LiveVideoStack 2021年7月15日

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

小提示：链接跳转仅支持公众号相关链接

音视频技术开发周刊 | 203

B站直播中HLS和去中心化P2P的实际应用

随着光纤入户的普及和电脑性能的不断提升，观众对直播的需求越来越高。常用的流媒体协议HLS虽已被广泛用于PC和手机终端的音视频服务，但在使用中仍然存在一些不足。我们邀请到哔哩哔哩弹幕视频网直播技术部的姜军（雷鸣）老师，介绍基于HLS的直播P2P以及研发过程中他们遇到的挑战及未来规划。

音视频技术开发周刊 | 203

降低网络拥塞，追求美好体验——对话拍乐云首席科学家章琦

LiveVideoStack近日采访了拍乐云首席科学家&合伙人章琦老师，他将从产品、技术挑战、应对策略以及AI赋能等角度和大家聊聊他对音视频技术的理解和展望。章琦老师也是LiveVideoStackCon北京站的嘉宾讲师，将在会上为我们带来精彩的演讲。

音视频技术开发周刊 | 203

低延迟流媒体协议SRT、WebRTC、LL-HLS、UDP、TCP、RTMP详解

低广播延迟已经成为任何关于建设源端站和CDN的招标和竞争中的必要特性。以前这种标准只适用于体育广播，但现在运营商要求每个领域的广播设备供应商提供低延迟，比如：广播新闻、音乐会、表演、采访、谈话节目、辩论、电子竞技等等。在这篇文章中，我们将分析目前市场上在低延迟广播方面提供的方案。

用Starlink填补5G和光纤之间的空白

今天，世界上大约一半的人口 (大约37亿人) 没有互联网。正如在最近新冠病毒大流行期间，互联互通可以对全球人民的生活产生变革性的影响。为此，SpaceX利用其制造火箭和航天器的经验推出了“星链”— 世界上最先进的宽带互联网系统，能够将高速宽带互联网传送到接入不可靠或完全不可用的地区。

QUIC助力Snapchat提升用户体验

Snapchat（色拉布）是由斯坦福大学两位学生开发的一款“阅后即焚”照片分享应用。利用该应用程序，用户可以拍照、录制视频、添加文字和图画，并将他们发送到自己在该应用上的好友列表，这些照片及视频被称为“快照”（"Snaps"）。本文来自Snapchat Client Network Team，主要介绍了Snapchat在使用QUIC协议后，用户体验得到了很大提升。

音视频技术开发周刊 | 203

ICME2021：基于机器学习的VVC帧内编码码率控制

本文来自ICME论文《MACHINE LEARNING-BASED RATE DISTORTION MODELING FOR VVC/H.266INTRA-FRAME 》，文章提出利用4种传统机器学习模型构建VVC帧内编码帧的RD模型。

Access Advance宣布已经完成VVC视频编码专利池的构建

https://www.iam-media.com/frandseps/vvc-access-advance-patent-pool

基于学习的视觉数据压缩技术和标准

本文来自PCS会议（2021）的一次Keynote，演讲者是来自腾讯的Shan Liu，题为“Learned Visual Data Compression Technologies and Standards”。主要对基于学习的视觉多媒体信息压缩及其历年标准提案进行了综述。

Per-Title编码的过去、现在和未来

https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/The-Past-Present-and-Future-of-Per-Title-Encoding-147705.aspx

音视频技术开发周刊 | 203

“零耗时”首帧视频体验的优化实践

本文整理自火山引擎开发者社区 Meetup 第三期演讲，主要介绍了火山引擎点播端到端解决方案在零耗时首帧背后进行的相关技术优化。

WebRTC 发送方码率预估实现解析

WebRTC是一个非常复杂且庞大的东西，今天我们就对其中的发送方码率评估这一块做一个简单的实现解析，帮助大家更好的理解这部分内容。

揭秘版权保护下的视频隐形水印算法

本篇大致介绍了在封装层和在变换前的原始像素数据上进行处理的隐形水印嵌入方法，内容比较集中在格式标准上。在下一篇中，我们将给大家介绍更多图像处理相关的内容，包括 DCT（离散余弦变换）、DWT（离散小波变换）以及SVD（奇异值分解）在隐形水印上的应用，这些方法能够大幅提高隐形水印的鲁棒性，从而在有损压缩以及人为攻击后仍能在一定程度上保证水印的内容。

火山引擎 RTC 在互娱场景下的最佳实践

本文将分享火山引擎 RTC 在互娱场景下的最佳实践，主要包括千人聊天、直播连麦和云渲染这三个具体场景。

淘系的音视频编辑方案：非线性编辑引擎

本文以淘系的音视频非线性编辑引擎Marvel为主题，介绍了它的应用场景和引擎设计。音视频非线性编辑涉及到许多技术，包括编解码、音频处理、图像算法、图像渲染等等诸多方面，都是非常有意思的东西，每一块都可以单独成为一个技术方向。非线性编辑引擎不仅仅是基于这些技术的组装，也需要对这些技术进行升华，挖掘它们在非线性编辑中的业务价值。

音视频技术开发周刊 | 203

基于学习的光学图像损伤修复

本文来自OSA Publishing，由来自微软的研究科学家Sehoon Lim带来，主要介绍的是针对基于学习的图像修复任务进行孔径设计。

TIP2021—重访CV经典: 首个无监督深度学习图像拼接框架

图像拼接(Image Stitching)可以说是计算机视觉领域中一个非常经典且完备的体系，由于其包含如特征点检测、映射估计、匹配对齐、投影变换和图像融合等重要算法（其中每一个小点都可单独拿出来研究），如此综合全面的技术常常被选为各类毕业论文的研究课题。

https://zhuanlan.zhihu.com/p/386863945

GAN之再进化：分布判别器，大连理工提出一种新式无监督图像合成方法

该论文是关于GAN图像生成类的文章出自于大连理工大学并发表于CVPR2021。GAN生成能力最关键的一环在于模型利用真实数据的信息量的多少，但是GAN及其相应的变体因为利用的信息量比较单薄，所以会导致模型在训练的过程中非常脆弱，容易导致模型崩塌。

音视频技术开发周刊 | 203

论文推介：语音转换中的源风格到目标的迁移

近期，由西工大音频语音与语言处理研究组（ASLP@NPU）和爱奇艺合作的论文“Enriching Source Style Transfer in Recognition-Synthesis based Non-Parallel Voice Conversion”被语音研究顶级会议INTERSPEECH2021接收[2]。该论文提出一种显隐式混合建模的方法，可以有效的利用从源音频中提取的显式韵律特征以及从梅尔谱和瓶颈特征中提取的隐式韵律特征，在语音转换中实现源风格到目标的有效迁移。

AISHELL-4 多通道中文会议开源语音数据库

在多人交互场景下的公开数据集例如：LibriCSS、AMI、CHiME都是基于英文语言，AISHELL-4的发布推动了智能语音技术在会议场景里中文多人交互技术的研究及落地。

论文精读| “以音动人”：姿态可控的语音驱动说话人脸

本文不使用任何人为定义的结构信息（人脸关键点或者3D人脸模型），成功实现了人头姿态可控的语音驱动任意说话人脸生成。本文的关键在于，隐式地在潜空间（latent space）中定义了一个12维的姿态编码，用于头部运动控制。

音视频技术开发周刊 | 203

Facebook升级3D AI仿真平台Habitat，号称速度达同类的50到100倍

近期，Facebook推出Habitat 2.0版，在AI Habitat基础上提升了速度、物理模拟和交互性，加速机器人在练习拾取、开关抽屉/门、补货、整理房间等动作上的培训过程。此外，Facebook还推出3D场景数据集ReplicaCAD，以及全新的机器人仿真培训标准HAB，并与3D解决方案公司Matterport合作，发布交互式3D室内场景数据集Habitat-Matterport 3D（HM3D），其中包含1000份高分辨率3D扫描场景（商用建筑或住宅），这可能是目前公开的最大3D场景数据集。

Open 3D Engine

Open 3D Engine(O3DE) 是基于Apache 2.0 的多平台 3D 引擎，开发人员和内容创建者能够通过其构建 AAA 游戏、电影品质的 3D 世界和高保真模拟。

https://o3de.org/

音视频技术开发周刊 | 203

前沿 | 一文详解自动驾驶激光雷达和摄像头的数据融合方法

自动驾驶感知模块中传感器融合已经成为了标配，只是这里融合的层次有不同，可以是硬件层（如禾赛，Innovusion的产品），也可以是数据层（这里的讨论范围），还可以是任务层像障碍物检测（obstacle detection），车道线检测（lane detection），分割（segmentation）和跟踪（tracking）以及车辆自身定位（localization）等。

自动驾驶中实时车道检测和警报

目前，自动驾驶应用程序目前正在测试各种案例，包括客车、机器人出租车、自动商业运输卡车、智能叉车以及用于农业的自动拖拉机。自动驾驶需要计算机视觉感知模块来识别和导航环境。在本文中，我们将探究一个实时模型，用于检测车道、其他车辆等以及生成警报。

Openpose+Tensorflow 这样实现人体姿态估计 | 代码干货

人体姿态估计指从单个 RGB 图像中精确地估计出人体的位置以及检测骨骼关键点的位置。人体姿态估计是计算机视觉领域的研究热点，是诸多计算机视觉任务的基础，如动作分类、异常行为检测、自动驾驶等。

阅读推荐

Fabrice Bellard：一个人抵得上一个百人团队

如果有人告诉你，有一个程序员仅仅用了10个月时间就写了一个软基站，你肯定觉得是天方夜谭，因为这种大工程可是几百个人的工作量，而且还得是精英团队，怎么可能由一个人完成？可世界上总有一些天才式的人物，他们站在普通人无法企及的高度，仅凭一己之力，在短时间内，就能实现常人需要花费数年甚至一生才能达到的成就，法国程序员Fabrice Bellard就是其中之一。

活动推荐

音视频技术开发周刊 | 203

近年来，视频安防行业一直处于高速发展阶段，据预测，2021全国在视频安防领域新增摄像头数量在1.2亿台，已经全面进入大视频时代，视频资源在我国的安全、治理、交通、警务、城管、环保等领域发挥着越来越重要的作用。同时，随着我国智慧城市建设的高速推进，当下较低的视频资源利用水平与不断提高的数字城市业务需求间的矛盾也愈加突出。

7月15日 19：30，我们邀请到了华为云视频接入服务产品经理齐彦昆结合在视频接入服务的实践经验，与大家一同探讨视频上云趋势、痛点、华为的解决方案及带来的好处。

音视频技术开发周刊 | 203