LiveVideoStack

音视频技术开发周刊 | 150

云服务 ABR 5G

LiveVideoStack 2020年7月2日

每周一期，纵览音视频技术领域的干货和新闻投稿：contribute@livevideostack.com。

LiveVideoStackCon 2020线上峰会

内容整理

守得云开见日出——危机之下的音视频技术驱动产品创新

在全球疫情的今天，大量线上服务短时间内诞生或极速扩张。身处在云计算的时代，如何用远超以往的基础音视频云服务快速构建海量稳定的在线应用，以应对一场全人类的危机就显得尤为重要。本次LiveVideoStackCon 2020线上峰会我们邀请到了腾讯云音视频通信业务总经理李郁韬，他将从视频会议、在线教育和在线娱乐等典型场景来看音视频技术推动下的产品创新和机遇。

https://mp.weixin.qq.com/s/bcx7va2Xo-U2Xh6bk5_Oqg

架构

WebRTC：Android 上如何在多个设备上启用硬件编码

对于Badoo和Bumble应用程序上的视频调用，我们使用带有H.264编解码器的WebRTC。根据相关文档，您可能认为这个编解码器应该在任何Android设备上无缝运行，从Android 5.0开始。然而，在实践中，情况并非完全如此。本文介绍了在WebRTC中对H.264编解码器进行硬件编码的实现特性，以及在多种设备上启用它的方法。

https://badootech.badoo.com/webrtc-on-android-how-to-enable-hardware-encoding-on-multiple-devices-5bd819c0ce5

错误悬赏报告 0x01 - WebRTC 版

你是否已经为你的 TURN 服务器打上了补丁？

https://www.rtcsec.com/2020/06/03-bug-bounty-bout-0x01-webrtc-edition/

传输网络

低延迟仍是一个挑战

本文来自streaming media的研讨会，主题是：低延迟仍然是一个挑战。主持人是流媒体视频联盟执行总监Jason Thibeault。

https://mp.weixin.qq.com/s/7sf3ogp15-fOV6QC5-0RTA

RTSP？不存在的 -> 前端实时流探索记

视频有一个流的概念，所以称流媒体。实时视频的流很好理解，因为视频是实时的，需要有一个地方不停地输出视频出来，所以整个视频可以用流来称呼。那么视频可否直接输出到前端页面上呢？

https://juejin.im/post/5ef0c01851882565ac059689

自适应比特率ABR技术的发展

OTT 前端相比传统前端有所不同，OTT在以太网上进行传输，并且编码器可以以不同的profile进行编码，输出不同码率，这时候就需要用到ABR技术对不同码率的流进行选择。

https://mp.weixin.qq.com/s/KKH3gkhHr3k2J4kRA7B2Gw

使用CNN对intra frame进行环路滤波

为了取代VVC环路滤波中的去方块滤波（DBF）提出来一种下采样的CNN滤波器。该CNN滤波器在降低神经网络复杂度的同时能保持编码效率。它是一个轻量级CNN网络，能够高效的控制CNN滤波强度以应对不同量化参数。只用于intra frame。

https://mp.weixin.qq.com/s/upr077HtA99TWgkonw6Uww

5G：直播视频制作的未来

本次演讲来自于MediaKind Webinar，演讲者是MediaKind的首席技术人员Tony Jones，此次演讲着眼于可以使用5G作为连接基础架构中受益的应用领域。

https://mp.weixin.qq.com/s/e1LGZdPargEPscSnI5z1Qg

音视频技术

WebRTC系列之音频的那些事

WebRTC由语音引擎，视频引擎和网络传输三大模块组成，其中语音引擎是WebRTC中最具价值的技术之一，实现了音频数据的采集、前处理、编码、发送、接受、解码、混音、后处理、播放等一系列处理流程。

https://mp.weixin.qq.com/s/ajyo46Zqm6vRmKbPdntLXA

Zoho Meeting 推出多视频源的视频会议

提供25人的长廊视图。

https://www.zoho.com/meeting/blog/zoho-meeting-introduces-video-conferencing-with-multiple-video-feeds.html

从浏览器中获取实时视频质量状态

直接从浏览器发布实时流似乎是已经解决的问题之一。在浏览器中观看直播视频是如此普遍，以至于很难想象一个需要专有插件才能有机会工作的时代。由于有了WebRTC这样的浏览器功能，现在甚至连视频通信都显得微不足道了。只有当你在同一台机器上使用两个浏览器窗口时，这个“琐碎”的部分才是真的，但仍然是你在视频上!两次!

https://mux.com/blog/the-state-of-going-live-from-a-browser/

人物专访

专访快手传输算法负责人周超博士：LAS标准的推出离不开信念感

6月21日，快手正式对外发布基于流式的直播多码率自适应标准LAS（Live Adaptive Streaming），用于提供低延迟、平滑、流畅的直播多码率体验。LAS的端到端解决方案同时开源，包括服务端、客户端、业界领先的多码率自适应算法等，从而帮助业界实现零门槛接入和使用LAS。

https://mp.weixin.qq.com/s/v5gcwwauf3EZn7oW8qHdUw

在线催稿：当一位高级视频算法工程师接受采访

讲师专访是每一届LiveVideoStackCon举办前的固有“热身”和传统节目，我们夹带着为大会做宣传的私心（却也并不为过），但更多的是希望帮助大家多熟悉、多了解这些在音视频技术领域摸爬滚打多年的工程师、开发者，像朋友一样真心接触、平等交流。毕竟，技术的分享本就不应该居高临下，他们也曾是你，或许有一天，你也将成为他们（大神们请忽略这句）。

https://mp.weixin.qq.com/s/KU8K3NqsuT2ngqY6oaUeIQ

AI智能

微软上线语音评测功能：基于Azure云构建，赋能口语学习的教与学

近年来，随着人工智能技术的不断成熟，企业数字化转型步伐的加快，AI的触角逐渐深入到各个场景，使人类的生产生活变得更加智慧化。在听觉方面，智能语音技术成为各大科技公司们攻坚的重要领域。

https://www.leiphone.com/news/202006/Ejz4oxCQpPehDnmd.html

「神经网络就像任性的小孩」港中文MMLab博士揭开OpenSelfSup自监督学习的秘密

自然的场景理解是一项艰巨的任务。任务复杂多样，不同方法各有各的专用训练代码，难以结合、复用和改进。评价方案不统一，不同的方法难以在公平环境下对比；动辄百万千万的训练数据量，训练效率是个大问题。港中文MMLab开源自监督表征学习代码库OpenSelfSup，号称「一行命令跑评测」，并在各大Benchmark上验证了复现结果。

https://mp.weixin.qq.com/s/6pXlAyQo99hUEiUOLc31pg

图像

万字长文带你入门 GCN

CNN 在图像识别等任务中具有重要作用，主要是因为 CNN 利用了图片在其域中的平移不变性。由于图结构不存在平移不变性，所以 CNN 无法直接在图上进行卷积。

https://mp.weixin.qq.com/s/oV-VDswOiN8C9PQ2Alm0ow

资源推荐

OGB：图机器学习的基准测试数据集

Open Graph Benchmark（以下简称 OGB）是斯坦福大学的同学开源的 Python 库，其包含了图机器学习（以下简称图 ML）的基准数据集、数据加载器和评估器，目的在于促进可扩展的、健壮的、可复现的图 ML 的研究。

https://mp.weixin.qq.com/s/28UmRuEUFZa44IjNNbM-qw

nginx-http-flv-module

基于nginx-rtmp-module的流媒体服务器

https://github.com/winshining/nginx-http-flv-module/blob/master/README.CN.md