音视频技术开发周刊 | 171

树莓派 RTC 5G AV1 WebRTC

LiveVideoStack 2020年11月23日

架构

从0到1打造一个 WebRTC 应用

本文作者张宇航，微医云服务团队前端工程师，一个不文艺的处女座程序员。

https://juejin.im/post/6896045087659130894

WebRTC加密和安全:你需要知道的一切

好消息是WebRTC非常安全。坏消息是——沒有哪一个系统是没有缺陷，WebRTC的安全性也很复杂。在本文中，我将讨论WebRTC如何处理安全问题，以及确定一些已知的薄弱环节，并讨论WebRTC如何继续提高其安全性。

https://www.wowza.com/blog/webrtc-encryption-and-security

关于短视频平台框架搭建与技术选型探讨

近年来，互联网高速发展，电视等传统媒体加速向媒体融合方向迈进，在三网融合等政策推动以及视频云技术、互动技术、大数据分析等新技术加速应用的背景下，无视频，不网络，短视频成为最重要的信息载体之一。构建高效的短视频平台，是慎之又慎的问题。短视频平台搭建离不开各项技术的支持，从云计算到推荐算法，从图像检测技术到大数据统计，不同的技术都给平台创造了新的发展机会。从架构的角度，本文探讨短视频平台的构建与技术选型问题，从以下几点进行介绍。

https://mp.weixin.qq.com/s/Fp24LzVNWE9Hpjy3WqZt7w

如何准确提交WebRTC的BUG

我们要做的是解释如何准确地将BUG提交给Chrome。

https://webrtccourse.com/course/webrtc-codelab/module/fiddle-of-the-month/lesson/submitting-a-webrtc-bug/

传输网络

跟坚哥学QUIC系列：地址验证（Address Validation）

QUIC 做为新一代的互联网传输协议，IETF QUIC 工作组在设计协议标准时除了关注优化性能，安全性也是需要重点考虑的。这篇文章介绍了 QUIC 的地址验证（Address Validation）。

https://zhuanlan.zhihu.com/p/290694322

2020双十一，阿里云GRTN拉开直播和RTC技术下半场的序幕

这篇文章会通过回顾互联网直播技术的发展历程，深度剖析直播延时的技术挑战，并解读阿里云全球实时传输网络GRTN的设计思路、技术原理、特质与应用实践，以及GRTN在摆脱传统直播技术所面临的内卷化（Involution）窘境所作出的尝试。

https://mp.weixin.qq.com/s/UqipMf2S2oo0jo6pgR1sWQ

5G实时直播至关重要的4个原因

根据FCC的定义，美国所有三大运营商现在在全国范围内都有5G足迹。这意味着每个人都可以访问至少2亿人。很少有其他国家能覆盖全国范围，韩国是一个值得注意的例外。

https://mp.weixin.qq.com/s/9pqGNvUGJrMTPQKm_1GfIw

奇葩说之RTC的那些事

RTC本质上是一个时延、流畅、质量、成本等几个点的平衡，我们不能在某些单点上用力过猛，导致最终的效果大打折扣。拍乐云CEO 赵加雨在LiveVideoStackCon 2020北京站的演讲中抛出关于RTC的六个问题，同时站在辩论的正反方与大家拆解如何能够让RTC产品给用户带来更好的体验。

https://mp.weixin.qq.com/s/ToWMgZ-3G-B9VMPvOnDP-A

从HTTP到HTTP/3的发展简史

想要弄明白 QUIC 的优点，最好的办法是讲清楚 TCP 作为 HTTP 请求的传输方式有哪些不足之处。

为此，我们将从头开始细细道来。

https://mp.weixin.qq.com/s/E5RwKvHcDdzHS77lpb9wvw

QoE

使用区分优先级的负载分流法确保Netflix的可靠性

如何在基础架构从系统故障中自我恢复时，仍能确保观众能够在Netflix上观看他们最喜欢的节目？Netflix 给出了他们的解决方案。

https://mp.weixin.qq.com/s/lUd9838j_INIbDKmSnNqJg

编解码

ICIP2020：MPEG中的点云压缩

本篇来自ICIP2020，演讲者是Marius Preda，参加讨论的还有Danillo Bracco Graziosi、Ohji Nakagami和Khaled Mammou，演讲主题是MPEG中的点云压缩。

https://mp.weixin.qq.com/s/hJKzs7-ODWtpkLXKbwPC2A

音视频技术

ICIP2020：融合媒体技术的视觉模型

本篇来自ICIP2020，演讲者是来自西班牙Pompeu Fabra大学的Marcelo Bertalmío，教程主题是融合媒体技术的视觉模型。

https://mp.weixin.qq.com/s/1UnMWshNx9vjPM2k8gPPzw

淘宝直播“一猜到底”

淘宝移动端实时语音识别技术方案及应用。

https://www.livevideostack.cn/news/taobao-live/

浅谈低成本视频动作捕捉技术

近年来，随着人工智能技术的发展和移动互联网的兴起，基于视频的低成本动作捕捉技术逐渐在游戏制作、虚拟主播、AR/VR等领域展露头角。低成本视频动捕技术大大拓展了动捕技术的受众范围，给普通用户带来了全新的内容生产体验，具有广阔的发展前景。本文主要介绍视频动捕技术的基本原理和最新的技术进展。

https://mp.weixin.qq.com/s/F5R7Mgc0WUZWORmL8c8EOA

AI智能

带你读论文 | 端到端语音识别模型

本文将通过六篇论文，从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展，并探讨不同端到端语音识别模型的优缺点。

https://mp.weixin.qq.com/s/wZfBg175ylxZj-k4Xzggqw

程序员奶爸用树莓派制作婴儿监护仪

哭声自动通知，还能分析何时喂奶。

https://mp.weixin.qq.com/s/UtucI1vWYYcIZ-4VEyTTLw

Objectron数据集

仅通过在照片上训练模型，机器学习（ML）的最新技术就已经在许多计算机视觉任务中实现了卓越的准确性。在这些成功的基础上，不断发展的3D对象理解具有强大的潜力，可以为更广泛的应用程序提供支持，例如增强现实，机器人技术，自主性和图像检索。例如，今年早些时候，我们发布了MediaPipe Objectron（一套针对移动设备设计的实时3D对象检测模型），它们在完全注释的真实3D数据集上进行了训练，可以预测对象的3D边界框。

https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html

浮世绘面孔数据集

作为论文域之间可控图像合成的分辨率相关GAN插值的一部分，我使用浮世绘的人脸图像数据集来训练StyleGAN模型，本文包含该数据集的链接和该数据集的详细信息。

https://www.justinpinkney.com/ukiyoe-dataset/