LiveVideoStack

音视频技术开发周刊 | 246

AVOD SRT VR AR 渲染 WebRTC 编解码 FFmpeg 环路滤波 RNN

LiveVideoStack 2022年5月22日

一周简讯

LiveKit 1.0版发布

我们使用LiveKit的目标是构建一个所有人都可以访问的端到端的开源 WebRTC 堆栈。经过 20 个月和近 1000 次提交后，LiveKit 1.0 版发布了。在这篇文章中，我们将深入探讨端到端流优化，这是 LiveKit 1.0 的一个特别令人兴奋的方面。基于 WebRTC 的会议软件通常难以应付只有少数参与者的会议。详情：https://blog.livekit.io/livekit-one-dot-zero/

速度提升1.25倍，Python 3.11.0b1发布

近日，Python官方团队放出了Python 3.11四个测试版本中的首个预览版 Python 3.11.0b1，该版本在进入候选发布之前，都有可能对功能进行修改，或在极少数的情况下删除。Python 3.11.0b1有哪些新功能呢？首先，在速度上，对比Python 3.10，Python 3.11要快10——60%，平均而言，在标准的基准测试套件上锁取得的结果是速度提高了1.25倍。其次新功能方面有：PEP 657 – 在回溯中包括细粒度的错误位置、PEP 654 – 异常组和 except* 、PEP 673 – Self Type等，详情可戳：https://docs.python.org/3.11/whatsnew/3.11.html

字节上线音乐编辑工具“海绵乐队”App

字节于近期在App Store中上线了一款名为“海绵乐队”的App，据官方介绍，此产品将更好的服务于汽水音乐和抖音上对音乐编辑有所需求的用户。据悉，这是一款手机端的便携式音频创作工具，在实现传统的录音、效果器同时，引入大量AI智能来协助创作，降低使用难度，提高创作趣味和效率。（新浪科技）

谷歌正基于Google Map应用支持世界级AR体验

在上周谷歌长达 2 小时的2022 年 I/O活动中，该公司发布了许多激动人心的公告，包括推出一款新的中端手机以及一副能够实时翻译多种语言的 AR 眼镜.。谷歌还为谷歌地图展示了世界级的 AR 体验，这将极大地改善您移动设备上的街景体验，改变您在戴上一副谷歌 AR 眼镜时查看世界的方式。通过使用 Google 的 AR 地理空间 API、云锚点和视觉定位系统 (VPI) 进行数字化转型，Google 设想了一种使用 AR 来帮助您在 87 个国家/地区导航任何城市、城镇或乡村的体验。该技术还可用于使用基于位置的 AR 效果提供独特且个性化的沉浸式体验。想象一个 AR 地标，它不仅可以改变您看待外界的方式，还可以创造出令人惊叹的 3D AR 效果，可以在建筑物和公共场所内查看。

超级干货

关于AVOD, 你需要知道的事
在本篇文章中，我们将了解：什么是VOD?AVOD商业模式、AVOD的工作原理、AVOD的不同类型：CSAI和SSAI。

公网传输技术之SRT协议解析（下）
本文从SRT协议的工作流程谈起，着重介绍和解析了SRT协议的数据包结构，并举例说明如何利用Wireshark抓包软件进行链路故障分析，从而解决实际工作中的问题。

VR与AR简史
VR的历史可以追溯到20世纪60年代。早在1961年，Phlico公司的Charles Comeau和James Bryan就开发了一款头显设备——Headsight。

大家谈的视频体验指标，都有哪些？如何测定？
我们一般通过视频的实时性、流畅性（卡顿率、渲染帧率）、主观画质、首帧出图、音画同步等性能指标来判断视频质量的好与坏。以下内容分别对这些指标做逐一说明，并讲一讲在实验室环境中，每个指标的详细测试方法。

iOS AVDemo（13）：视频渲染，用 Metal 渲染丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第十三篇：iOS 视频渲染 Demo。

Android AVDemo（4）：音频解封装，从 MP4 中解封装出 AAC丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第四篇：Android 音频解封装 Demo。

音视频开发之旅（九） OpenGL ES 绘制平面图形
这篇我们开始实战，通过GLSurfaceView加载着色器，来绘制三角形、正方形和直线这些平面图形。

W3C: 开发专业媒体制作应用 (3)
在本文中，两位主讲人都对基于 Web 浏览器的数字音频工作站进行了介绍，并讨论了这种 DAW（Digital Audio Workstation）在使用时的延迟。

WebRTC 教程 (4)
这篇文章主要介绍了 WebRTC 聊天室设计和搭建，主要包括信令服务器及客户端网页设计。

视频编解码芯片设计原理----14 图像质量评估
本文主要介绍全参考质量评估方法VSI和GDRW，并在GDRW的基础上进行算法优化，提出了基于显著性窗口的高注意度区域感知图像指标GSW，最后介绍了GSW模型的软件实现过程和质量预测性能测试结果。

图像信号处理芯片设计原理----07 绿平衡+去马赛克
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文主要对ISP流水线中的绿平衡模块和去马赛克模块进行简要介绍。

FFmpeg命令分析-r
本文章主要讲解 FFMpeg 里面是如何实现帧率变换的，例如 24fps 是如何转成 8fps的，缩小了3倍的帧率。

低复杂度多模型 CNN 环路滤波 for AVS3
卷积神经网络（CNN）在许多图像/视频处理任务中取得了不错的性能表现。而AVS3作为国内自研的新一代视频编码标准，我们将 CNN 应用于 AVS3 视频编码标准，提出了一个低复杂度多模型 CNN 环路过滤方案。

AI |算法工程师必备的深度学习--循环神经网络 RNN（上）
小编整理了必要的机器学习知识，全部以干货的内容呈现，哪里不会学哪里，老板再也不用担心你的基础问题!

西瓜视频 iOS Voice Over 无障碍适配实践
本文从研发的视角出发，讲述了如何使用 Voice Over、如何适配 Voice Over 以及适配过程中如果遇到问题应该如何解决。

AI场景下从GPU资源池到GPU双资源池
如何管理一个数据中心的GPU，既能够提供虚拟GPU的能力来实现对GPU资源高效的管理和使用，也能满足特定需求下直接访问使用物理GPU。答案就是在GPU资源池化的基础之上，实现GPU双资源池。

实战：使用 PyTorch 和 OpenCV 实现实时目标检测系统
在本指南中，我们将尝试向您展示如何开发用于简单对象检测应用程序的子系统，以及如何将所有这些组合在一起。

双目视觉系统的原理和设计
双目立体视觉是机器视觉的一种重要形式，它是基于视差原理并由多幅图像获取物体三维几何信息的方法。

收藏 | 机器学习中需要了解的 5 种采样方法
有时，一个好的抽样策略会大大推进项目的进展。错误的抽样策略可能会给我们带来错误的结果。因此，在选择抽样策略时应该小心。

从梯度下降到 Adam！一文看懂各种神经网络优化算法
在调整模型更新权重和偏差参数的方式时，你是否考虑过哪种优化算法能使模型产生更好且更快的效果？应该用梯度下降，随机梯度下降，还是Adam方法？

自动驾驶汽车如何看红绿灯？
红绿灯识别是实现城区自动驾驶能力最为关键的一环，现实世界的红绿灯的位置、朝向并无规律可言，想在图像中找到随机悬挂在路口的红绿灯却并不是一件容易的事情。那么红绿灯识别究竟有哪些难点，我们又有哪些技术方案能够实现红绿灯检测呢？

神经网络动力学基于采样的非线性MPC用于自动驾驶运动规划
机器学习模型的控制已经成为机器人技术广泛应用的一个重要范例。本文提出一种基于采样的非线性模型预测控制（NMPC）方法来控制神经网络动力学。

耳朵对于声音识别的原理
人们常说的听声辨位就是人们在听到声音以后，能辨别出声音是从哪个方向传播过来的，而声音在不同环境下传播的又不一样，这就是人耳对声音方向感的作用。

关于声音采集和声音处理的一些建议
相机录制的过程除了采集画面，还有采集音频数据的过程，我们今天就主要介绍一下声音采集的过程以及采集的声音是怎么处理的。

Camera开发需要关注哪些点
我们接下来要分享VideoEditor中的相机处理模块，但是在分享之前，还是有必要将Camera的一些问题给理清楚，磨刀不误砍柴工。

关于Camera性能优化的一些建议
我们在做相机应用的时候，除了相机的基本功能，还有一个非常重要的点，就是性能不能查，有几个方面：预览不能卡顿、拍照速度要快、录制视频不能卡。

JPEG工作原理：彻底理解傅里叶变换
这篇文章可以说是介绍傅里叶变换最清晰通俗的，没有之一，直接把你当做小学生来讲，通过大量的动画不但告诉你傅里叶变换是什么，还告诉你傅里叶变换能干什么。

MediaCodec 编码结合 FFmpeg 封装流
在 Android 平台上合成视频一般使用 MediaCodec 进行硬编码，使用 MediaMuxer 进行封装，但是因为 MediaMuxer 在某些机型上合成的视频在其他手机上播放会出现问题，而且只支持一个音频轨道，因此可以选用 FFmpeg 来封装编码后的音视频流。

一文读懂什么是卡尔曼滤波
卡尔曼滤波是无人驾驶中最基本的算法之一，在传感器融合与定位中几乎无处不在，本文原文来自 BZARG 大神的文章《How a Kalman filter works, in pictures》，后 engineerlixl 大神进行了翻译。

使用 RIST 的同步多流传输
许多应用程序需要同步内容解码,更具体地说，有许多视频源(通常是摄像机)，它们的内容需要使用编码器传输到同等数量的远程解码器。在解码器，播放需要同步——在解码器中一起到达的帧需要在解码器中一起出来。本文说明了一种基于 RIST 的解决方案。

ADAS辅助驾驶之：BSD盲区监测功能
盲点监测系统从技术上主要分为影像和雷达2种，2种技术路线各有优劣。

Android 短视频 SDK 转场特效的音视频同步分析
在短视频的应用场景中，经常存在用户拍摄的两个或者多个视频生成一个视频的需求，为了达到两个视频平滑过渡，就需要在两个视频中间添加转场效果。由于导入视频的帧率、码率等参数都不一致，如何保证在添加完转场效果后音视频同步？

三维重建：基于RGB-D相机的三维重建总览(静态&动态)
本文作者对基于RGB-D相机的三维重建做了系统性的总结与分析，对各类算法都有简要的介绍，逻辑清晰，讲解全面细致，可以说是一篇干货满满的文章，不仅如此还配以生动的GIF图，让其趣味十足，非常推荐想要了解这方面知识的开发者阅读！

科技前沿

科研人员将为人工耳蜗完善音高感知
在《自然通讯》杂志上的一项研究中，由麦戈文（McGovern）脑研究所副研究员乔希·麦克德莫特（Josh McDermott）领导的研究人员使用计算模型来探索影响人类音高感知的因素。

AR助力残障人士，苹果发布AR门检测、实时字幕等多项无障碍功能
近来，为了纪念2022全球无障碍日，苹果发布了一系列无障碍功能。苹果公司无障碍政策与倡议高级总监Sarah Herrlinger说：“苹果将无障碍概念融入我们的工作日常。我们致力于为每个人设计最好的产品和服务。”

基于可学习复数特征的超宽带语音增强模型S-DCCRN
近期，实验室和腾讯天籁实验室针对单通道超宽带语音增强任务提出了S-DCCRN模型，通过可学习频谱压缩，复数特征编码器、解码器以及级联的子带全带处理，网络可以在较低的频率分辨率下进行超宽带降噪。

GPT-3+DALL-E 2 = 海量带标签数据自动生成？
DALL-E 2是OpenAI的又一激动人心的研究成果，它为更广泛的应用场景打开了大门，能够生成海量数据集来解决计算机视觉的最大瓶颈之一。

用2张照片正反向预测中间场景 | CVPR 2022
只需2张照片就能2D变3D，这个AI能自己脑补蜡烛吹灭过程，这就是谷歌、康奈尔大学、华盛顿大学最近联合推出的成果，能只用2张相近的照片还原出3D瞬间，目前已被CVPR 2022收录。论文作者一作、二作均为华人，一作小姐姐本科毕业于浙江大学。

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图
来自深圳大学和特拉维夫大学的最新成果，通过在GAN中引入注意力机制，成功解决了编辑人脸时会产生的一些“手抖”问题。

使用OpenCV实现摄像头测距
摄像头测距就是计算照片中的目标物体到相机的距离。可以使用相似三角形（triangle similarity）方法实现，或者使用更复杂但更准确的相机模型的内参来实现这个功能。

视频P图新SOTA：来自南开大学｜CVPR 2022
在CVPR 2022收录的论文中，就出现了这么一个P图神器，推理速度快近15倍，任意分辨率均可上演人像消失大法，可以分分钟给你上演各种人像消失大法，不留任何痕迹。

CVPR 2022 | 一张图片就能自动重建发丝级头发
CVPR 2022 最新文章，浙大、ETH Zurich和香港城市大学的学者提出的 NeuralHDHair，只需一张图片便能够完全自动地重建出发丝级别的头发模型！效果惊艳！

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

音视频技术开发周刊 | 246

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案