LiveVideoStack » 音视频技术开发周刊 | 256

音视频技术开发周刊 | 256

音频技术容器播放器视频编码空间音频

LiveVideoStack 2022年8月1日

视频技术

专访即构科技李凯：音视频的有趣、行业前沿一直吸引着我
近日，LiveVideoStack邀请到了即构科技视频处理工程师李凯，请他来跟我们聊聊即构自研移动端实时超分辨率技术的优势与应用场景，在移动端实现此技术所遇到的挑战与困难，即构所采取的应对策略等。

跨平台播放器开发 (六) FFplay 主体框架的构成
从该篇开始，跨平台播放器将不以 QT 为主，为什么呢？因为 QT 不是我们主要学习的范围，我们主要还是学习如何基于 ffmpeg 等基础库来打造一个真正的跨平台播放器 SDK 。

音视频开发之旅（19） NDK构建方式 NDK-Build与CMake
AS 2.2 +默认使用CMake进行 NDK 编译，我们这篇主要学习实践也是CMake，那么为什么要带ndk-build呐？

WWDC 2022 音视频相关 Session 概览（EDR 相关）丨音视频工程示例
EDR（Extended Dynamic Range）是苹果推出的一套渲染管线技术，以支持在不同的屏幕上同时正确显示 SDR 和 HDR 内容。

移动端人脸风格化技术的应用
本文介绍了人脸风格化技术的整个流程，以及该技术在直播、短视频等场景下的应用。该技术可作为氛围营造、提高观感的有效手段，也可在买家秀等图文场景下起到人脸隐私保护、增添乐趣等作用。

视频分类技术整理
最近在做多模态视频分类，本文整理了一下视频分类的技术，分享给大家。

使用机器学习自动选择足球视频缩略图
为了解决足球视频中的缩略图选择，本文基于现有研究对于一个好的缩略图属性定义了一个规则集并基于规则集实现了一个端到端、自动化、模块化、可配置的缩略图选择框架 HOST-ATS，实验结果证明该框架性能优于静态选择及 Hecate 算法。

音视频问题--绿屏再现
前几天收到测试小妹妹提的一个bug，在此记录一下解决思路，排除方法，方便碰到类似问题时有借鉴意义。

深入浅出依赖注入及其在抖音直播中的应用
本文试图从原理入手，讲清楚什么是依赖，什么是反转，依赖反转与控制反转的关系又是什么？一个依赖注入框架应该具备哪些能力？抖音直播又是如何通过依赖注入优雅的实现模块间的解耦？

编解码

MPEG音频编码三十年
在这三十年中，MPEG的音频组向市场输入了一代又一代的音频编码标准。作为MPEG最佳传统，这些标准在某种意义上是通用的，可用于纯音频或者音频+视频应用程序。随着新一代音频编码标准构建在前代编码标准之上，这些编码标准通常可进行扩展。

2022容器格式全面指南
本文是一篇介绍2022年容器格式的全面指南，由Bitmovin公司中一些世界级的视频工程师和专家创作。

编译 Android 使用的 libx264 并使用进行 H.264 编码
在日常的音视频开发中，我们经常使用FFmpeg，因为它确实好用呀，囊括了各种功能！但是有个很严重的问题，如果是编译在Android和IOS上使用，会造成APP的包很大。

人脸视频的生成式压缩：混合编码方案
VVC作为最新的视频编码标准，在保持像素质量方面表现出了良好的性能。为了挖掘视频会议场景在超低码率下的更大压缩潜力，我们提出了一种码率可调的人脸视频混合编码方案。

音频技术

音视频学习--运动估计搜索算法（二）
上期介绍了基本的运动估计内容、以及描述了全搜索和三步搜索算法，本文继续介绍相关算法：二维对数法、新三步搜索法、四步搜索法，废话不多，直接开始。

基于对象的实时空间音频渲染丨Dev for Dev 专栏
本期文章，我们将主要讨论基于对象(object-based)的实时空间音频渲染，也就是如耳机等应用场景中，渲染对象为一个音源时的渲染思路与方案。

论文推介：Glow-WaveGAN 2—高质量的零资源语音合成与转换
该论文提出一种基于变分自编码器（VAE）和说话人编码器的高质量零资源语音合成与转换架构，构建了一个连续的说话人空间，利用流的可逆性获得任意说话人语音的条件分布，从而无需微调模型，即可为新说话人生成高质量的语音。

声学基础知识：频率响应函数
实验模态分析中的频率响应函数是基于频率的测量过程；用于测量结构的共振频率，阻尼和模态振型；有时称为输入和输出之间的“传递函数”；表示线性时不变系统的输入 (x) 和输出 (y) 之间的关系。

网络传输

RTC 性能自动化工具在内存优化场景下的实践
本次内存优化，我们探索了 RTC 场景下性能归因分析驱动性能优化的实践。

全链路压测改造之全链自动化测试实践
B站直播营收送礼业务有着高写、在跨晚和S赛等大型活动下流量陡增、数据实时性要求高等特性，因此业务对全链路压测有着较大的诉求，需要通过全链路压测来系统性地评估服务容量，发现瓶颈和隐患。

音视频环形缓冲区介绍与实现
环形缓冲区对于数据写入和读出以不同速率发生的情况也是非常有用的结构：最新数据始终可用。如果读取数据的速度跟不上写入数据的速度，旧的数据将被新写入的数据覆盖。通过使用循环缓冲区，能够保证我们始终使用最新的数据。

图形图像

图像信号处理芯片设计原理——17 HDR和WDR
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文将简述曝光的相关知识，并介绍自动曝光HDR和WDR。

混合多尺度分解融合算法
本文介绍的是图像融合传统算法中的混合多尺度分解融合算法。算法流程大概为：首先使用双边滤波和高斯滤波结合的方式来对原始的图像进行分解，分解为得到基础图像和多层细节图像，然后使用三种不同的融合策略对基础层图像和细节层图像进行融合，最后重建图像。

关于图像处理和Python深度学习的教程：第一部分
在这篇文章中，我们将学习如何执行图像处理。在整篇文章中，我们使用到的库是Scikit Image。

关于图像处理和Python深度学习的教程：第二部分
我们今天学到的东西并不复杂，最多需要几行代码。棘手的部分是将它们应用于实际问题，并实际提高模型的性能。

开源

自动驾驶方向开源数据集资源汇总
本文汇总了自动驾驶方向的开源数据集，包括城市景观数、语义分割、交通标志、行人、车道检测等共11个数据集。

FFmpeg命令分析-map_channel
本文命令是把 a.mp4 里面的左右声道分布存储在 left.aac ，right.aac 里面，以 FFmpeg4.4 源码为准。

AI不适合开源？MongoDB副总裁：开源代码对人工智能不适用
是时候聊聊AI开源的问题了。显然，这是搞开发的人不得不面对的问题。基本从2006年开始，开不开源就已经成为了头等问题之一。

人工智能

图神经网络的可解释性方法介绍和GNNExplainer解释预测的代码示例（附代码）
本文探讨以下5方面：GNN 需要可解释性、解释 GNN 预测的挑战、不同的 GNN 解释方、GNNExplainer的直观解释、使用 GNNExplainer 解释节点分类和图分类的实现。

机器学习数学本质的理解
鄂老师首先分享了他对机器学习数学本质的理解（函数逼近、概率分布的逼近与采样、Bellman方程的求解）；然后介绍了机器学习模型的逼近误差、泛化性质以及训练等方面的数学理论；最后介绍如何利用机器学习来求解困难的科学计算和科学问题。

梯度下降背后的数学之美
本文作者 Suraj Bansal 通过对梯度下降背后的数学原理进行拆解，并配之以简单的现实案例，以轻松而有趣的口吻带大家深入了解梯度下降这一在机器学习领域至关重要的方法。

万字长文人脸识别算法及系统综述
人脸识别是AI行业应用最广的一个功能，本文将从人脸识别算法和评价指标、人脸识别系统的构成等方面给大家带来有关人脸识别的分享，希望对大家有帮助！

ECCV 2022 | 网易互娱AI Lab提出首个基于单幅图片的实时高分辨率人脸重演算法
网易互娱 AI Lab 提出了一种基于单幅图片的实时高分辨率人脸重演算法，分别在台式机 GPU 和手机端 CPU 上支持以实时帧率生成 1440x1440 和 256×256 分辨率的人脸重演图像。

机器学习 | 基础图表
本文介绍了机器学习基础的图表，其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。

目标检测｜SSD原理与实现
目标检测近年来已经取得了很重要的进展，主流的算法主要分为两个类型：two-stage方法和one-stage方法。本文我们详细讲解SDD算法的原理，并最后给出如何用TensorFlow实现SSD算法。

智能汽车与自动驾驶

自动驾驶最核心的技术是什么？
自动驾驶最核心的技术是什么？有的人认为是感知、有的人认为是决策，有的人认为是非技术的东西，比如能否持续赚到钱、能否做好前瞻性的管理工作等等。不知道你怎么看？

深度强化学习处理真实世界的自动驾驶
强化学习（RL）广泛用于解决使用离散控制空间输出的任务，如围棋、Atari游戏或国际象棋以及连续控制空间的自主驾驶。特别是，RL算法广泛应用于自主驾驶领域，本文采用D-A3C的延迟版本，属于所谓的Actor-Critics算法家族。

自动驾驶下游任务的数据需求估计
给定一个小训练数据集和学习算法，需要多少数据才能达到目标（target）验证或测试性能？这个问题在自动驾驶应用中至关重要，因为收集数据既昂贵又耗时。高估或低估数据需求会产生大量成本，本来在预算中是可以避免的。

上亿人围观！小眼睛博主竟被智能车误判开车睡觉，何小鹏亲自回应
尴尬局面常有，谁曾想竟被辅助驾驶嫌弃。这次，一位车主竟因为眼小被小鹏汽车误判成睡觉，引上亿网友围观。难道眼小也有错？

如何通俗易懂地理解自动驾驶？
从自动驾驶的架构出发往往最能够理解自动驾驶的原理，大众对自动驾驶最浅显易懂的理解就是感知，决策，执行。

AR/VR

用AR开启历史，让沉睡的文化宝藏焕发时代之美
历史，蕴藏着无尽宝藏，而未来，总是拥有无限可能。如果用未来的方式开启历史，将会焕发出怎样的生命力？接下来，就跟小编一起去看看AR视角下的博物馆有着怎样的精彩吧。

盘点AR相关政策
随着AR技术的不断发展，AR行业越来越受到国家重视。近两年来，国家陆续出台多项AR相关政策，极大推动了AR技术落地，明确了AR市场的发展前景。

小扎下血本！Meta专为元宇宙搞了个AI模型
专门为元宇宙打造的AI框架，是什么样子的？人工智能将成为虚拟世界的支柱。人工智能在元宇宙中可与多种相关技术结合，如计算机视觉、自然语言处理、区块链和数字双胞胎。

推荐阅读

SLC及MSU结果揭晓：腾讯云-媒体处理MPS产品全面领先
近期备受媒体处理界瞩目的两大评测结果出炉，以腾讯明眸为技术底座的腾讯云-媒体处理MPS在所参加的评测中，均取得了优异的成绩。

从滴滴被罚看看自动驾驶信息安全
随着互联网技术的发展，智能手机的普及，越来越多诸如聊天、购物、外卖、出行等各方向的App被开发出来，并被应用到生活的方方面面，大家的生活习惯也由于App的使用而发生改变，但在互联网技术越来越成熟的当下，个人隐私安全问题也被赤裸裸地呈现在大众面前，正如滴滴被罚，所列的8个方面均为对用户（司机、乘客）信息的过度获取。

30亿元自动驾驶商用大单落地，还是车路协同那种
7月26日，蘑菇车联与四川天府新区签订战略合作协议，双方拟合作建设蘑菇车联智能网联“车路云一体化”项目，总金额约30亿元。这不是蘑菇车联第一个过十亿级的项目。大额订单落地，自动驾驶已经到商业化爆发期？

研究团队正在教机器真正听到我们的声音
通过使用神经科学领域最近有突破性发展的模型，弗吉尼亚大学的合作研究已经可以将现有的人工智能神经网络转化为能够真正听懂我们说话的技术，无论我们说话的速度多快。这个深度学习工具被称为SITHCon，通过泛化输入，它可以理解以不同语速所说出的话。

全部评论

作者介绍

LiveVideoStack

相关文章

阅读排行

2周
4周
16周

热门视频

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

/

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

/

「线上分享」AMD面向8K UHD应用解决方案

/

活动推荐

LiveVideoStackCon 2023 深圳站

更多

@2017-2024 LiveVideoStack版权所有. 京ICP备20010033号-1 京公网安备 11010502042092号