LiveVideoStack

音视频技术开发周刊 | 244

无人驾驶 WebRTC 单目视觉编解码 AI 机器学习目标检测人脸识别 FFmpeg

LiveVideoStack 2022年5月8日

一周简讯

华为自动驾驶车辆测试专利公布，无需人力测试自动驾驶

华为技术有限公司“自动驾驶车辆的测试方法、装置及系统”专利公布。摘要显示，本申请实施例提供的系统包括软件控制模块、运动控制模块和多个运动平台。根据软件控制模块获取的测试场景信息，确定测试运动平台和目标运动平台，从而向每个确定的运动平台发送参数信息，以便执行对应操作。（Tech星球）

谷歌收购 MicroLED 显示屏公司 Raxium，打造新一代VR/AR/XR头显设备

近日，谷歌正式宣布收购AR/VR Micro-LED显示创企Raxium，后者将加入谷歌设备服务团队（此前有消息称Raxium的估值达10亿美元）。谷歌称：“Raxium团队在五年时间里开发出了小型化、经济高效和节能的高分辨率Micro-LED显示器。随着我们继续投资硬件，Raxium在这一领域的专长将发挥关键作用。”据悉，与其他显示技术相比，Micro-LED更亮、更小、更轻、续航能力更长。它们有望在增强现实/虚拟现实头显或平视显示器中取代OLED。

AR+高尔夫 | AR应用商Quintar官宣与PGA美巡赛3年期重磅合作

近日，AR技术在体育赛事中又开拓了新的应用版图。5月2日，美国PGA高尔夫巡回赛（PGA TOUR）和AR体育应用开发商Quintar公司宣布双方达成一项为期三年的协议，将用AR技术增强PGA美巡赛球迷在移动设备上的观赛体验。根据协议，Quintar公司也成为了PGA美巡赛的官方移动增强现实开发商。美巡赛在赛事中引入AR应用，最早始于2018年。2020年，美巡赛与平台开发商Quintar公司合作，为观看联邦快递杯季后赛（FedExCup Playoffs）的粉丝带来全新互动体验。在双方达成新协议后，这类AR体验将覆盖美巡赛2022的10场比赛，以及2023年和2024年的更多比赛。

超级干货

WebRTC资源汇总
WebRTC 相关的开源项目、工作招聘、测试工具以及行业内的RTC厂商资源汇总。

Clubhouse：使用空间音频提升对话质量
空间音频是一种新技术：当你只是戴上耳机，它也能重现影院级别的环绕声。对于Clubhouse这样的群组通信app，空间音频不仅能带来很棒的音效，还能使你与他人轻松对话。

iOS AVDemo（11）：视频转封装，从 MP4 到 MP4丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第十一篇：iOS 视频转封装 Demo。

Android AVDemo（2）：音频编码，采集 PCM 数据编码为 AAC丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第二篇：Android 音频编码 Demo。

音视频开发之旅（七） OpenGL ES 基本概念
这个系列我们一起对OpenGL ES进行重新学习实践，掌握OpenGL ES 3.0，编写迷人的OpenGL ES 3.0的程序。

W3C: 开发专业媒体制作应用 (1)
本文中Christoph Guttandin 介绍了他对行业发展的一些愿望，Sacha Guddoy 则介绍了直播媒体制作中的 WebRTC。

视频编解码芯片设计原理----12 码率控制
本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。

图像信号处理芯片设计原理----05 自动白平衡
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文将介绍色彩恒常性、色温、和自动白平衡方法。

音视频面试题集锦 2022.04
本文是音视频面试题集锦内容的节选，包括：RTMP 消息分优先级的设计有什么好处？什么是 DTS 和 PTS？它们有什么区别？什么是 IDR 帧？它和 I 帧有什么区别？等等。。。

单目视觉里程计的深度在线校正
本文提出了一种用于单目视觉里程计的新型深度在线校正 (DOC) 框架。整个pipeline分两个阶段：首先，深度图和初始位姿是从自监督方式训练的卷积神经网络（CNN）获得。其次，通过在推理阶段梯度更新位姿来最小化光度误差，进一步改进了 CNN 预测的位姿。

关于 Android 渲染你应该了解的知识点
谈到Android的UI绘制，大家可能会想到onMeasure、onLayout、onDraw三大流程。但我们的View到底是如何一步一步显示到屏幕上的？onDraw之后到View显示到屏幕上，具体又做了哪些工作?带着这些问题，我们今天就深入学习一下Android渲染的流程吧。

AI |算法工程师必备的深度学习--CNN:图像分类（下）
算法工程师必备系列更新啦！继上次推出了算法工程师必备的数学基础后，小编继续整理了必要的机器学习知识，全部以干货的内容呈现，哪里不会学哪里，老板再也不用担心你的基础问题!

[基础知识] JPEG 中的信号处理
本文对 JPEG 算法的核心部分进行了讲解，重点讲解色彩空间、YCbCr、色度二次采样、离散余弦变换、量化和无损编码。从数学和信号处理的角度解释了图像压缩算法的发展历程。

一文彻底掌握自动机器学习AutoML：PyCaret
本文中，作者将和大家一起了解 PyCaret 到底是什么，如何安装它，并深入研究使用 PyCaret 构建可解释的机器学习模型，包括集成模型。接下来和小猴子一起加速构建你的机器学习模型吧。

学习图像的算术运算
输入图像可以进行算术运算，例如加法、减法和按位运算（AND、OR、NOT、XOR）。这些操作可以帮助提高输入照片的质量。在本文中，你将了解使用 OpenCV Python 包对图像执行算术和按位运算的步骤。

从梯度下降到 Adam！一文看懂各种神经网络优化算法
在调整模型更新权重和偏差参数的方式时，你是否考虑过哪种优化算法能使模型产生更好且更快的效果？应该用梯度下降，随机梯度下降，还是Adam方法？这篇文章介绍了不同优化算法之间的主要区别，以及如何选择最佳的优化方法。

有哪些深度学习效果不如传统方法的经典案例？
深度学习作为目前最前沿的科技领域之一，一般都引导着科技进步，但是是否存在一些深度学习的效果反而不如传统方法的案例呢？本文汇总了一些该问题下的优质回答，回答均来自知乎。

15个目标检测开源数据集汇总
目标检测应当在这几年当中研究数量以及应用范围最广的一个领域，也持续的受到很多深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集，希望能给大家的学习带来帮助。

在图像处理中应用深度学习技术
深度学习应用凭借其在识别应用中超高的预测准确率，在图像处理领域获得了极大关注，这势必将提升现有图像处理系统的性能并开创新的应用领域。

基于Transformer的人脸识别（附源码）
最近，人们不仅对Transformer的NLP，而且对计算机视觉也越来越感兴趣。我们想知道Transformer是否可以用于人脸识别，以及它是否比cnns更好。

一文读懂自动驾驶汽车感知系统的架构与关键技术
Perception（感知）系统是以多种传感器的数据与高精度地图的信息作为输入，经过一系列的计算及处理，对自动驾驶车的周围环境精确感知的系统。

【语音处理】硬核介绍人体的感知和听觉特性
本文主要介绍语音感知和听觉特性，包括声压、声压强、响度、音调以及音色等声学感受，还包括双耳效应、掩蔽效应、延时效应等常见声学效应。

【深度学习】小白看得懂的Transformer图解
在本文中，我们将研究Transformer模型，理解它的工作原理。我们将试图把模型简化一点，并逐一介绍里面的核心概念，希望让普通读者也能轻易理解。

技术解析：一文读懂3D目标检测
目标检测与目标识别不同，不仅要识别图像中目标的类别，同时还要确定目标位置。与2D目标检测不同，3D目标检测是使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测。

5 行代码实现图像分割
图像分割，作为计算机视觉的基础，是图像理解的重要组成部分，也是图像处理的难点之一。那么，如何优雅且体面的图像分割？5行代码、分分钟实现的库——PixelLib，了解一下。

Android 视频编辑解析库 MP4Parser
音视频领域的小白，一不小心遇到很牛叉的需求。各种渠道看到这个库，研究的不够深，简单记录。

AI扣图 | 五一假期拍的照片再不用担心游客太多
五一假期，想必大家都有在景区拍照留恋，但是图片中有很多其他游客或者想把自己P到想要的景区，现在人工智能都可以满足你！

FFmpeg命令分析-vf
主要分析各种 FFmpeg 滤镜命令 vf 在代码里是如何实现的。以 FFmpeg4.2 源码为准。

技术解码 | Web端AR美颜特效性能优化
Web技术在XR领域最多被诟病的缺陷在于其性能瓶颈，我们在实际的开发过程中也遇到了一些性能问题。在本文中将以这些技术为基础探讨如何在Web端的AR应用里进行性能优化，以实现更快的渲染速度、更高的渲染帧率。

W3C: 媒体制作 API (3)
这篇文章主要介绍了 WebCodecs 一个大概实现及其可设置选择的一些参数。来自 WebCodecs 的技术主管 Chris Cunningham 将首先介绍一些 WebCodecs 的 API，并会介绍一些关于视频编码器的设置。

自动驾驶中道路目标检测的极端情况数据集
CODA的挑战性数据集揭示了基于视觉检测器的关键问题。该数据集由 1500 个精心挑选的真实世界驾驶场景组成，每个场景包含四个目标级的极端案例（平均），跨越 30 多个目标类别。

特斯拉与毫末智行自动驾驶方案对比分析
说说汽车界最近比较火的两个方案吧，一个来自于特斯拉，采用纯视觉方案，另一个来自于咱们国内的毫末智行，采用视觉+激光雷达的方案。两个方案里都提到了将多传感器的数据由各自传感器的坐标变换到统一的BEV坐标，再进行特征融合。

科技前沿

AI | 时间序列预测一定需要深度学习模型吗？
前段时间来自德国的几位学者的一篇论文《Do We Really Need Deep Learning Models for Time Series Forecasting?》中，用GBRT与最近各大顶会发表的新颖模型进行对比，并公布了代码和结果。本期文章为大家简要分享这篇论文中的精华要点，供广大研究者开发者们参考。

骨传导与气传导到底有什么不同？
声音主要通过两种途径传入内耳，即空气传导和骨传导。通常情况下，两种传播路径同时运行。只不过，我们听到的绝大多数声音是依靠气导的方式传入我们耳内。

西北工大&HVL&哈工大联合出版的 193 篇 GANs 在图像超分辨上综述
本文分享一篇近期超分辨率的最新文献综述『Generative Adversarial Networks for Image Super-Resolution: A Survey』。通过对 193 篇相关文献进行全面调研，从它们的性能、优点、缺点、复杂性、挑战和潜在的研究点等进行讨论。

预训练图像处理Transformer
华为、北大、悉大以及鹏城实验室近期提出了一种新型预训练 Transformer 模型——IPT（Image Processing Transformer），用于完成超分辨率、去噪、去雨等底层视觉任务。该研究认为输入和输出维度相同的底层视觉任务更适合 Transformer 处理。

自主思考的空中机器人成群结队飞出浙大，登Science子刊封面
我国自主研发的飞行规划器等于给无人机安装了智慧大脑，它不仅可以自主规划路线，还能成功进行避障。由浙江大学控制科学与工程学院、浙大湖州研究院完成的一项研究，发表在今年5月份的《科学》子刊《科学·机器人》（Science Robotics）上。

16万视频对、28万对片段，蚂蚁开源视频侵权检测超大数据集
该研究提出了目前最大规模（超过现有其他数据集 2 个数量级规模）的视频侵权定位数据集VCSL，并提出全新的视频片段拷贝检测的评价指标。相关研究入选CVPR 2022。

中科院团队的新研究，人工智能有助于从空间分辨转录组学中识别组织亚结构
中国科学院的研究人员开发了一个图注意自动编码器框架STAGATE，通过集成空间信息和基因表达轮廓，来学习低维潜嵌件，进而准确地识别空间域。

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

音视频技术开发周刊 | 244

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案