LiveVideoStack

音视频技术开发周刊 | 243

FFmpeg 无人驾驶视频编码音频采集 DRM 机器学习图像去噪 GAN VR医疗目标检测

LiveVideoStack 2022年4月30日

一周简讯

FFmpeg 支持 JPEG-XL
多媒体开源库 FFmpeg 在上周六的提交记录中添加了对 JPEG-XL 图像解码器的支持。JPEG XL 基于 Google 的 PIK 格式和 Cloudinary的 FUIF 格式（该格式基于 FLIF），它的默认设置能在实现接近无损的视觉效果的同时，提供良好的压缩效果，这一项目希望成为其他光栅有损和无损图像格式的通用替代品。

Julia开源新框架SimpleChain：小型神经网络速度比PyTorch快5倍！
世上没有免费的午餐，享受了通用框架的便利，在特定任务上就要牺牲性能。最近Julia开源了一个新框架SimpleChain，在小型神经网络的运行速度上比PyTorch至少快5倍！开发人员表示，这个框架不会对所有人都有用，但对那些需要它的人来说，它是非常有用的。SimpleChains.jl是由Pumas-AI和Julia Computing与Roche和马里兰大学巴尔的摩分校合作开发的一个库，它的主要目的就是为小型神经网络提供尽可能高的性能。

疫情之下，通过咳嗽声也可以检测新冠
澳大利亚科学家开发了一种APP，该APP仅通过咳嗽声即可检测是否感染新冠。据《每日邮报》报道，这款名为ResApp的APP使用机器学习来分析咳嗽的声音，能够以92%的准确率检测到新冠病毒。ResApp由昆士兰大学的Udantha Abeyratne教授开发。美国制药巨头辉瑞公司最近出价1亿美元收购这家总部位于布里斯班的公司。

北京率先放开自动驾驶主驾无人许可百度首批获准
《科创板日报》28日讯，北京发放无人化载人示范应用通知书，百度成为首家获准企业，其旗下自动驾驶出行服务平台萝卜快跑正式开启无人化自动驾驶出行服务。这意味着“方向盘后无人”的自动驾驶服务在中国超大城市首次放开。根据北京市智能网联汽车政策相关规定，获得通知书的示范应用主体可在北京市高级别自动驾驶示范区60平方公里范围内进行公开道路的无人化自动驾驶载人示范应用。

超级干货

Android AVDemo（1）：音频采集，免费获取全部源码丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第一篇：Android 音频采集 Demo。

视频编解码芯片设计原理----11 率失真优化
本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文提出了一种硬件友好的码率估计算法，依次介绍了算法优化和VLSI实现，最后对VLSI实现进行了性能评估。

iOS AVDemo（10）：视频解封装，从 MP4 解出 H.264/H.265丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第十篇：iOS 视频解封装 Demo。

图像信号处理芯片设计原理----04 自动对焦
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，本文介绍自动对焦技术的基本概念，并介绍现有的一些自动对焦方法。

重学音视频？认识 MP4 视频（上）
字面意思很容易理解，MP4 其实是一种容器，可以存音频和视频内容。那么问题来了，既然说 MP4 是 MPEG-4 第14部分，那其他部分是什么呢？有没有 MPEG 的 1、2、3 甚至 5、6、7 呢？

重学音视频？认识 MP4 视频（下）
字面意思很容易理解，MP4 其实是一种容器，可以存音频和视频内容。那么问题来了，既然说 MP4 是 MPEG-4 第14部分，那其他部分是什么呢？有没有 MPEG 的 1、2、3 甚至 5、6、7 呢？

音乐研发必备：理解 MIDI 协议与标准 MIDI 文件格式
本文的目的是让开发中涉及到音乐“本体”的同学可以了解这一最通用的演奏信息交互和文件存储格式的编码规则。同时通过对 MIDI 事件流等概念的认识，能在开发中更好地抽象自己的业务逻辑。

W3C: 媒体制作 API (2)
介绍了在 WebCodecs 中 Memory access patterns 这项技术的当前状况和未来发展。

广播公司如何利用多CDN增加直播的弹性和性能
本次分享的主讲人为来自 Lumen Asia Pacific 的内容交付服务总监 Gautier Demond，主讲人分享了他对广播公司如何通过多 CDN 战略提高直播弹性和性能的见解与案例分析。

音视频开发之旅（六）MediaCodec硬编解流程与实践
Android底层多媒体模块采用的是OpenMax框架，实现方都要遵循OpenMax标准。Google默认提供了一系列的软编软解的实现，而硬编硬解则由芯片厂商完成，所以不同芯片的手机，硬编硬解的实现和性能是会有差异的。

Microsoft PlayReady DRM及其工作原理
在本文中，我们将深入了解微软PlayReady DRM的工作原理。我们还会了解PlayReady的基本构成，它的安全级别、设备支持和许可证获取方法。

Prime Video如何使用AI确保视频质量
用于检测宏块损坏、音频失真和音视频同步错误的检测器是Prime Video的三个质量保证工具。流媒体视频在录制、编码、打包或传输过程中可能会出现缺陷，因此大多数订阅视频服务都会不断评估其流媒体内容的质量。

视频编解码器的现状 (2022)
在这个 2022 年的编解码器进展中，我将介绍去年与 H.264、VP9、HEVC、AV1、多功能视频编码（VVC）、低复杂度增强型视频编码（LCEVC）和基本视频编码（EVC）有关的最重要的公告。

图解十大经典机器学习算法
对于渴望了解机器学习基础知识的机器学习新人来说，这儿有份数据科学家使用的十大机器学习算法，为你介绍这十大算法的特性，采用图解的方式便于大家更好地理解和应用。

PolyLoss | 统一CE Loss与Focal Loss，PolyLoss用1行代码+1个超参完成超车！
大量的实验结果表明，在PolyLoss内的最优选择确实依赖于任务和数据集。只需引入一个额外的超参数和添加一行代码，PolyLoss在二维图像分类、实例分割、目标检测和三维目标检测任务上都明显优于Cross-entropy loss和Focal loss。

FFmpeg命令分析-4
本系列主要分析各种 FFmpeg 命令在代码里是如何实现的。本文章主要讲解 FFMpeg 里面是如何实现帧率变换的，例如 24fps 是如何转成 8fps的，缩小了3倍的帧率。

自动驾驶中机器学习算法应用大盘点
今天，机器学习算法被广泛应用于解决自动驾驶汽车制造的各种挑战问题中。在自动驾驶汽车中，机器学习算法的主要任务之一是对周围环境进行连续的渲染，并预测这些环境可能发生的变化。

详解图像滤波原理及实现！
图像的实质是一种二维信号，滤波是信号处理中的一个重要概念。在图像处理中，滤波是一常见的技术，它们的原理非常简单，但是其思想却十分值得借鉴，滤波是很多图像算法的前置步骤或基础，掌握图像滤波对理解卷积神经网络也有一定帮助。

一文搞懂鱼眼相机模型
本文介绍的鱼眼相机镜头是由十几个不同的透镜组合而成，在成像的过程中，入射光线经过不同程度的折射，投影到尺寸有限的成像平面上，使得鱼眼镜头拥有更大的视野范围。

万字阐述自动驾驶3D激光雷达SLAM算法
本文系统概述了 3D 激光雷达SLAM算法框架和关键模块，分析阐述了近年来的研究热点问题和未来发展趋势，梳理了3D激光雷达 SLAM 算法性能的评估标准。

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能
怎么去做OpenCV + CUDA的加速支持？网上的做法基本都不会成功，真实原因是OpenCV4跟之前的版本，编译CUDA的方法不一样了。所以感觉有必要自己写一遍，作为全网第一个OpenCV4 + CUDA + GPU编译与代码测试的教程给大家。

图像去噪技术简要总结
本期主要针对图像去噪技术进行简要总结，包含空域、频域和稀疏表征的图像降噪方法。

基于延迟边缘化的视觉里程计
本文提出了一种基于延迟边缘化和位姿图BA的单目视觉惯性里程计系统DM-VIO。DM-VIO使用动态权重对视觉光度残差进行BA。

通俗易懂入门机器学习｜KNN算法
KNN，全名k近邻算法。是⼀种⾮常简单有效的机器学习算法。KNN是通过计算不同特征值距离作为分类依据，通过对所有样本求距离，最终得到离待分类对象最近的K个样本，将这K个点作为分类依据。

科技前沿

像纸一样的超薄扬声器
麻省理工学院的工程师开发了一种薄纸扬声器，可以将任何表面变成有源音频源。这种薄膜扬声器产生的声音失真最小，而消耗的能量只是传统扬声器的一小部分。该团队演示了一款人手大小的扬声器，重量约为一角硬币，无论薄膜粘在什么表面上，都能产生高质量的声音。

Nature：科学家首次利用深度学习量化人类意识
现在，科学家对人类意识有了新认识！这次的研究，是通过深度学习算法的AI方式来揭开谜题。一项由韩国、比利时等合作的最新脑科学研究发现，利用深度学习可以量化意识，研究对睡眠、麻醉、脑损伤等不同状况都获得了实验数据。

DeepFake换头术升级：浙大新模型，GAN出一头秀发
虽然DeepFake能令人置信地换脸，但没法同样换好头发。现在浙大与瑞典研究者都扩宽思路，用GAN或CNN来另外生成逼真的虚拟发丝。

带标签图像数据无限生成！GPT-3+DALL-E 2联合，或彻底解决CV界的「粮食危机」
没有优质数据，再强大的模型也无法发挥作用。最近有研究人员发现，GPT-3+DALL-E 2模型如果结合在一起，就能自动生成海量的带标签数据，可以用来扩增和平衡数据集、抵御对抗攻击等。

百度&港大提出BOAT：双边局部注意力视觉Transformer
在这项研究中，来自百度研究院和香港大学的研究者重新思考了局部自注意力机制，提出了特征空间局部注意力（feature-space local attention或简称FSLA）。

复旦提出ObjectFormer，收录CVPR 2022！图像篡改检测新工作！
本文中，复旦大学以人为本人工智能研究中心提出了ObjectFormer，借助视觉Transformer的优势建模物体层面的视觉不一致信息，从而为图像篡改检测提供了崭新的思路。该方法在常用的图像篡改数据集上取得了SOTA的效果。

CVPR 2022 & NTIRE 2022冠军方案！MST：多快好省的高光谱图像重建
本文介绍我们近期的两篇文章 MST 与 MST++，其中MST已被 CVPR 2022 接收，MST++ 被 CVPRW 2022 接收，并在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。

一文看尽 Facebook 3D视觉技术研究进展
本文选自Facebook AI ,详细介绍了其在 3D 内容理解领域的研究进展。

超高分辨率显著目标检测，新颖高效的错层嫁接架构PGNet（CVPR2022）
我们提出了一个新颖的单阶段架构名叫金字塔嫁接网络（PGNet），使用transformer和CNN骨干网络从不同分辨率图像中独立地提取特征，然后将特征信息从transformer分支嫁接到CNN分支。

一文了自动驾驶汽车决策系统
自动驾驶汽车是集感知、决策和控制等功能于一体的自主交通工具，其中，感知系统代替人类驾驶人的视、听、触等功能，融合摄像机、雷达等传感器采集的海量交通环境数据，精确识别各类交通元素，为自动驾驶汽车决策系统提供支撑。

推荐阅读

火山引擎宋慎义：RTC产品需多样化才能良性发展
火山引擎RTC负责人宋慎义认为：“RTC的服务也许并不是现在这么单一，有许多需求并未被满足或做的足够好。”我们现在缺少的是耐心、勇气，以及一点点运气。

一篇文章告诉你：VR全景凭啥那么受欢迎
目前各行各业都在拥抱5G，结合VR，成为商家最优选的一种新颖的广告宣传方式。VR全景除了在娱乐领域获得极大的成功外，在商业领域也成为了人们的焦点，被政府、景区、企业、校园、展会等广泛应用在营销推广上。那么，VR全景到底为什么如此受欢迎呢？

VR医疗 | 带你走进医学世界
VR技术与医学领域的融合最早出现在VR发展的“第三阶段”（1973—1989）。上世纪80年代美国医学研究工作者最早开始了对人体虚拟图像的研究工作。他们分别对一具男性和女性的尸体做了解剖并对解剖部分做了数字化扫描，根据得到的数据进行压缩和整理，建立了世界上第一个“数字人”。

如何阻止身边的麦克风“监听”你?
如今，麦克风几乎嵌入到所有事物中，从手机、手表、电视到语音助手，它们总能听您说的话。计算机不断使用神经网络和人工智能来处理语音，以获得您的信息。如果您想防止这种情况发生，您该怎么做呢？

VR 直播系统
本文是来自Evolution的技术人员Behnam Kakavand在Demuxed 2021上的演讲，从他们旗下的一款游戏的VR直播模式出发，介绍了VR直播系统中的一些注意事项并给出了一些建议。

AI做显卡、显卡跑AI！英伟达实现芯片设计自循环？
用AI更快更好设计显卡，再用做出的显卡跑更快更好的AI。英伟达的这个反向营销案例，非常巧妙。

有人清理了PASCAL数据集中的17120张图像，将mAP提高了13%！
干净的数据对于你的 AI 模型的表现有多重要？有研究称，他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像，并发现 PASCAL 中 6.5% 的图像有不同的错误。他们在创纪录的时间内修复了这些错误，并将模型的性能提高了 13% 的 mAP。

综述 | 图像计算传感器
从吉恩利用反向偏置PN结发明传感器的基础单元开始，到LiKamWa的传感器上的模拟CNN架构，图像传感器越来越先进，越来越复杂。它们不再是仅仅能感知光信号的设备，而是能够主动进行复杂处理的计算传感器。

沉浸式视频中的音频
真实世界的声音来自环境的四面八方，人耳可以通过声波的时间差、强度差、相位差、频率差等辨别声音的方位。沉浸式声音是沉浸式视频系统的一个核心要素。

从“通信”走向“沟通”，智能汽车交互机制的演进
当我们谈论智能汽车的通信时，我们在谈论什么？热门的SOA技术是不是智能汽车交互机制的“终局”？让我们用一篇文章来深挖、讲透这些概念。

综述：目标检测二十年
以2014年为分水岭，作者将过去二十年的目标检测发展进程分为两个阶段：2014年之前的传统目标检测，以及之后基于深度学习的目标检测。接下来，文章列举了二十年来目标检测领域的关键技术，思路非常清晰。

全部评论

作者介绍

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

音视频技术开发周刊 | 243

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案