LiveVideoStack

音视频技术开发周刊 | 242

视频采集 Rust 视频编解码 OpenCV WebRTC FFmpeg

LiveVideoStack 2022年4月24日

一周简讯

W3C发布WebAssembly 2.0首个公开工作草案
WebAssembly 工作组这次共发布了三个第一个公开工作草案，包括：WebAssembly Core Specification 2.0版，描述了2.0版本的WebAssembly核心标准，是一种安全的、可移植的、为高效执行和紧凑表示而设计的低级代码格式；WebAssembly JavaScript Interface 2.0 版，提供了一个明确的JavaScript API，用于与WebAssembly进行交互；WebAssembly Web API 2.0 版，描述了WebAssembly与更广泛的网络平台的整合。草案地址：https://www.w3.org/blog/news/archives/9509

元宇宙超算力来了，这家独角兽要造AR芯片
安谋科技（中国）有限公司（以下简称“安谋科技”）与Rokid宣布就面向元宇宙应用的终端芯片和生态建设达成战略合作协议。安谋科技将依托本土自研的核芯动力XPU智能数据流融合计算平台以及广泛的Arm技术生态，赋能元宇宙终端芯片设计，向Rokid提供高算力、低功耗的全新AR解决方案，满足新一代元宇宙终端的特定需求。双方达成共识，将在终端芯片、终端设备，以及操作系统、软件工具和人工智能算法等多个领域进行深度合作，共同推动元宇宙的生态建设。

消息称特斯拉或在今年实现完全自动驾驶
据媒体报道，日前，马斯克在访谈中透露，特斯拉将在今年实现FSD（完全自动驾驶），有超过10万人参与了测试项目。他强调，“实现完全自动驾驶”是指特斯拉汽车可以在大多数城市中行驶，不需要人工干预，且比人类司机更安全，可以提高车辆避免事故的概率。(Tech星球）

超级干货

iOS AVDemo（9）：视频封装，采集编码 H.264/H.265 并封装 MP4丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第九篇：iOS 视频封装 Demo。

从高级程序员的角度来看，Rust 基础知识
Rust是一门系统编程语言，专注于安全，尤其是并发安全，支持函数式和命令式以及泛型等编程范式的多范式语言。Rust语言在2006年作为 Mozilla 员工 Graydon Hoare 的私人项目出现，而 Mozilla 于 2009 年开始赞助这个项目。

视频编解码芯片设计原理----10 参考帧压缩
本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文将先介绍一种优化的参考帧压缩的预测方法和熵编码算法，然后介绍其VLSI实现和性能评估。

图像信号处理芯片设计原理----03 坏点矫正
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法（自动对焦，自动曝光，自动白平衡），超分，HDR，风格迁移等主题。

阿里云天池发布完整开源数据集！实测可下！
近期，Tianchi发布了一份非常全面的开源数据集。包含了计算机视觉，自然语言处理，金融，电商，医疗，工业，农业等数据集，非常适合学习和实践，Datawhale整理如下。

AI |算法工程师必备的深度学习--CNN:图像分类（上）
算法工程师必备系列更新啦！小编整理了必要的机器学习知识，全部以干货的内容呈现，哪里不会学哪里，老板再也不用担心你的基础问题!本期内容：CNN:图像分类。

AI |算法工程师必备的深度学习--CNN:图像分类（中）
算法工程师必备系列更新啦！小编整理了必要的机器学习知识，全部以干货的内容呈现，哪里不会学哪里，老板再也不用担心你的基础问题!本期内容：CNN:图像分类。

OpenCV 实现多张图像拼接
OpenCV中从2.4.x版本之后多出来一个新的模型图像拼接，该模块通过简单的高级API设置，可以获得比较好的图像拼接效果，OpenCV官方提供了一个高度集成的API函数 Stitcher，只要两行代码就可以得到一个很好的拼接图像。

细数二十世纪最伟大的10大算法
作者July总结了一篇关于计算方法的文章《细数二十世纪最伟大的10大算法》。

关于直播、WebRTC、FFmpeg 的那些事~~
在知识星球中有位同学咨询了关于直播、webrtc、FFmpeg的一系列问题，这些问题都是大家平时关注的问题。为了让大家在从事音视频之前能对相关概念有一个清晰的理解，此前对这些问题做了系统性的回复，这些答案也许会对你有所帮助，也算是抛砖引玉，欢迎大家一起交流。

什么是辐辏调节冲突？
说起辐辏调节冲突，想必很多人都不太了解。然而我们或许都体验过它所带来的影响。无论是观看3D电影，还是使用AR、VR眼镜，都会产生辐辏调节冲突，导致我们出现视疲劳、眩晕、头疼等不良反应。今天小编就带大家了解一下什么是辐辏调节冲突。

如何用WordPress和SRS在网站植入视频
本文根据作者为自己的公众号文章搬家到博客的亲身经历，为大家分享了个人建站的详细过程，包括选择服务器，怎么利用WordPress博客和SRS音视频服务器搞直播等。

如何使用FFmpeg将AVI转换为MP4（有损转换和无损转换）
在本篇文章中，我们将学习如何使用FFmpeg把视频从AVI格式转换为MP4格式（在重新/不重新编码AVI文件的情况下）。作为福利，我们还将学习FFmpeg在Ubuntu、Mac和Windows上的安装，并使用FFmpeg将AVI无损转换为MP4。

ETDM：基于显式时间差分建模的视频超分辨率（CVPR 2022）
之前的循环VSR方法大多将相邻帧参考帧以及前一时刻的SR输出作为输入，本文将未来的SR输出也参与进参考帧的重建，通过伪相邻SR的方式精进细节，这让笔者眼前一亮。

【语音处理】声音的产生机制和数学模型
本节主要介绍语音产生的过程，包括具体的生理机制，以及由此抽象出的数学模型，包括语音线性产生模型和非线性产生模型。

医学图像处理与深度学习入门
当前，图像处理工具可谓层出不穷，其中，OpenCV(OpenCV library) 因为其强大的社区支持，以及广泛的可用性，在c++, java python等等编程语言中皆可使用，因此，OpenCV已经成为图像处理主流工具。在这篇文章中，我们将使用jupyter notebook与OpenCV。

Android最详细的图片压缩攻略
最近在研究图片压缩原理，看了大量资料，从上层尺寸压缩、质量压缩原理到下层的哈夫曼压缩，走成华大道，然后去二仙桥，全看了个遍，今天就来总结总结，做个技术分享，下面的内容可能会颠覆你对图片压缩的认知。

图像的主题模型
在本文中，将介绍使用Concept创建自己的概念模型的步骤。Concept是一个包，它同时在图像和文本上引入主题建模的概念。

快速抽取缩略图是怎么练成的？
在知识星球里面有一个同学咨询剪映里面的缩略图是如何快速抽取的，关于这个问题，笔者希望分享下对这个问题的一些理解和分析思路，同时也是抛砖引玉，如果各位看官有其他理解和一些自己的看法，欢迎交流。

WebRTC 教程（2）
这篇文章主要介绍了 WebRTC 的一些主要 API 和内部自带的建立连接的功能及特性。

图像处理之三种常见双立方插值算法
图像插值技术在图像几何变换、透视变换等过程中是必不可少的技术环节，可以说像素插值方法最终决定变换之后的图像质量高低。

图像视频质量评估 (IQA/VQA)
本文介绍了图像视频质量评估的基本概念和评价意义，主要涉及到主观质量评估中数据集的产生过程，以及客观质量评估中典型的全参考和无参考评估模型的设计方法。

一文读懂基于DL的无人驾驶视觉感知系统的应用场景
基于深度学习的计算机视觉，应用于无人驾驶的视觉感知系统中，主要分为四大块：动态物体检测、通行空间、车道线检测、静态物体检测，本文主要从需求、难点、实现三个方面对每项感知部分做剖析。

WebAssembly 软解 HEVC 在 B 站的实践
WasmPlayer是B站自研的基于 WebAssembly 实现软解 HEVC 的播放器，提供的是软件解码（软解）能力，通俗层面上软件解码是指使用 CPU 进行解码，相对应的硬件解码（硬解）则是使用 GPU 进行解码。

FFmpeg命令分析-3
本系列主要分析各种 FFmpeg 命令在代码里是如何实现的。本文分析 FFmpeg 改变文件的采样率命令在代码里是如何实现的。

科技前沿

Dan Rayburn: 流媒体服务所做的任何事情都必须有其商业价值
最近，LiveVideoStack有幸邮件采访到了Dan Rayburn。在访谈中，Dan谈到了整个OTT行业所面临的最大挑战、OTT公司如何才能脱颖而出，商业与技术之间的权衡，以及对流媒体行业人士进行教育的重要性。

CVPR 2022 Oral | 人大高瓴AI学院提出：面向动态视音场景的问答学习机制
最近，中国人民大学高瓴人工智能学院GeWu实验室提出了一种新的框架，让AI能像人一样观看和聆听乐器演奏，并对给定的视音问题做出跨模态时空推理。目前这一成果已被 CVPR 2022 接收并选为 Oral Presentation，相关数据集和代码已经开源。

黑夜也能五颜六色，用深度学习实现全彩夜视系统
在一些军事大片中，士兵头戴夜视仪搜索前进似乎是少不了的场景。使用红外光在黑夜中观察的夜视系统通常将视物渲染成单色图像。不过，在最近的一项研究中，加州大学欧文分校的科学家们借助深度学习 AI 技术设计了一新方法，有了这种方法，红外视觉有助于在无光条件下看到场景中的可见颜色。

融合RGB与近红外“看清黑暗”，低照度成像方法：暗视觉网络（AAAI 2022）
对于近红外图像来说, 在人眼不可感知的 NIR 补光灯的帮助下，即使在极端暗光的情况，依然能够保持较高的信噪比。RGB-NIR 融合技术，正是通过高信噪比的 NIR 图像来大幅提升 RGB 图像信噪比的技术，其能够在使用低成本模组的前提下，取得高成本暗光成像模组才能清晰成像。

CVPR22 | 从图形学顶会到视觉顶会：图像拼接矩形化新基准
我们提出了第一个拼接图像rectangling的深度学习解决思路，同时构建了第一个带标签的rectangling数据集，将计算机图形学问题结合新的深度学习范式并带至计算机视觉顶会。

一文读懂自动驾驶多模态传感器融合
多模态融合是感知自动驾驶系统的一项基本任务，最近引起了许多研究人员的兴趣。然而，由于原始数据噪声大、信息利用率低以及多模态传感器的无对准，达到相当好的性能并非易事。本文对现有的基于多模态自动驾驶感知任务方法进行了文献综述。

CVPR 2022 | 多快好省的高光谱图像重建
本文介绍我们近期的两篇文章 MST 与 MST++，其中MST已被 CVPR 2022 接收，MST++ 被 CVPRW 2022 接收，并在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。

Google最新最权威的未来人工智能技术之一：人脸领域
人脸检测识别在我们的生活中已经无处不在，未来十年内，人脸领域的技术依然火热，今天就让谷歌公司带领大家一起来学习认知下该领域的技术，及未来发展趋势！

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）
京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积，来形成CoTNet，在分类检测分割等任务效果都出类拔萃！

微软最新的 AI 技术帮助盲人“看清”：人和物
微软最新的AI技术“PeopleLens”是一种计算机视觉系统，使用机器学习算法帮助盲人与他们的社会环境互动。该项目旨在帮助有视力障碍的人变得更独立，更积极地融入社会。

详述人工智能在自动驾驶中的应用
本文将主要介绍人工智能技术在自动驾驶中的应用领域，并对自动技术的发展前景进行一个简单的分析。

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

音视频技术开发周刊 | 242

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案