LiveVideoStack

音视频技术开发周刊 | 241

音频技术视频技术 FFmpeg 视频编码图像检索

LiveVideoStack 2022年4月18日

一周简讯

MPAI-MMC将被IEEE采纳为技术标准

在 MPAI Multimodal Conversation (MPAI-MMC) 获得批准满 6 个月的当天，IEEE 主持了 P3300 工作组的启动会议，任务是采用 MPAI 技术规范作为 IEEE 标准。早些时候，MPAI 和 IEEE 签署了一项协议，MPAI 授予 IEEE 将 MPAI-MMC 作为 IEEE 标准发布的权利。

Meta向“元宇宙”开发者抽成47.5% 比苹果30%还高

新浪科技讯北京时间4月12日晚间消息，据报道，对于在其“元宇宙”中销售虚拟产品的开发者，Facebook母公司Meta将向他们收取高达47.5%的费用，远远高于苹果公司App Store应用商店向开发者收取的30%费用。

Google 将把 AI 写作内容视为垃圾信息从搜索结果中移除

OpenAI 的文本生成神经网络 GPT-3 被认为能产生以假乱真的文章，那么搜索引擎应该如何对待它生成的内容？据Search Engine Land报道，Google 的 Search Advocate John Mueller上周在一场搜索引擎优化（SEO）的线上对谈中，在被问到Google对提供AI自动生成的内容会如何反应时，他表示这类网站将被归类在自动生成内容的网站，意指这违反了Google的网站站长质量指南。根据Google的网站站长质量指南，系统在大多数情况下都会自动发现垃圾内容并将其从搜索结果中移除。为了确保索引质量，Google还会采取手动操作将垃圾内容从搜索结果中移除。

百度开源PP-Human项目，太强了！

飞桨目标检测开发套件 PaddleDetection 中提供的 PP-Human 是一套综合了目标检测、跟踪、关键点检测等核心能力的产业级开源实时行人分析工具。它基于企业真实场景数据打磨优化，拥有人体属性识别、行为识别与流量计数三大能力，兼容单张图片、单路或多路视频 3 种输入类型，还可适应不同光线、复杂背景及跨镜头场景！不仅如此，PP-Human 还直接提供目标检测、属性分析、关键点检测、行为识别、ReID 预训练模型，方便开发者灵活取用及更改。PP-Human 项目传送门:https://github.com/PaddlePaddle/PaddleDetection。记得收藏，防止走丢又实时关注更新。

TikTok向所有用户开放AR特效工具

TikTok正式向所有创作者和开发者推出AR效果工具。Effect House允许创作者制作自己的AR相机特效，让其他TikTok用户在视频中使用。该公司在一份声明中表示，该特效平台包括工具和学习资源，将向“世界各地的所有创造者、设计师和开发人员开放”。该公司讲道：“无论是用绿屏抠像把自己传送到一个新的世界，还是用时空扭曲扫描滤镜定格画面，这些抖音创意效果都能让创作者通过各种引人入胜的、沉浸式形式来表达、娱乐和分享故事。”TikTok公司表示，特效提交后需要经过审核才能使用。该公司明确表示将禁止“发布肤色歧视或其他负面刻板印象内容”的特效，以及“描绘如唇部填充等整容手术，或鼓励审视外貌”的特效。

超级干货

将音视频中的花屏、绿屏、黑屏问题一网打尽
今天给大家分享一下关于音视频中的黑屏、花屏、绿屏问题，这也是各大微信群里经常问的问题，这次争取将他们一网打尽，彻底解决了。

音视频开发之旅（五）MediaExtractor MediaMuxer 实现视频的解封装与合成
本文首先介绍了MediaExtractor MediaMuxer 能做什么，然后对视频解封装和合成的API以及流程进行了介绍，最后分享了三个实践实例，以及遇到的问题等。

关于音视频里面的解码帧率和渲染帧率
在知识星球里面有位 PM 同学，咨询关于音视频里面的解码帧率和渲染帧率，关于这两个概念其实挺绕的，不同的人可能还有不同的看法，所以也让大家一起来评估一下解读是否正确！

iOS AVDemo（8）：视频编码，H.264 和 H.265 都支持丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第八篇：iOS 视频编码 Demo。

FFmpeg命令分析-1
本系列主要分析各种 FFmpeg 命令在代码里是如何实现的。本文分析 FFmpeg 简单裁剪翻转滤镜命令在代码里是如何实现的。

【语音处理】开始学习语音，从基本概念和应用讲起
本文主要讲解了基本的语音学研究范围，对基本的语音特征进行了简单的介绍，最后对语音信号处理技术的应用进行了相关介绍。

深度学习实战：卷积神经网络识别猫狗
本文记录了第一个基于CNN卷积神经网络在图像识别领域的应用：猫狗图像识别。主要内容包含：数据创建和预处理、神经网络模型搭建、数据增强实现减小正则化。

一文彻底搞懂自动机器学习AutoML：Auto-Sklearn
本文将系统全面的介绍自动机器学习的其中一个常用框架: Auto-Sklearn，介绍安装及使用，分类和回归小案例，以及一些用户手册的介绍。

视频编解码芯片设计原理----09 熵编码和熵解码
本章首先介绍了熵编码和熵解码算法的基本原理，并给出其在HEVC标准中的基本流程。然后对熵编码和熵解码的相关子模块进行VLSI设计，得出设计结果与对比。

图像信号处理芯片设计原理----02 镜头阴影矫正
本系列主要介绍图像信号处理器 (ISP, Image Signal Processor) 中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法（自动对焦，自动曝光，自动白平衡），超分，HDR，风格迁移等主题。

人脸识别技术全面总结：从传统方法到深度学习
英国赫特福德大学与 GBG Plc 的研究者近日发布了一篇综述论文，对人脸识别方法进行了全面的梳理和总结，其中涵盖各种传统方法和如今风头正盛的深度学习方法。

使用OpenCV进行图像编辑--绘画和素描
OpenCV是功能强大的计算机视觉库，具有强大的图像处理工具包。在本文中，我们将利用它来创建绘图和绘画，其中大多数将使用内置功能！让我们简短介绍一下，直接进入令人兴奋的实操环节。

基于DnCNN的图像和视频去噪
现代相机拍摄的图像会因噪声而退化，图像中的噪声是图像中颜色信息的失真，当在夜间拍摄时，图像变得更嘈杂。该案例研究试图建立一个预测模型，该模型将带噪图像作为输入并输出去噪后的图像。

盘点深度学习中的各种数据增强技巧
数据增强也叫数据扩增，意思是在不实质性的增加数据的情况下，让有限的数据产生等价于更多数据的价值。

基于RGB-D图像的视觉里程计连续尺度空间直接图像对齐
本文提出了一种新的稠密 3D 图像对齐算法，该算法根据像素强度估计一对相机位姿之间的欧氏变换矩阵。本文所提出的方法显著地提高较大的帧间运动的直接图像对齐的鲁棒性。在TUM RGB-D 数据集上的各项实验表明，该算法优于前沿的基于固定尺度金字塔的对齐方法。

Pytorch图像检索实践
图像检索的基本本质是根据查询图像的特征从集合或数据库中查找图像。任何图像检索任务的90%都体现在暹罗网络、triplet loss和三元组的创建中。如果你成功地完成了这些，那么整个努力的成功或多或少是有保证的。

科技前沿

揭秘北京2022冬奥会背后的技术
北京2022冬奥会不仅向观众展示了运动员的体育才能，而且向世界展示了它的技术创新。我们将在下文了解支持了本届奥运会的下一代网络连接、技术能力以及数字化生态系统。

专治各种噩梦级抠图！魏茨曼联合英伟达发布Text2LIVE，用自然语言就能PS
还在为PS的各种命令、工具头疼吗？魏茨曼联合英伟达发布了一个新模型Text2LIVE，只需用自然语言就能轻松完成各种抠图、贴图，图像和视频都能用！

港大火星实验室最新工作：用于精确实时3D SLAM的高效概率自适应体素地图
今天给大家分享一篇香港大学火星实验室的成果，题目是用于精确实时3D SLAM的高效概率自适应体素地图，本文提出了一种精确的概率体素地图表示法，准确地考虑了点测量和激光雷达位置估计引起的点不确定性，以对地图中平面的不确定性进行建模。

成果速览 | 首个基于FPGA的4K超高清端到端智能视频压缩系统
本文分享了来自北京大学计算机学院视频与视觉技术国家工程研究中心马思伟教授团队的最新成果《FPX-NIC: An FPGA-Accelerated 4K Ultra-high-definition (UHD) Neural Video Coding System》。团队在端到端视频编码算法及其硬件系统设计的取得了显著进展，研究了全神经网络智能视频编码算法，提出了一种全新的端到端视频编码模型，构建了首个面向4K超高清的全神经网络硬件编码系统（FPX-NIC），分析了该智能视频编码系统的压缩效率、功耗开销和系统特性。FPX-NIC系统为全神经网络视频编码算法研究和实际落地应用做出了重要探索。

视频也可以用扩散模型来生成了，效果很能打：新SOTA已达成 | 谷歌
前有OpenAI用它打败霸榜多年的GAN，现在谷歌又紧随其后，提出了一个视频扩散模型。和图像生成一样，初次尝试，它居然就表现出了不俗的性能。最终，该模型在无条件视频生成任务中达到全新SOTA，一起来看。

斯坦福学生攻破两个约会软件！用GAN模型「女扮男装」骗过人脸识别系统
人脸识别技术最近又有新的破解方式！一位斯坦福的学生使用GAN模型生成了几张自己的图片，轻松攻破两个约会软件，最离谱的是「女扮男装」都识别不出来。

人类看的是形状，算法看的是纹理
德国研究人员认为：人看的是形状，计算机看的是纹理。这一发现相当有趣，但它证明计算机算法离人类视觉还有很远距离。

CVPR 2022 | 利用递归 “瞥视” 解码器优化基于Transformer的目标检测算法
近期，基于Transformer的目标检测算法开始在学术界流行起来。这一类算法通过建模全局视觉信息，能直接输出图片中出现物体的详细位置和类别信息。和传统目标检测算法不同，此类算法避免了额外的后处理过程，能高效高质量地进行目标检测。

推荐阅读

关于边缘计算，那些不边缘的“术”与“道”
最近几年，随着各类音视频应用的爆火，处理音视频所需的算力也急剧增长。同时音视频对延迟也有很高的要求。那么如何才能满足“高算力，低延迟”这一迫切需求，又能帮助企业降低成本？边缘计算提供了绝佳的选择！

盘点来自工业界的GPU共享方案
近年来工业界一直孜孜不倦地寻求提升GPU利用率的方案，能被更多用户理解和使用的GPU共享走进工程师的视野中。本文将总结目前有公开PR的、来自工业界的部分GPU容器计算共享方案，看看工业界对GPU共享的定位和需求。

VR眼镜的发展史（上）
上个世纪50年代中期，爱折腾的美国摄影师 Morton Heilig 发明了第一台VR设备：Sensorama （1962年提交专利）。这台设备被一些人认为是 VR 设备的鼻祖。

VR眼镜的发展史（下）
到了90年代，随着市场的热捧，VR眼镜迎来了第一次热潮，2012 VR热潮重启，2016年，VR新元年正式开始。

无人驾驶出租车遭警察拦截后欲“潜逃”，AI 是原罪？
近日，国外社交媒体 Instagram 上流传着一个视频，在视频中，有交警发现了一辆汽车在傍晚时前灯并未亮起，随后便下车查看，发现汽车驾驶位并没有人，就在交警转身走向警车时，这辆汽车试图“逃”走。

Apple FairPlay DRM及其工作原理
在本篇文章中，我们将了解Apple推出的FairPlay DRM解决方案（主要用于在iOS、tvOS和macOS设备上安全分发内容）。让我们一起来看下FairPlay DRM的重要构成、基本工作流和一些有趣的功能。

2022年度智能网联汽车十大技术趋势
本文总结了智能汽车未来技术发展的十大趋势，一起看看吧。

CVPR 2022｜快手&中科院开源StyTr^2：基于Transformer的图像风格化方法
本文提出了一种基于 Transformer 的图像风格迁移方法，我们希望该方法能推进图像风格化的前沿研究以及 Transformer 在视觉尤其是图像生成领域的应用。

细数那些令人惊艳的AR节目
AR是一把开启未来的钥匙，率先打开的也许会是创意节目的大门。目前许多节目都在通过融入AR技术，来营造一种耳目一新的视觉体验。今天我们就一起来看看那些令人惊艳的AR节目。

内嵌6块摄像头，Meta XR头显Project Cambria高清细节图曝光
YouTuber SadlyItsBradley 声称看到了Meta的下一代混合现实头显Project Cambria 的生产模型的实际照片。虽然他们没有分享源照片，但他们与3D建模师合作，对照片显示的内容进行了详细的渲染。

直方图都看不懂，怎么可能拍出好照片！
今天给大家介绍一下直方图，无论是相机的直方图还是后期软件中的直方图都是大同小异的，所以不用去分什么相机中的直方图还是后期软件中的直方图。

全部评论

作者介绍

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

音视频技术开发周刊 | 241

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案