音视频技术开发周刊 | 251

视频技术
为什么OpenCV计算的帧率是错误的?
我们在对线上的直播流数据进行某些检测时,忽然有一天,我们发现平台开始大面积的超时,让我们来看看这到底是怎么回事?


RealNetworks vs. 微软:早期流媒体行业之争
2015年是流媒体行业出现的第20年,对于很多不熟悉互联网早期的人来说,他们不太可能了解流媒体行业的形成历史。对于那些想了解这段历史、重温过去的朋友,不妨从阅读这篇文章开始。


音视频开发之旅(14) OpenGL ES 实时滤镜
Camera采集数据后不直接显示到屏幕上,而是先对这个图像做滤镜处理,即先渲染在一个外部纹理上,处理完之后在显示在屏幕上。OpenGL纹理绘制的基本流程分8步。


基于FPGA的视频图像拼接融合
本项目简单来说,就是实时生成视频全景图,该架构经过优化,可以实时视频输出。


跨平台播放器开发 (一) QT for MAC OS & FFmpeg 环境搭建
如果想写一个跨平台的播放器,就需要了解一些跨平台的开源框架,因为音视频底层基本上是基于 C/C++ 开发的,该篇主要介绍如何在 MAC 平台下搭建 QT 和 FFmpeg 开发环境。


将实时互动中未知的视频画质用户主观体验变可知
在实时互动场景中,视频画质是影响观众体验的关键指标,但如何实时评价视频的画质一直是个行业难题,需要将未知的视频画质用户主观体验变成可知。


西瓜视频 iOS 播放器技术重构
针对现存播放器问题,重新设计了播放架构,以解决播放器上手成本高、不能方便插拔业务、复杂业务性能差的问题。重新设计业务层框架,降低业务耦合,真正实现业务可插拔的同时提升业务播放器整体性能。

 
网络传输
(超)低延迟视频流传输的未来
在本文中,我们总结了四种主要的低延迟协议,探讨它们的优点和缺点,并给出了我们对于这些协议未来发展的评论。


快速落地智能摄像机解决方案(云存储+WebRTC)
Amazon Kinesis Video Streams/WebRTC 为用户提供符合WebRTC 标准的完全托管服务。用户无需构建、运营或扩展任何与 WebRTC 相关的云基础设施就能安全地进行媒体的实时流式传输或在任何摄像头 IoT 设备与符合 WebRTC 的移动或 Web 播放器之间实现双向音频或视频交互。


WebRTC 学习记录 (一) 云服务器搭建 AppRTC 环境
最近折腾了几天 apprtc 服务器搭建,搭建的主要目的是为了学习 Android 、Web 等各端基于 webrtc 音视频通信。经过这几天的搭建,作者得出了几点结论。


浅析 YUV 颜色空间
YUV是一种亮度信号Y和色度信号U、V是分离的色彩空间,它主要用于优化彩色视频信号的传输,使其向后相容老式黑白电视。

 
人工智能
全球元宇宙标准论坛宣布成立
6月21日,元宇宙标准论坛发布了创始会员,包括Adobe、阿里巴巴达摩院,EPIC,华为,宜家,Meta,微软,Nvidia,高通,索尼互动娱乐,Unite,W3C等企业和标准组织。不过,苹果并未加入元宇宙标准论坛。


AI 换脸术「Deepfakes」8年进化史
AI 伪造图像与视频,,即 Deepfake,在近年迎来一波发展高潮。在本文中,我们将深入探究这段历史,并回顾期间的一个个重要里程碑。


AI自己写代码让智能体进化!OpenAI的大模型有“人类思想”那味了
AI“看”了一眼GitHub上人类都是怎么提交更新(commit)的,然后就模仿人类程序员修改代码……最终,这个AI还成功“调教”出了个智能体机器人,没开玩笑,这种细思极恐的事情,在OpenAI最新发布的一项研究中,就真真的发生了……


CV的未来是图神经网络?中科院软件所发布全新CV模型ViG,性能超越ViT
最近,中科院软件所等四个机构的研究团队将CV与图神经网络结合起来,提出全新模型ViG,在等量参数情况下,性能超越ViT,可解释性也有所提升。


很详细的图神经网络从入门到入门
本文从一个更直观的角度对当前经典流行的GNN网络,包括GCN、GraphSAGE、GAT、GAE以及graph pooling策略DiffPool等等做一个简单的小结。


OpenAI秘籍披露:一篇文章教会你训练大型神经网络
想知道那些超大规模神经网络都是怎么训出来的?OpenAI一篇文章总结:除了显卡要多,算法也很重要!


深度学习常用损失函数总览:基本形式、原理、特点
本文将介绍机器学习、深度学习中分类与回归常用的几种损失函数,以及各种损失函数的基本形式、原理、特点等。


机器学习基石|从最大似然估计到贝叶斯推理
在本文中,我们从最大似然估计到贝叶斯推理详细地讨论了机器学习的概率论基石,并希望能为读者的预习与复习提供优秀的参考资源。

 
音频技术
视频会议一体机的技术实践和发展趋势
在混合办公的常态趋势下,远程沟通协作的效率至关重要。然而,远程会议目前依然存在不少影响沟通的问题,比如缺乏会议室拾音和放音设备、软硬件设备不兼容、因远场拾音导致听不清等,这些问题都会消磨与会者的耐心,影响会议效果,让团队逐渐失去讨论的激情。


FFmpeg + OpenSL ES 播放 PCM 音频
OpenSL ES是一个无授权费、跨平台、针对嵌入式系统精心优化的硬件音频加速API库。它为嵌入移动多媒体设备上的本地应用程序开发者提供了标准化、高性能、低相应时间的音频开发方案,并实现软/硬件音频性能的直接跨平台部署


论文推介:基于对话特征建模的对话语音识别
本文提出了一个对话语音识别的模型,该模型使用条件变分自编码(CVAE)和一个主题模型来辅助对话语音特征的提取和利用,本文在两个普通话对话数据集上进行了实验。


亚马逊Alexa将增加一项新技能,模仿任何人的声音
近日,亚马逊准备让Alexa语音助手模拟任何人的声音。它正在开发一套系统,引入新系统后,Alexa只要不到一分钟时间听听录音就能模拟里面的人声。

 
编解码
AOM AV1 v3.4发布
谷歌工程师周五发布了 AOM AV1 v3.4 作为这款基于 AV1 CPU 的开源视频编码器的最新版本。AOM-AV1 v3.4 提供了更多性能改进,以加速视频编码性能以及内存优化。还有压缩效率增强、感知质量改进和其他变化。


8K超高清AVS3编码压缩平台的设计与实现
8K超高清AVS3编码压缩平台是中央广播电视总台8K超高清频道进网入户和在“百城千屏”公共大屏落地播出的重要支撑系统之一。本文主要介绍了该平台的设计与实现,并基于该平台的建设情况进行了关键技术应用和创新的总结与探讨。


Android AVDemo(9):视频封装,采集编码 H.264/H.265 并封装 MP4丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第九篇:Android 视频封装 Demo。


视频编码标准扩展
本文将介绍视频编码标准的扩展。在一个视频编码标准的制定过程中,往往会进行成立工作组、开发软件、征集提案、举行会议、开发标准文档、开发未来扩展等工作内容。


动态分辨率编码
本文提出的方法基于机器学习机制,该机制学习如何在监督学习环境中选择要编码的最佳分辨率。在运行时,使用已经存在的预处理阶段,实时编码器可以决定编码的最佳分辨率,而不会增加任何处理复杂性或延迟。


基于 MPEG-5 LCEVC 进行 HDR 视频编码
本次分享主讲人是来自 V-Nova 的 Lorenzo Ciccarelli,他向我们分享了有关基于 MPEG-5 LCEVC 进行 HDR 视频编码的内容,并展示了实验结果。

 
开源
FFmpeg命令分析-print
本系列主要分析各种 FFmpeg 命令 在代码里是如何实现的。以 FFmpeg4.2 源码为准。


京东AI新开源的计算机视觉模块!(附源代码)
京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积,来形成CoTNet,在分类检测分割等任务效果都出类拔萃!


首个大众可用PyTorch版AlphaFold2复现,哥大开源OpenFold
AlphaFold2 是 2021 年 AI for Science 领域最耀眼的一颗星。现在,有人在 PyTorch 中复现了它,并已在 GitHub 上开源。这一复现在性能上媲美原版 AlphaFold2,且在算力、存储方面的要求对于大众来说更加友好。

 
图像
Intel Arc A380 桌面显卡发布,中国首发
Arc A380 拥有 8 个硬件光追单元并且支持 DirectX 12 Ultimate 全部功能,根据 Intel 官方的测试,在多款主流游戏中,Arc A380 可以在 1080p 分辨率下提供 60FPS 以上的流畅体验。


相机标定的意义
在图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系,必须建立相机成像的几何模型,这些几何模型参数就是相机参数。在大多数条件下这些参数必须通过实验与计算才能得到,这个求解参数的过程就称之为相机标定。


图像信号处理芯片设计原理——12 RAW域和YUV域上的去噪
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文在RAW域和YUV域上的去噪操作。


一个小改动,CNN输入固定尺寸图像改为任意尺寸图像
本文小白将和大家一起学习如何在不使用计算量很大的滑动窗口的情况下对任意尺寸的图像进行图像分类。通过修改,将ResNet-18CNN框架需要224×224尺寸的图像输入改为任意尺寸的图像输入。

 
智能汽车与自动驾驶
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
本文提出了一套基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案,即BEVFormer。本文旨在介绍我们在设计BEVFormer过程中考虑的思路、比较的多种方法、以及下一步可能的研究方向。


清华大学联手中科院顶会发文:全面分析四大自动驾驶策略
当前自动驾驶的策略研究还停留在具体场景执行具体策略,最近清华大学的研究人员在交通领域的顶会发表了一篇全面的综述,从更高级的角度分析自动驾驶策略。


高级自动驾驶域控制器的功能安全设计详细分析
高级自动驾驶中央域控制器的设计过程需要充分掌握其中的安全设计原则,因为前期设计中,无论是架构、软件、硬件还是通信都是需要充分掌握其设计规则才能充分发挥出相应的优势,同时规避掉一定的设计问题的。


万字长文解析自动驾驶高精度定位
自动驾驶定位模块是自动驾驶系统必不可少的模块之一,但对其精度的要求一直没有一个严格的标准。自动驾驶汽车需要精确的位置和方向信息用于感知、路径规划、控制和通常的安全操作,并且这些信息的获取应不受天气因素和交通条件的影响。


自动驾驶的一二三四五六
自动驾驶的发展给智能交通的实现提供了更多的可能,随着低速自动驾驶的逐渐普及与各地区高速自动驾驶试验区域的开设,我们生活的方方面面都开始有自动驾驶身影的存在。今天就带大家来聊聊自动驾驶中的一、二、三、四、五、六。

 
AR/VR
扎克伯格上手演示四款VR头显原型机,Meta透露元宇宙「家底」
21日,Meta CEO 扎克伯格和 AR/VR 部门 Reality Labs 首席科学家 Michael Abrash 在虚拟圆桌会议上展示了他们最新的 VR 头显原型机,共有四款设备,代号分别为 Butterscotch、Starburst、Holocake 2 和 Half Dome。


部分地区百年后或被淹没?AR技术助科学家探索新加坡未来版图
据地理学家预测,100年以后,气候变化以及由此导致的海平面上升,可能会让新加坡部分城市地区被淹没,一切回到填海造地之前。由此,一项新的徒步之旅计划利用AR技术,把新加坡过去和现在的图像虚实融合,让公众在观看过程中想象未来会是什么样子。


现在,耳朵也要进入元宇宙了
提到AR/VR设备你会想到什么?赛博朋克风的画面,还是虚拟与现实叠加带来的科幻感?当大家的目光仍聚焦于视觉交互层面时,业内一场有关听觉层面的变革已经悄然兴起。

 
推荐阅读
C++多态到底是什么?
书上讲在面向对象语言中,对于接口的不同实现方式称之为多态。多态性时允许将父类对象设置成为一个或者多个他的子类对象相等的技术一般用指针实现,赋值之后,父类对象可以根据当前赋值给他的子类对象的特性以不同方式进行调用。


C++、Rust 不堪重负,搞编程语言设计不要太复杂!
最近,我和同事们决定将C代码库移植到Rust。总的来说,我对Rust的核心特性很满意,而且我觉得较之C与C++,Rust在很多方面都有很大的改进。然而,在我看来,Rust的主要缺点之一就是过于复杂。


当被大模型输入技术内功,数字人「文画两开花」,还在手机里随时陪你聊天
从时尚娱乐到文化商业,数字人迎来了全面开花。国内大厂也纷纷抓住数字人这个发展机遇,推出花样百出的娱乐和实用性数字人产品,致力于让数字人更智能化更服务化。


一个自动驾驶从业者的历程和感触
作者93年生人,自动驾驶行业7年从业经历,目前在上海一家自动驾驶公司担任产品经理,作者以自己的从业经历,与大家分享一下汽车行业的变化。


中国深度学习软件框架市场研究报告
弗若斯特沙利文(Frost & Sullivan,以下简称“沙利文”)发布了最新的《中国深度学习软件框架市场研究报告(2021)》,对2021年中国深度学习软件框架市场进行了深度的调研与分析。


韩智库:全球半导体供应链将于2025年前后开始重构
2022年5月,韩国知名智库韩国产业研究院发布题为《全球半导体供应链重构动向及政策影响》报告。报告的主要观点是:未来在美国、欧洲及日本的半导体产量可能将大幅增加,导致全球半导体供应链更加多样化,而全球半导体供应链或将于2025年前后开始大幅重构。

 
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周