音视频技术开发周刊 | 262

LiveVideoStackCon上海2022演讲分享
声网3D在线互动场景空间音频的实时渲染——如何把“声临其境”推向极致
千人有千耳,不同的人耳对于声音方位的适应已形成习惯,但在Meta RTC场景中如何让不同人也能畅想“身临其境”的感觉?3D在线互动场景空间音频的实时渲染又有哪些应用?


AI时代的视频云转码移动端化——更快、更好,更低,更广
即构科技的李凯老师,为我们分享产品架构、移动端视频转码、移动端智能视频处理、四位一体网络模型设计以及具体实施Demo。


对等网络实时音视频通信技术框架及应用实践
本次分享将回顾视频大时代的发展脉络,介绍P2P网络架构的协议扩展,并结合RTC理论,探索在IoT视频监控领域上的应用落地实践。

 
视频技术
聊聊 OpenGL 的抗锯齿
“锯齿”现象的本质原因是场景的定义在三维空间中是连续的,而最终显示的像素则却是一个离散的二维数组。所以在判断一个点到底没有被某个像素覆盖的时候不应该单纯是一个“有”或者“没有"问题,也因此,抗锯齿一定是采用优化手段而无法根治。


唇动则声至,所见即所闻——周杰伦快手直播背后的声画同步保障技术
在顶级流量的背后,直播活动的保障工作也相对复杂。周杰伦7月18日直播活动的地点在澳洲悉尼,当地设备及网络都与国内不同,因此带来了很多未知的技术风险,尤其可能发生因设备原因导致的声画不同步问题。


OpenCV4.X CUDA编译与加速全解析
本文分为两个部分来说明如何在OpenCV中实现CUDA加速,第一部分是实现CUDA支持版本OpenCV编译,第二部分是OpenCV CUDA SDK编程代码演示。


音视频开发之旅(27) 算法序列 - 二叉查找树
是否有同时保证查找、插入、删除操作效率都比较高的算法和数据结构呐?要满足插入的高效性,首先能想到的是链表,但是链表无法使用 查找时高效的二分查找法。而二叉查找树将二分查找的效率和链表的灵活性结合起来,也是这篇我们学习实践的重点。


数字人技术在直播场景下的应用
本文详细的阐述了基于数字人云渲染技术方案在直播业务架构中的应用,以及与众多AI能力的相结合,将数字人直播间更加拟人化、生动、吸引眼球是我们规划的方向,尽可能应用到更大更多的场景里面。


通过Patch-Base来优化"视频超分辨"中的时间冗余
本文通过优化的方式处理时间冗余补丁来改进现有的VSR算法,开发了两种简单有效的即插即用方法,改善了现有的滑窗和循环的VSR算法。

 
音频技术
音视频开发进阶课程|第二讲:回声消除
本次课程为系列内容,课程将从音视频基础概念讲解展开,进行学习内容的难度进阶,后期将带领大家学习有关音视频开发的各种疑难问题,以及如何利用 SDK 开发音视频应用!


响度感知
响度是一个主观量,所以无法直接测量。我们通常所说的闹市街道上的噪音是85dB(A), 两个人面对面说话是70dB, 难道不是表征的响度?通常来说,这些所谓的dB值越高,响度越大,但也不全是。


听说你们都对昨天辆杜比全景声转播车感兴趣?
这是一辆属于波兰120DB SOUND ENGINEERING公司的音频车,120DB这家公司提供的业务包括但不限于现场扩声、电视广播|流媒体直播、多轨录音、后期制作等。


关于上礼拜那辆杜比全景声转播车的更多图片
大家对于120DB公司这辆叫做Atmos的杜比全景声转播车的关注很高,本期会放出更多图片便于大家一窥车内真容。


声学的未来三十年
这里结合最近几年的思考,谈谈未来三十年里,声学方向的主要机会。着重介绍我熟悉的电声学、通信声学、心理声学和机器听觉。


Interspeech 2022 | 频-时调制谱窄带滤波用于实时单通道语音去噪和去混响
本文由 阿里巴巴钉钉蜂鸣鸟音频实验室与西湖大学音频信号与信息处理实验室 合作,提出了一种基于频-时调制谱的改进型窄带滤波网络,在保留之前提出的窄带滤波网络对于语音去噪优势的前提下,进一步提升实时的单通道去噪和去混响联合语音增强效果。

 
传输网络
HTTP/3核心概念之QUIC
你也许很好奇:为什么QUIC如此重要?谁在乎这些特性是在HTTP/3还是QUIC中?让我们一起来更深入地了解QUIC,因为我读到的关于HTTP/3的大部分误解都来自它。


基于 RTC 的全景 8K@120fps FoV 实践
在 VR 场景中,像云游戏、大型展会、赛事等内容的视频,「高分辨率」和「高帧率」缺一不可。然而我们发现,不管是 GPU 还是 VR 一体机的芯片,其编解码能力都无法兼顾到「8K」和「120 fps」性能体验。


SRS 5.0支持WebRTC over TCP
在很多网络条件下,WebRTC不适合使用UDP传输,因此支持TCP传输是极其重要的能力;而且SRS支持的是直接TCP传输的方式,避免使用TURN中转带来的额外网络层问题;这对于LoadBalancer也是非常友好的,一般支持TCP会更友好。


WebRTC 源码分析 (一) Android 相机采集
在  WebRTC Android 中,已经兼容了 Camera 和 Camera2 原生 API 的相机采集,所以我们不必再单独实现一套采集功能。该篇文章,主要为大家解析 WebRTC 的相机采集从  java 到 Jni 的一个调用过程。


TCP Reno/Westwood 的效率和公平
效率和公平总是不能两全其美的,高效必然不公平,公平必然不高效,也是众所周知。比较有趣的是,这个事实可在经典的收敛图上直观展示。


Meta工程师关于QUIC和TCP的讨论
在最近举行的以传输创新为主题的Networking @Scale 2022虚拟会议上,Meta 的工程师讨论了我们的网络在效率、可靠性和大规模部署方面面临的挑战。 

 
编解码
Chrome已实现对H.265/HEVC的硬解支持
当使用H.265标准的视频时,浏览器对于H.265的支持不友好一直是用户及厂商们的应用之痛。正在大家对H.265/HEVC硬解发愁时,Chrome 104及以上版本实现了对H.265/HEVC的硬解支持,这无疑是件值得所有人欢呼的事情。


HEVC 的 lambda 域码率控制优化
文中码控主要考虑的是帧间情况,因此测试都在 LD 和 RA 下完成。实验表明,文中方法码控精度和 [1] 中几乎持平,提升主要在于 RD 性能。该方法已被 JCT-VC 接收,并融入到参考软件 HM 中。


音视频编解码--Codec2服务启动
学习Codec2框架之前,首先来看一下相关目录结构,Codec2作为Android新一代多媒体框架,目的就是要取代OMX框架,所以其目录也是在framework/av/media/ 目录下,目前Android12源码中有1.0, 1.1, 1.2三个版本了。


AOM发布AV1解码器验证工具,验证码流和产生验证码流的工具的源代码
Argon Streams AV1 是一个全面的验证工具,可广泛覆盖和验证实现 AV1 的视频解码器。它由两部分组成:一组测试流,以及创建一组新流所需的所有源代码。


纠删码在实时视频流中的应用丨Dev for Dev 专栏
通常来说,音频的原始码率相对视频来说比较小,因此音频编码器的压缩率比视频编码器要小很多。音频帧通常都是独立编码和解码的,因此任何一帧数据的丢失,都不会影响其他帧的解码。


视频编码中的自适应重建值技术
本文介绍视频编码的Adaptive Reconstruction Levels(ARL)技术。视频编码标准规定了从码流得到重建视频的解析解码过程。重建像素由预测像素和预测残差构成,并进行后续的环路滤波。

 
课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

  1. 紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合
  2. 熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础
  3. 课程包含图文、代码、视频,降低学习门槛
  4. 李超精准讲解,及时详细解答

点此「立即订阅」
 

开源
基于整合IMU运动动力学的无监督单目深度估计
虽然近年来无监督单目深度学习取得了很大的进展,但仍然存在一些基本问题。本文提出了一种感知框架,通过集成视觉和IMU来进行真实尺度估计,算法已经开源。


盘点大厂的那些开源项目 - 滴滴出行
滴滴出行是涵盖出租车、 专车、滴滴快车、 顺风车、代驾及大巴、货运等多项业务在内的一站式出行平台,本次对滴滴出行的开源项目做一下盘点。


FFmpeg时间戳
FFmpeg内部有多种时间戳,基于不同的时间基准。理解这些时间概念,有助于通过FFmpeg进行音视频开发。在我看来,FFmpeg有两个时间基准:AV_TIME_BASE和AVStream->time_base。


FFmpeg原理:FifoBuffer函数库详解
FFmpeg 项目里面有一个 fifo 的实现 ,fifo 的全称是 first in first out (先进先出),而且这是一个环形的buffer内存管理器,代码实现在 libavutil/fifo.h ,libavutil/fifo.c 里面。

 
图形图像
LaMa: 基于傅立叶卷积的图像修复算法
如何修复大的缺失区域、复杂的几何结构和高分辨率图像是图像修复领域的一个难点。本文提出了一种称为大掩码修复 (LaMa) 的新方法,基于快速傅里叶卷积 (FFC) 的修复网络架构具有图像范围的感受野。


万字长文!UCLA蒋陈凡夫12年自我回顾,图形学的终极浪漫
UCLA应用数学副教授蒋陈凡夫写下万字长文,回顾了从转系生到终身教授十二年的自我历程。


图像去噪的原理及实现
图像在摄取或传输时所受的随机信号干扰,表现为图像信息或者像素亮度的随机变化。一张图像通常会包含很多噪声,很多时候将图像噪声看成是多维随机过程。


经典干货|相机模型与张氏标定
视觉测量使用的日益广泛和频繁,对于基础知识的学习是掌握机器视觉的学习的关键;本文针对成像模型,坐标系转换和相机标定等知识进行简介。


巧解图像处理经典难题之图像配准
图像配准与相关是图像处理研究领域中的一个典型问题和技术难点,其目的在于比较或融合针对同一对象在不同条件下获取的图像,例如图像会来自不同的采集设备,取自不同的时间,不同的拍摄视角等等,有时也需要用到针对不同对象的图像配准问题。


基于相机空间位置的图像拼接
所谓基于相机空间位置的图像拼接方法,就是将相机按照指定的方式安装,然后根据图像中每个像素的空间坐标进行拼接。该方法是应用在深度图像中,结合 RGB 图像与深度图像的对齐操作,也可以用于 RGB 图像的拼接。

 
计算机视觉
CVPR 2022 | 美团技术团队精选论文解读
CVPR与ICCV和ECCV并称计算机视觉方向的三大顶级会议,根据谷歌学术公布的2021年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature、NEJM和Science。CVPR今年共收到全球8100多篇论文投稿,最终2067篇被接收,接收率约为25%。


「深度学习3D点云处理」最新2022进展综述
回顾近年来3维点云处理任务的主要研究问题,围绕深度学习在3维点云形状分析、结构提取、检测和修复等方向的应用,总结整理了典型算法。


全面回顾 | 基于深度学习的光流估计算法汇总
光流估计是计算机视觉研究中的一个重要方向,其不像其他感知任务会显式的在应用中呈现。如今,光流估计也在基于视频的任务中承担着越来越重要的作用。


基于opencv实战眼睛控制鼠标
如何用眼睛来控制鼠标?一种基于单一前向视角的机器学习眼睛姿态估计方法。在此项目中,每次单击鼠标时,我们都会编写代码来裁剪你们的眼睛图像。使用这些数据,我们可以反向训练模型,从你们您的眼睛预测鼠标的位置。


CVPR2022:使用完全交叉Transformer的小样本目标检测
小样本目标检测 (FSOD) 旨在使用很少的训练示例检测新目标,最近在社区中引起了极大的研究兴趣。已经证明基于度量学习的方法使用基于双分支的孪生网络对这项任务有效,并计算图像区域和少样本示例之间的相似性以进行检测。


华为天才少年:万字长文,关于视觉识别领域发展的个人观点!
计算机视觉识别领域的发展如何?华为天才少年谢凌曦分享了万字长文,阐述了个人对其的看法。

 
人工智能
简单易懂的讲解深度学习(入门系列之六)
在上一讲中,由于感知机不能解决“异或”问题,明斯基并无恶意却把AI冷藏了二十载。但是解决“异或”问题,其实就是能否解决非线性可分问题。如何来解决这个问题呢?


3D点云点云分割、目标检测、分类
最近,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。为了激发未来的研究,本文对点云深度学习方法的最新进展进行了综述。


图解最常用的10大机器学习算法!
对于渴望了解机器学习基础知识的机器学习新人来说,这儿有份数据科学家使用的十大机器学习算法,为你介绍这十大算法的特性,便于大家更好地理解和应用,快来看看吧。


从贝叶斯定理到概率分布:详解概率论基本定义
本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。


吴恩达来信!关于人工智能领域求职的问题
最近的几封来信致力于帮助大家在人工智能领域建立职业生涯。今天的这篇文章中,我想着重讨论一些求职要点。


Transformers+世界模型,竟能拯救深度强化学习?
前一段时间,LeCun曾预言AGI:大模型和强化学习都没出路,世界模型才是新路。但最近,康奈尔大学有研究人员,正试着用Transformers将强化学习与世界模型连接起来。

 
智能汽车与自动驾驶
自动驾驶的社会交互:一个综述和思考(三)
本文回顾了建模和学习人类驾驶员之间社会交互的各种方法,从优化理论和图模型(graphical models)到社会力理论和行为认知科学。还强调了一些新的方向、关键挑战以及未来研究的开放性问题。


综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍
本文致力于为研究人员和实践者提供汽车鱼眼相机感知的一些总结,首先对常用的鱼眼相机模型进行了统一的分类处理,其次,我们讨论了各种感知任务和现有文献,最后,我们讨论了挑战和未来方向。


自动驾驶系统最全的系统时间同步方案设计
为了提高自动驾驶的传感器融合、决策规划和融合定位等性能,自动驾驶高级域控制器HPC与其关联的传感器均需要做时间同步,实际过程就是需要定义清楚传感器输入数据的时间戳信息,同时也需要定义整体时间同步方案和同步精度要求。


一文聊聊自动驾驶三大核心要素
自动驾驶汽车往往配备了多种传感器,包括摄像头、毫米波雷达、激光雷达。这些传感器各有不同的功能与定位,优势互补;作为一个整体,成为了自动驾驶汽车的眼睛。


一文读懂基于Transformer的车辆多模态轨迹预测方法
本文以基于Transformer的多模态车辆轨迹预测为主线,回顾近年来代表性的基于Transformer的多模态轨迹预测的算法,最后对基于Transformer的多模态轨迹预测做出总结与展望。


自动驾驶物体场景流
本文提出了一种新的三维场景流估计模型和数据集,并应用于自动驾驶。利用户外场景经常分解成少量独立运动的物体这一事实,我们用场景中的每个元素的刚体运动参数表示,每个超像素用一个3D平面以及对应物体的索引表示。


史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)
3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。

 
AR/VR与元宇宙
伊拉克借助VR技术还原被战争摧毁的历史遗迹
利用VR虚拟现实技术对历史遗址进行数字化保存,一直是新兴数字技术在文化遗产领域的一项重要应用。近日,伊拉克一家博物馆正在使用计算机技术和VR虚拟现实头显设备让时光倒流,让游客参观和探索被恐怖分子摧毁的遗迹。


首台元宇宙3D打印机,发力颠覆建筑界!
将元宇宙场景与多年自主研发的大尺度3D打印技术相融合,推出元宇宙时代虚实共生的智造平台「MetaPrinter」元宇宙3D打印机,并于2022世界机器人大会首日召开产品发布会。


Safari XR浏览器在即?Web XR核心研发人员加入苹果
Apple 对沉浸式 Web 很感兴趣:一位关键的 WebXR 开发人员正在加入该公司,并且可以让 Safari XR 做好准备。借助 WebXR,AR 和 VR 应用程序可以直接在浏览器中运行。

 
推荐阅读
一个不会画画的人,用 AI 生成的画作拿下了大赛第一,还不违规......
继 2016 年 AlphaGo 成为一众职业围棋选手们的共同“噩梦”后,最近 AI 绘画工具又令许多国外数字艺术家们集体“破防”了。近期科罗拉多州博览会举办的美术比赛上就出现了这“离奇”的一幕:一位桌面游戏公司的总裁,用 AI 生成的画作获得了第一名,也由此引来了一场来自数字艺术圈的“骂战”。


不可思议!DALL·E实现虚拟视频换装,网友:买衣服的钱省了
DALL·E 2 添加了一个图像编辑功能,可以修改图像的部分区域,现在,twitter 用户 Karen X. Cheng 把 DALL·E 2 的这个编辑功能用在了视频换装上,可以实现在换装过程中丝滑切换,无缝衔接。


李彦宏谈自动驾驶(演讲全文)
9月1日,2022世界人工智能大会(WAIC)在上海召开,今年大会主题为“智联世界 元生无界”。百度创始人、董事长兼首席执行官李彦宏受邀出席并发表题为《人工智能与实体经济“双向奔赴”》的主旨演讲。谈到自动驾驶,李彦宏强调,“L2之后率先进入商用的很可能是L4,而不是L3”。


AI已过万重山
2022年,无疑是自动驾驶的转折点。一方面,过去自动驾驶的规划都在一个个成真。另一方面,是热闹异常的资本市场。自动驾驶落地,备受资本青睐的背后,是 AI的加速成熟与转化。


 
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周