音视频技术开发周刊 | 271

LiveVideoStack 2022年11月13日
视频技术
音视频基础-yuv格式介绍!
YUV,是一种颜色编码方法。常使用在各个影像处理元件中。YUV在对照片或影片编码时,考虑到人类的感知能力,允许降低色度的带宽。


音视频生产关键指标:视频编辑优化丨音视频工业实战
在视频编辑场景中,涉及到的模块很多,比如:抽帧模块、预览播放模块、视频编辑模块、特效合成模块、视频转码模块等等。这些模块各自都有对应的性能指标,这些指标影响着编辑场景的用户体验。这里我们先介绍一下抽帧模块和预览播放模块相关的优化。


面试中经常被问到的 OpenGL ES 对象,你知道的有哪些?(校正)
OpenGL ES 2.0 编程中,用于绘制的顶点数组数据首先保存在 CPU 内存,在调用 glDrawArrays 或者 glDrawElements 等进行绘制时,需要将顶点数组数据从 CPU 内存拷贝到显存。


音视频开发进阶|第六讲:色彩和色彩空间·下篇
在前两篇推文中,我们了解了色彩空间、像素、图像和视频之间的组成关系,并且比较详细的学习了色彩空间 RGB、YUV 的采样&存储格式。今天,我们基于这些内容,再补充一些重要的关联知识。


ECCV 2022|视频会议内容质量评价方法
本文构建并使用了远程呈现内容的视听质量主观数据库,通过学习方法有效地建模多模型特征,并以在线提供各种类型的质量反馈。下面主要介绍TVQA的模型方法。


BANG:B站视频图像分析与处理引擎
B站视频图像分析与处理引擎——BANG,向下包罗各种视频图像分析与处理算法,向上提供即插即用的调用接口,为直播和点播转码等业务提供服务,本文对 BANG 进行详细的介绍。

 
音频技术
基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说
火山语音团队在基于无监督预训练的语音识别技术落地过程中,针对行业痛点进行了算法改进和工程优化,形成一套完整易推广的落地方案。本文将针对方案,从落地流程、算法优化以及工程优化等环节展开详尽介绍。


新一代 Kaldi 基于 WebSocket 的语音识别服务实战
本文介绍最近在 sherpa中新增的使用 C++ 实现基于 WebSocket 的语音识别服务。只涉及设计思想、使用方法和测试结果。


ANC耳机系列之残差塑形与舒适降噪
众所周知,人耳对不同频段的噪声敏感度不同(参见听阈曲线),而降噪算法残留的误差会显著影响听感,进而影响降噪舒适度。残差塑/整形(Noise Shaping)技术可控制残差功率谱的形状,有被应用于降噪舒适性领域的潜在可能性。


可持续发展车载音频解决方案
随着汽车行业转向严格的新环境标准,一家公司开发了可持续的车载音频解决方案,以加速车辆实现碳中和。全球最大的汽车行业独立工程服务提供商EDAG发布的研究表明,汽车原始设备制造商采用“清洁”音频技术具有大幅减少电动汽车二氧化碳排放的现实潜力。


相机“拉风箱”噪声消除
笔者最近在学习摄影,偶然得知相机有自动对焦噪声,中文将其形象地比喻为“拉风箱”噪声,英文则称为Autofocus noise。此噪声在视频背景声中显得十分突兀,常为拍摄者所不喜。我认为可以用声学信号处理领域的技术加以消除,由此引出本文。

 
传输网络
OWT基于TCP以及QUIC的级联方案
随着音视频领域业务的蓬勃发展,越来越多的业务场景需要大规模甚至超大规模部署支撑。不同的用户分布在不同的区域,甚至出现跨国或跨省传输,在这种情况下OWT如何高效分发媒体数据,实现集群内以及跨集群的高质量扩散?


VLC 21年,重新审视低延迟直播
LiveVideoStackCon2022上海站大会我们邀请到了腾讯云 客户端开发工程师 赵志立,为我们分享他们是如何让VLC走进低延迟的大门的以及VLC的未来是怎样的。


详解车载网络入侵检测技术
网络安全问题正在成为车载网络系统的主要关注点。入侵检测技术是应对这一情况的有效解决方案,该技术可以识别非法入侵行为,对车主或整车 制造厂进行快速预警,车主或整车制造厂根据预警 信息进行应急响应,将安全风险降到最低。


低时延 RNN-T 训练
本文介绍了新一代 Kaldi 中提出的低时延 RNN-T 训练的方法,粗略介绍了时延产生的原因,阐明了我们做时延正则的方案。

 
编解码
音视频开发之旅(37) -FFmpeg + OpenGLES 边解码边播放视频(一)
这一小节,我们通过Android 提供的GLSurfaceview来进行视频的渲染。因为GLsurfaceView已经有了EGL渲染线程,本篇我们先通过使用熟悉渲染流程。


NeRV:视频的隐式表达
NeRV 的视频编码只需将神经网络与视频帧进行拟合,解码过程是简单的前馈运算。有了这种隐式表达,可以将视频视为神经网络,并简化一些与视频相关的任务。


IBC 2022 | 虚实相融的超低码率视频会议系统
本文是由上海交通大学宋利教授带领的 MediaLab 实验室最新发表在 IBC 2022 的工作,该工作提出了一种具有灵活虚拟访问模式的超低比特率视频会议系统,实验证明了所提出系统的良好率失真性能和实时性。


APSIPA TSIP 2022 | 视频编码的未来
文章讨论了“视频编码的未来”这一话题,包括但不限于未来 5 年内的新兴领域、深度学习编码的趋势和作用、视觉质量评价的影响、学术界扮演的角色、对学生的建议等。

 
开源技术
read_camera_thread()读取摄像头数据线程源码解析!
今天介绍一个开源项目:音视频人脸、目标识别,音视频推流!目前整个项目的人脸识别这块代码已经完成了。


最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
字节跳动推出的全新版本的 LightSeq GPU 量化训练与推理引擎。支持 Transformer 系列模型的量化训练与推理,并做到了开箱即用,用户友好。LightSeq 快准狠地实现了 int8 精度的量化训练和推理。


阿里达摩院一口气开源了 300+AI 模型,还推出了 AI 模型社区“魔搭”,直击 AI 应用难题
阿里达摩院联手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭”ModelScope,旨在降低 AI 的应用门槛。达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型,超过 1/3 为中文模型,全面开源开放,并且把模型变为直接可用的服务。


1秒出图,全球最快的开源Stable Diffusion出炉
起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?


AI 模型编译器 MegCC 开源,让推理引擎体积变小
由 MegEngine 团队开源的 MegCC 创新性地使用模型预编译方案,生成模型推理必要的代码,将与模型推理无关的代码去除,从而极大程度减小了推理引擎的体积。

 
图形图像
褪色图像的着色
在本文中,我们将使用 Python 制作一个ML(机器学习)模型,该模型将能够为旧的、褪色的图像着色。本文将实现使用机器学习对图像进行着色的目标。


综述 | 图像去噪综合比较研究
图像去噪的目标是从受噪声干扰的退化图像中尽可能恢复原始的真实图像,是图像进行后续处理的关键一步。文章介绍了一篇比较经典的多维图像去噪综述文章,非常适合新入门的同学。


CVPR2022|360 度全景图像补全与外绘
本工作通过补全周围环境来解决从窄视距单张图像生成360度全景图像的问题。作者提出了一种使用transformer进行场景补全和优化输出全景图细节的新方法。


图像处理,计算机视觉和人工智能之间的差异
图像处理和计算机视觉是超级令人兴奋的研究和研究领域。在本文中,我将帮助你了解图像处理,计算机视觉和人工智能之间的区别。


谷歌P图神器来了!不用学不用教,输入一句话,分分钟给结果
当你拍照片时,“模特不好好配合”怎么办?没事!现在只用一句话就能后期P图了,还是能改变动作、表情的那种!这个新的“P图”方法呢,名叫Imagic,是基于爆火的扩散模型(Diffusion Model)来实现的。

 
计算机视觉
入门必读系列(五)如何选择合适的初始化方法
本文介绍了为什么初始化很重要,总结了常用的几种初始化方法:全零或等值初始化、正态初始化、均匀初始化、Xavier初始化、He初始化和Pre-trained初始化,并介绍了几个还活跃的初始化方向:数据相关初始化、稀疏权重矩阵和随机正交矩阵初始化。


实战 | 使用OpenCV确定对象的方向(角度)
本文将介绍如何使用OpenCV确定对象的方向(即旋转角度,以度为单位)。


一文尽览 | 基于点云、多模态的3D目标检测算法综述!
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~


3D成像方法 汇总(原理解析)--- 双目视觉、激光三角、结构光、ToF、光场、全息
这里要介绍的是真正的3D成像,得到物体三维的图形,是立体的图像。而不是利用人眼视觉差异的特点,错误感知到的假三维信息。


三行代码解决长尾不平衡类别分类:间隔校准算法Margin Calibration
在本文中,我们采用了不同的视角:分类间隔,提出了一种「简单而有效的边距校准方法 (Margin Calibration,MARC) 来校准边距以获得更平衡的预测分数」,从而提升分类性能。

 
人工智能
像背单词一样搞定机器学习关键概念!机器学习通关(2)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。


回顾60多种transformer研究,一文总结遥感领域最新进展
本文系统回顾了遥感中使用基于 transformer 的最新进展,多达 60 多种方法,这些方法可用于解决遥感子领域中不同的遥感问题:超高分辨率 (VHR)、高光谱 (HSI) 和合成孔径雷达 (SAR) 图像。


50个最佳机器学习公共数据集
外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~


机器学习回归模型相关重要知识点总结
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。


小白学深度学习:7步搞定Pytorch基础
Tensors张量是一种特殊的数据结构,它和数组还有矩阵十分相似。在Pytorch中,Tensors可以在gpu或其他专用硬件上运行来加速计算之外,其他用法类似Numpy。


机器学习模型评价、模型与算法选择(综述)
本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术,并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而,给出建议以促进机器学习研究与应用方面的最佳实践。

 
智能汽车与自动驾驶
最全自动驾驶数据集分享系列四|光流数据集
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列四:光流数据集,共包括6个数据集。


万字聊聊智能汽车预期功能安全保障关键技术
本综述聚焦智能汽车预期功能安全保障关键技术,分别从系统开发、功能改进和运行3个阶段进行了系统的总结,最后从基础理论、风险防护和更新机制3方面进行了展望。本文可为智能汽车预期功能安全研究提供重要参考依据。


一文尽览 | 全景/鱼眼相机低速自动驾驶的近距离感知(识别+重建+定位+工程化)
论文建议将计算机视觉的3R扩展并专门化为自动驾驶计算机视觉的4R:重建、识别、重组和重新定位。


自动驾驶多模态融合感知现状及挑战
多模态融合是感知自动驾驶系统的重要任务。本文将详细阐述基于多模态的自动驾驶感知方法。包括LiDAR 和相机在内的解决对象检测和语义分割任务。


基于自动驾驶需求的线控转向设计方法
在设计转向时必须要有一种正向思维方法,不是去编辑MAC的校验方式,而是从驾驶员的需求、自动驾驶的需求来设计线控部件。


高精度地图:自动驾驶的向导
高精度地图是伴随着自动驾驶而生的,是目前研发L3及以上自动驾驶技术的标配。高精度地图是以厘米级精度来描述道路细节的数据集。

 
AR/VR与元宇宙
双十一天猫推出AR试穿功能,AR营销成为新趋势
双十一来临,天猫App迎来全新升级,上线了AR试穿、AR预览等3D购物功能,全面开启沉浸式购物新体验。


IEEE VR 机器学习专题(中)
本文整理 IEEE VR 2022的网络研讨会机器学习专题的第二部分,介绍了两个重要的工作,分别是自然场景下的 360° 深度估计,以及 360° 图像的扫描路径生成模型。


这项镜头贴膜技术背后,藏着让VR变轻巧的秘密
VR的重量减轻,并非一蹴而就的过程。事实上,在2022年再次进入大众视野前,主宰VR重量的显示硬件,已经经历了数轮迭代。


VR负面影响专题(中)
该专题讨论了 VR 中可能存在的一些负面影响,共包括三篇论文,本文将介绍第二篇《VR离散虚拟旋转的系统设计空间探索》,连续虚拟旋转是可能导致晕屏症的最大因素之一,同时对于许多 VR 场景也是必要的。


【FBEC2022】一图盘点2022年VR/AR新品
本文对今年1-10月份公开或上市的VR/AR芯片进行汇总,按时间排序,快来看一下吧。

 
推荐阅读
给算法校招同学的一些建议:方法篇
这一篇是关于找工作,具体该怎么准备。非常细节到位,大家可以参考着评估下,这些点是否都达标。(当然,仅作参考~)


科研上最忌讳的事情有哪些?
想花点时间总结一下科研里踩过的坑。我想,如果我早一些意识并且做有针对性地调整,我在博士期间的研究工作开展和个人身心状态应该会好一些。


没有L4的金刚钻,揽不了城市辅助驾驶的瓷器活
L4很冷,L2很热。最近无人驾驶坏消息很多,被舆论走入寒冬,辅助驾驶量产新车一个接一个,迎来新高潮。技术上的事实是,没有L4的金刚钻,揽不了辅助驾驶的瓷器活,特别还是城市开放道路下的辅助驾驶。


让数字人出圈的技术秘籍,华为率先公开了
在刚刚结束的2022华为开发者大会(HDC2022)上,升级版的手语数字人再次亮相,为大会的主题演讲进行了实时翻译。实际上,制作一个精良的数字人并不简单,如果要求高度定制化,技术门槛只会更上一个台阶。
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周
热门视频

Monibuca的架构演进

李宇翔/Web端实时音视频SDK开发