音视频技术开发周刊 | 263

LiveVideoStack 2022年9月19日
视频技术
ffprobe综合教程(内含7个示例)
在我的视频处理工具箱里,ffprobe有着非常重要的地位!在FFmpeg库中,ffprobe堪称视频信息提取或视频检测的“瑞士军刀”。在本文中,我们将学习如何使用ffprobe分析视频和提取视频信息。


2022海外视频趋势营销分析
在本文中,我们将深入了解2022在线视频趋势,这些趋势包括视频内容开发中的热点、新兴事物以及如何利用二者与用户建立更好的连接。


音视频开发之旅(28) 算法序列 - 平衡二叉树
本篇带你理解二叉查找树存在的问题,以及平衡二叉树对其优化的规则,通过画图一步步拆解理解其实现原理,代码实现平衡二叉树的左旋转、右旋转、双旋转。


OpenGL ES 与 EGL 有什么关系?
EGL 是 OpenGL ES 和本地窗口系统(Native Window System)之间的通信接口,OpenGL ES 的平台无关性正是借助 EGL 实现的,EGL 屏蔽了不同平台的差异(Apple 提供了自己的 EGL API 的 iOS 实现,自称 EAGL)。


直播案例剖析:手机降频对直播声音体验的影响
某次嘉宾直播重保项目中,直播中出现了声音卡顿、爆音问题,经过排查得出一个结论:嘉宾直播时手机处于充电状态,手机出现发热导致降频。本文将基于这个典型案例,做一个系统性的分析,分享 iOS 发热降频的基本概念与处理经验。

 
音频技术
音视频开发进阶|音频编解码的必要性解读与格式选取
本次课程为系列内容,课程将从音视频基础概念讲解展开,进行学习内容的难度进阶,后期将带领大家学习有关音视频开发的各种疑难问题,以及如何利用 SDK 开发音视频应用!


智能语音技术中的麦克风阵列是什么?
麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。


定向声HyperSound:技术介绍
HyperSound是一种颠覆性的音频创新,具有高度的指向性,可以在商业应用中推动沉浸式音频体验。


抖音智创语音团队三维菁彩声助力总台中秋晚会沉浸式直播
2022年中央台中秋晚会首次采用三维菁彩声 (Audio Vivid)进行制作,不仅可看到纤毫毕现的超高清视频,还可以戴上耳机通过“云听”客户端收听到与公共大屏超高清视频同步的三维声版本的菁彩声,感受中秋晚会现场的震撼效果。


香港科技大学研究团队提出更有效的新自动语音识别模型,尤其适用于噪声环境
Siri和亚马逊Alexa等受欢迎的语音助手已经向更多用户推出了自己的自动语音识别(ASR)模型。尽管经过了几十年的研发,但ASR模型在一致性和可靠性方面仍存在问题,特别是处于噪声环境中时。

 
传输网络
QUIC之拥塞控制和0-RTT连接建立
在经过五年的开发之后,新的HTTP/3协议终于接近尾声。让我们一起深入了解HTTP/3的性能提升、拥塞控制、队头阻塞和0-RTT连接建立。


通过抓包深入分析HTTPS
https其实是在http上加了一层(SSL/TSL)加密协议,接下来将通过抓取一个测试网站的HTTPS数据包,通过Wireshark对每个数据包进行详细分析。本文的分析中,需要具备一些TCP/IP的基础知识。


车载以太网技术发展与测试方法
近年来,随着汽车技术的发展,大量流媒体数据的传输要求总线具备更高的传输能力,车载以太网便应运而生,具备更高的传输速率,适应严苛的汽车电子应用环境,成本更低、质量更轻,高可靠性、低功耗,低电磁辐射、满足特定EMC标准。


音视频问题--RTSP over TCP播放异常
昨天收到小伙伴请求协助:我们设备 与客户门口机监控,大概1分钟左右,监控会中断。 一听到监控问题,这就是视频问题了,那就赶紧入手排查一下吧~


B站流式传输架构的前世今生
流式传输的实现是一个很有挑战的事情,聚焦快、准、稳的需求,  Lancer整体演进经历了大管道模型、BU粒度管道模型、单流单作业模型三个阶段的演进,下面我们娓娓道来。

 
编解码
视频转码后有色差要如何处理呢?丨有问有答
遇到了视频转码后有色差,这种一般如何处理呢?首先要分析色差是如何产生的?然后再看如何做颜色空间转换?


HEVC帧间快速算法简介
本文主要针对HM中的快速算法,以及HEVC相关的论文进行简要介绍。将主要分成三个模块进行介绍:1.编码器的遍历过程;2. HM中的快速算法;3.相关论文分享。


基于边缘感知的低复杂度、高质量去马赛克算法
这篇文章提出了一种基于边缘感知的低成本去马赛克算法,称为LED。它通过方向变化之间的差的logistic函数引导绿色通道和色差平面插值,实现了算法速度与精度的平衡。同时该算法具有高度并行性,FPGA可以实现高分辨率图像的去马赛克。


视觉无损的深度学习前处理算法
为了进一步提升转码系统性能,我们研发了一套视觉无损的深度学习前处理系统。该系统可以在原有场景自适应转码系统的基础上,带来15%左右的码率节省,与此同时,保持画面质量不变。

 
课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

  1. 紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合
  2. 熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础
  3. 课程包含图文、代码、视频,降低学习门槛
  4. 李超精准讲解,及时详细解答

点此「立即订阅」
 

图形图像
iOS 16的Safari支持AVIF图片
Safari 16.0 已针对 Apple 的生态系统发布,适用于 iOS 16 的最新版本浏览器现在能够在 macOS Ventura 和 iPadOS 中提供类似支持之前打开 AVIF 图像,最重要的更改是支持使用AVIF格式压缩的静止图像。


LOLNeRF:从单一图片生成多视角图
3D场景重构神器NeRF,将单一的图片生成多视角的场景图。


DenseNet、MobileNet、DPN…你都掌握了吗?一文总结图像分类必备经典模型(二)
本文将分 3 期进行连载,共介绍 15 个在图像分类任务上曾取得 SOTA 的经典模型。本期介绍:DenseNet、MobileNet、SENet、DPN、IGC V1。


基于知识蒸馏的图像质量评价
图像质量评估(IQA)的目标是量化视觉失真,并产生图像的感知质量评分。精确的IQA方法对于指导图像专业的许多下游任务非常重要图像处理,如图像恢复,超分辨率等。


从0学CV:深度学习图像分类 模型综述
图像分类是计算机视觉基本任务之一。深度学习作为机器学习的一个分支,将数据的底层特征组合成抽象的高层特征,其在计算机视觉、自然语言处理等人工智能领域发挥了不可替代的作用。


IBRNet:学习基于多视图图像的渲染
本文综合利用基于图像的渲染和神经辐射场两种方法的思想,提出了一种基于学习的根据多个源视角图像进行连续场景辐射以合成新视角图像的方法。

 
计算机视觉
CCD(像素)与视觉系统的基础知识
视觉系统器可以利用摄像元件 CCD 中各像素的 256 级浓度数据,检测面积(即像素数量)、位置(即浓度变化点)及损伤(浓度变化量)等。通过高像素化(增加信息量)及高速化(更利于生产线作业),可以使视觉系统器更好地应用于各种生产活动中。


使用深度学习进行基于图像的三维重建的最新综述
三维重建是计算机视觉计算机图形学和机器学习等领域几十年来一个不适定问题。从2015年开始使用CNN解决基于图像的三维重建有了极大的关注并且展示出强大的性能。本文章专注于从RGB图像估计三维物体形状的深度学习方法。


更加实用的姿态估计
本文将通过强调推理过程中的一个关键问题来讨论如何使姿势估计算法更有效,并讨论如何缓解这个问题。还介绍了一个示例,使得姿势估计变得更加实用。


OpenCV单应性矩阵发现参数估算方法详解
OpenCV在通过特征描述子完成描述子匹配之后,会得到一些关键点对,我们会把这些关键点对分别添加到两个vector对象中,作为输入参数,调用单应性矩阵发现函数来发现一个变换矩阵H,函数 findHomography 就完成了这样的功能。


综述:计算机视觉中的注意力机制
软注意力机制已在计算机视觉领域取得了广泛的应用和成功。但是我们发现硬注意力机制在计算机视觉任务中的研究还相对空白。而硬注意力机制能够从输入信息中选择重要的特征,因此它被视为是一种比软注意力机制更高效、直接的方法。

 
人工智能
简单易懂的讲解深度学习(入门系列之七)
在本章中,我们主要讲解了梯度的概念。所谓梯度,就是该函数值增长最为迅猛的方向,然后我们介绍了梯度下降法则。


【机器学习】8个常见机器学习算法的计算复杂度总结!
计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。计算复杂度又分为两类:时间复杂度和空间复杂度。


图解机器学习神器:Scikit-Learn
本文详解 scikit-learn 工具库的用法,覆盖机器学习基础知识、SKLearn讲解、SKLearn三大核心API、SKLearn高级API等内容。


从 ReLU 到 GELU,一文概览神经网络的激活函数
激活函数对神经网络的重要性自不必多言,来自丹麦技术大学的 Casper Hansen 通过公式、图表和代码实验介绍了 sigmoid、ReLU、ELU 以及更新的 Leaky ReLU、SELU、GELU 这些激活函数,并比较了它们的优势和短板。


深度学习图像分类任务中那些不得不看的11个tricks总结
图像分类中的各种技巧对于目标检测、图像分割等任务也有很好的作用。本文在精读论文的基础上,总结了图像分类任务的各种tricks。


机器学习入门必备:如何用Python从头实现感知器算法
感知器算法是最简单的人工神经网络形式之一。感知器是一个单神经元的模型,可以用于两个类别的分类问题,也能为以后开发更大的神经网络奠定基础。在本教程中,你将了解到如何利用 Python 从头开始实现感知器算法。

 
智能汽车与自动驾驶
自动驾驶的社会交互:一个综述和思考(四)
本文回顾了建模和学习人类驾驶员之间社会交互的各种方法,从优化理论和图模型(graphical models)到社会力理论和行为认知科学。还强调了一些新的方向、关键挑战以及未来研究的开放性问题。


一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法。


自动驾驶中基于光流的运动物体检测
在本文中,我们使用不同的算法从nuScenes数据集获取30至70米范围内车辆的光流场信息,并将其作为输入输入到神经网络ResNet18,然后,模型输出运动状态的两种预测,即静止或移动,实验表明,运动目标检测成功,准确率高,还使用训练的模型来推断附近的车辆,并获得合理的精度。


全面分析四大自动驾驶策略
当前自动驾驶的策略研究还停留在具体场景执行具体策略,最近清华大学的研究人员在交通领域的顶会发表了一篇全面的综述,从更高级的角度分析自动驾驶策略。


自动驾驶最核心的技术是什么?
有的人认为是感知、有的人认为是决策,有的人认为是非技术的东西,比如能否持续赚到钱、能否做好前瞻性的管理工作等等。不知道你怎么看?这里我们选取了知乎上的几位答主,供大家学习交流。


智能汽车产业链全景图
超全智能汽车产业链全景图,按整车、感知、集成与运营、基础技术、座舱与车联网等五大部分展示。

 
AR/VR与元宇宙
进入 WebXR 的世界
如果想要学习WebXR,从哪里入手呢?别急,虽然WebXR和WebGPU还都不成熟,但是现有的技术已经可以让我们实现超出你想象的效果了。


AR眼镜将带来下一次信息技术革命
AR眼镜被普遍认为是继电脑和手机之后的下一代计算平台。微软、苹果、Meta、谷歌、华为、OPPO、小米、字节等国内外巨头都在积极布局AR眼镜产业。


实现个性化的沉浸式 XR 体验 —— AI 音频制作
演讲探讨了音频处理和制作的详细方面。总而言之,这是为自由视角 XR 传输 360 度音频所需的技术的迷人一瞥!


理想的元宇宙,技术支柱如何构建?
2021年被称为元宇宙元年,这一年以来,元宇宙概念热度始终不减:Meta、高通、微软、HTC、网易、百度等科技巨头纷纷入局,对于元宇宙所涉及的各领域加大探索以及开发力度。

 
推荐阅读
云游戏全面解析
2021年全世界游戏产业的总收入预计增长到1749 亿美元,这样的快速增长很大程度是由竞技类游戏的普及,游戏画质和性能的提升,用户兴趣的增长,以及新款热门游戏的发布推动。


Hinton、Yann LeCun、李飞飞谈深度学习十年:AI没有走入死胡同,“革命”仍如火如荼
2022 年,当我们回望这生机勃勃、万物竞发的 AI 黄金十年,新的问题涌上心头:我们可以从这十年来的深度学习发展之路中总结出什么?这一颠覆世界的革命性技术,未来又将何去何从?


InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇
本文是对 2022 年 AI、ML 和数据工程 InfoQ 趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。


自动驾驶的崎岖之路
自动驾驶汽车将是汽车发展的最终目标,将是实现智能交通、智能城市重要的一环,现阶段自动驾驶技术如火如荼地发展,无论是主车厂,还是互联网企业,抑或是传统制造企业,都希望能在自动驾驶汽车发展初期,市场布局尚未稳定时,提前布局、提前研发,可以分得自动驾驶汽车市场的一杯羹。
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周