音视频技术开发周刊 | 252

LiveVideoStack 2022年7月4日
视频技术
13款用于Web的流行HTML5视频播放器
当视频流媒体席卷通信世界,为了保持和提升用户增长,内容创造者和流媒体服务提供者需要在自己的网站上内嵌HTML5视频播放器。在本文中,我们将来了解一下现在市面上可用的HTML5视频播放器。


Severe Tire Damage:世界上第一个在互联网上直播的摇滚乐队
1993年6月24日,Severe Tire Damage在互联网上进行了一场直播表演(基于MBONE),这场表演对于互联网和音视频技术的发展具有标志性的意义。Severe Tire Damage也成为史上首支在互联网上直播表演的乐队。


屏幕显示技术进化史
随着硬件设备和流媒体技术的不断发展和更新,屏幕显示技术也在不断进化。今天,就让我们跟随历史的脚步,一起来回顾一下屏幕显示技术发展历程中的重要里程碑。


北京冬奥会开幕式视频播控系统介绍
北京冬奥会开幕式大量使用科技手段进行效果呈现,视频播控系统作为开幕式核心控制系统之一,发挥了重要作用。本文对2022年北京冬奥会视频播控系统进行简单介绍。


音视频测试--视频特性测试
电脑上打开一个在线秒表,开始计时后。两台待测设备固定在屏幕前,通话后,稳定一段时间后,拿起手机拍照,即是时延,这里拍照10次,计算差值后取平均值,即为时延。


跨平台播放器开发 (二) QT for Linux & FFmpeg 环境搭建
上一篇咱们在 「MAC OS」 平台下搭建了 QT 和 FFmpeg 开发环境,该篇主要介绍如何在 「Linux」 平台下搭建 QT 和 FFmpeg 开发环境。


带你梳理VideoEditor视频导出流程
本期我们继续讨论VideoEditor中一个重头戏——导出视频。毕竟我们剪辑视频,添加各种好看和有趣的特效还有音乐,都是为了将视频导出,导出视频有四个重要的点。


音视频开发之旅(15) OpenGL ES粒子系统 - 喷泉
面对一个比较大或者没有尝试过的项目或内容,害怕、怯懦时常出现,这时要理清目标,抓住主线,运用结构化思维,拆解流程,然后逐步实现每个环节,解决每个环节以中的问题,这也是打怪升级的过程,下面一起来享受这个过程吧。

 
AV1专题
RTX 30 系列 GPU:通过 AV1 解码开启视频内容新时代
NVIDIA宣布RTX 系列支持AV1解码,通过硬件级别启用 AV1 解码,可以处理高达 8K 的 HDR 流。AV1 的效率比 H.264 高 50%,这意味着只需要一半的互联网带宽即可传输相同的视频质量,而且 AV1 还支持 10 位编码。


AOM生态开发邮件组 2022Q2
AOM联盟(Alliance for Open Media)生态开发组Q2邮件发布,内容包括近期行业信息、AV1进展、AV1资源等。

 
AV1 胶片颗粒合成工具
胶片颗粒存在于许多电影、电视中,虽然其本质是噪声,但是作为创意内容的一部分,我们希望能够在编码过程中保留胶片颗粒。AV1 中提供了胶片颗粒合成的编码工具,并且作为 AV1 标准的一部分呈现。


AMD RDNA 3架构支持AV1编解码
AMD 分享了有关支持 Radeon RX 7000 显卡的 RDNA 3 架构的新细节,确认支持 AV1 编解码器、DisplayPort 2.0 接口、5nm 工艺技术、高级 GPU 封装、图形管道优化、下一代 Infinity Cache,以及比 RDNA 2 提高 50% 以上的能效。


NVIDIA 在 FFmpeg 中实现 AV1 VDPAU 硬件加速
NVIDIA 为 FFmpeg 多媒体库提供了支持,以便在使用最新一代 NVIDIA RTX 30“Ampere”GPU 时能够通过 VDPAU API 来利用 AV1 GPU 加速的视频解码。

 
音频技术
音频 PCM / WAV 格式详解
PCM(Pulse Code Modulation)也被称为脉码编码调制,PCM中的声音数据没有被压缩,它是由模拟信号经过采样、量化、编码转换成的标准的数字音频数据。


如何打造真人化高表现力的语音合成系统
语音合成技术作为人机交互的重要环节,终极目标即达到媲美真人的合成效果。高表现力语音合成逐渐成为未来的趋势。高表现力语音有三个显著的特点:韵律自然、情感风格丰富和音质清澈。因此,我们针对这三个特点,进行算法上的探索,形成达摩院第五代语音合成技术。


啸叫抑制解决方法
扩音系统自使用以来,常常伴随着啸叫问题,极大地影响了用户的使用体验感。啸叫的产生会掩盖正常语音,给人的听感也不好,而且啸叫频点能量很高,严重时甚至能破坏会议中的扩声设备,因此我们需要对啸叫进行抑制。


研究人员首次实现在芯片上控制和调制声波
声波比相同频率的电磁波慢,但在高速计算和通信的世界里,这不是一件坏事。现在,来自哈佛大学SEAS的研究人员首次演示了利用芯片上的电场对声波的控制和调制。

 
编解码
8K HDR!|为 Chromium 实现 HEVC 硬解 - 原理/实测指南
本文简述了 Web 解码方案现状,介绍了作者为 Chromium 浏览器实现 & 完善硬解过程中遇到的问题和实现原理,并在文末附加了测试结果,预编译版本供参考,希望可以解决 FrontEnd 苦 HEVC 久矣的问题。


视频编解码文档、软件及开源IP
本期视频以环路滤波的模块为例,介绍从文档到软件再到硬件的开发学习思路,主要包含开源硬件IP、硬件仿真、基于PYNQ的XK264演示方案等内容。


MediaCodec 、x264、faac 实现音视频编码并通过 rtmp 协议实现推流
该篇文章我们一起来学习 Android 端的 rtmp 推流必须要经过的几个阶段:包括采集、处理、编码、推流等,一起来看看吧。


H.264 入门知识
H.264 又称为 MPEG-4 , 它是一种面向块,基于运动补偿的视频编码标准,是目前市面上最常用的一种视频编码格式,这篇文章一来是为了对知识的总结,二来是为了给刚入门音视频的同学一个参考。


Android AVDemo(10):视频解封装,从 MP4 解出 H.264/H.265丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第十篇:Android 视频解封装 Demo。


画质可控的场景自适应转码系统
B站每天都会接收数十万的视频投稿,会消耗大部分的带宽资源。B站会对视频进行重新转码,在保持画质不变的前提下,去除数据冗余,以提高压缩比,降低码率,避免带宽资源的浪费。为了提高视频转码的性能,B站研发了一种画质可控的场景自适应转码系统。

 
网络传输
3GPP XR相关标准调研
3GPP解决的是移动通信相关的问题,满足传输内容和交互方式快速发展引入的新的网络需求。3GPP制定的标准规范以Release作为版本进行管理,平均一到两年就会完成一个版本的制定,目前已经发展到Rel-18。


音视频通信协议--RTSP协议
RTSP作为一个应用层协议,提供了一个可供扩展的框架,使得流媒体的受控和点播变得可能,它主要用来控制具有实时特性的数据的发送,但其本身并不用于传送流媒体数据,而必须依赖下层传输协议(如RTP/RTCP)所提供的服务来完成流媒体数据的传送。


中国积极贡献,ITU-R如期完成6G未来技术趋势研究报告
2022年6月13日-24日,国际电信联盟无线电通信部门5D工作组召开第41次会议,ITU-R WP5D如期完成了《未来技术趋势研究报告》的撰写。我国IMT-2030(6G)推进组作为我国6G产学研用各方研究与合作的主要推进平台,为报告撰写贡献中国智慧, 并承担报告重要章节的编辑人。


TCP 流控问题两则
两个基础的问题,可作为面试题目:1. TCP window scale 最大是多少?为什么?2. TCP单流有吞吐上限吗?如果有,是什么?如果没有,为什么?


6 张图带你搞懂 TCP 为什么是三次握手?
TCP 为什么是三次握手?要搞清楚这个问题,首先得了解TCP究竟是如何保证可靠传输的。下面我们就来一起了解一下。


声网自研传输层协议 AUT 的落地实践丨Dev for Dev 专栏
针对实时互动应用对网络传输带来的新需求和新挑战,声网通过将实时互动中的应用层业务需求与传输策略的分层和解耦,于 2019 年自研内部私有的传输层协议AUT,将异构网络下的各种传输控制能力汇聚起来,本文将详细介绍 AUT 传输协议的设计和演进过程。

 
有奖问题征集
图像
图像信号处理芯片设计原理——13 图像锐化
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文介绍图像清晰度密切相关的图像锐化操作。


基于深度学习联合去噪和去马赛克
本文介绍的是一篇发表于2020年CVPR上基于深度学习联合去噪和去马赛克的论文。本文先介绍去马赛克和去噪的基本概念,再介绍这篇paper的主要内容,最后进行简要总结。


CVPR 2022 | 基于密度与深度分解的自增强非成对图像去雾
在本文中,我们提出了一种自增强的图像去雾框架,称为D4(Dehazing via Decomposing transmission map into Density and Depth),用于图像去雾和雾气生成。我们所提出的框架并非简单地估计透射图或清晰图像,而是聚焦于探索有雾图像和清晰图像中的散射系数和深度信息。


Multimix:从医学图像中进行的少量监督,可解释的多任务学习
在本文中,我将讨论一种新的半监督,多任务医学成像方法,称为Multimix,Ayana Haque(ME),Abdullah-Al-Zubaer Imran,Adam Wang、Demetri Terzopoulos。该论文被ISBI 2021收录,并于4月的会议上发表。

 
开源
开源ISP处理器 (xkISP) 发布
xkISP是基于Xilinx开发工具的开源图像信号处理器 (ISP),由复旦大学VIP实验室和阿里巴巴DAMO CTL实验室联合开发。到目前为止,xkISP支持处理任意分辨率的12位原始图像数据。


TGU:开源神经网络处理器
本文介绍天津工业大学宋庆增老师实验室开源的神经网络处理器TGU。TGU为通用可配置的卷积神经网络加速器,支持CNN,Relu,LeakyRelu,MaxPool,concat等十多个神经网络算子。


CVPR22 |CMT:CNN和Transformer的高效结合(开源)
到底CNN和Transformer哪个更好?当然是强强联手最好。华为诺亚实验室的研究员提出一种新型视觉网络架构CMT,通过简单的结合传统卷积和Transformer,获得的网络性能优于谷歌提出的EfficientNet,ViT和MSRA的Swin Transformer。


FFmpeg命令分析-yuv封装mp4
本系列主要分析各种 FFmpeg 命令 在代码里是如何实现的,以 FFmpeg4.2 源码为准。本次讲解把 yuv 数据 编码成 H264,然后封装进 MP4 格式里面。

 
人工智能
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscopicsilicovolcanoconiosis
谷歌最新提出来的一个AI——Parti,主要是将文本生成图像视作序列到序列之间建模。从结构上看,它的所有组件只有三部分:编码器、解码器以及图像标记器,且都是基于标准Transformer。


用于生成学习任务的量子神经网络2022最新综述
本文从机器学习的角度总结了量子生成学习模型的最新进展。我们将这些量子生成学习模型解释为经典生成学习模型的量子扩展,包括量子线路玻恩机、量子生成对抗网络、量子玻尔兹曼机和量子自动编码器。


AI算法实现武侠小说中的“绝世武功”——动作残影特效!
现在的电影制作技术越来越高超了,武术特效做的真的很酷炫,比如残影效果真的给人一种感觉武功深不可测的感觉,那种这种酷炫的残影效果是怎么实现的呢?今天就让我们使用百度开源的深度学习框架飞桨来实现这样的视频残影效果。


图解:卷积神经网络数学原理解析
这一次,我们将加深理解神经网络如何工作于CNNs。出于建议,这篇文章将包括相当复杂的数学方程,如果你不习惯线性代数和微分,请不要气馁。我的目标不是让你们记住这些公式,而是让你们对下面发生的事情有一个直观的认识。 


分享 5 大常用的特征选择方法,机器学习入门必看!!
在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题。

 
智能汽车与自动驾驶
一文读懂基于DL的无人驾驶视觉感知系统的应用场景
基于深度学习的计算机视觉,应用于无人驾驶的视觉感知系统中,主要分为四大块:动态物体检测、通行空间、车道线检测、静态物体检测,本文主要从需求、难点、实现三个方面对每项感知部分做剖析。


小米智能驾驶方案被意外曝光:5毫米波雷达+1摄像头,实现L2级自动驾驶
大陆的一则官宣新闻,似乎已将小米首款车智能驾驶方案曝光:5R1V——即5毫米波雷达1摄像头方案,L2级自动驾驶能力,搭载在2024年首款电动车上。米粉朋友们,对这套方案,Are you OK?


ALITA:用于自动驾驶的大规模增量数据集
本文将为大家分享一个用于自动驾驶的大规模增量数据集,该数据集可以用于实际场景的性能评估。数据集,以及用于数据处理和本地评估的Python-API已经开源。


五千字说清汽车基础软件及国产现状
汽车基础软件是啥呢?从定义来看,是用于实现汽车系统软硬件解耦,与用户应用功能无关,但提供汽车系统服务的一系列支撑的软件集合。通俗点讲就是板级芯片驱动、车载操作系统、Hypervisor和中间件。


点云配准,自动驾驶里的“滴血认亲”
随着激光雷达、4D毫米波雷达逐渐成为汽车领域的顶流,其输出的点云(Point Cloud)也成为继像素之后描述车辆所处三维世界的一种主要数据格式。点云其实就是一个数据集,不同类型传感器输出的点云包含的数据略有差异。


聊聊7个常见的智能汽车技术
虽然概念车的外观过于前卫,技术也过于超然,但在概念车中体现出来的理念有时也会在真正的车中实现。清单中的一些技术可能看起来难以置信。几年后,你就不会对这些创新感到惊讶了。

 
AR/VR
WebXR的现状与未来
W3C 沉浸式 Web 工作组联合主席 Ada Rose Cannon 围绕 “WebXR 现状与未来” 重点探讨当下利用现有的 API 能够构建哪些应用以及即将推出的新特性。


使用 OpenCV 的基于标记的增强现实
基于标记的 AR,也称为图像识别 AR,使用对象或基准标记作为参考来确定相机的位置或方向。基于位置的 AR 通过扫描像 ArUco 标记这样的标记来工作。ArUco 标记检测触发增强体验以定位对象、文本、视频或动画以显示在设备上。在这个例子中,我们将编写一个简单的代码,借助 ArUco 标记来增强视频流上的图像。


AR与VR技术如何影响品牌与用户的互动方式?
从VR游戏中的社交互动到AR的个性化在线购物体验,AR和VR在多个方面成为许多公司为未来建立弹性和增加客户参与度的生命线。但是,这个价值数十亿美元的行业究竟如何影响品牌与客户的互动方式?让我们看看各种场景,展示这些技术所能提供的高价值的解决方案。


基于边缘计算的无线多人互动VR游戏系统
无线多人互动虚拟现实(VR)游戏同时具备VR的高计算负载和多人互动游戏的不可预测互动,这给无线通信系统的设计带来极大的挑战。我们提出了一个基于移动边缘计算(MEC)的无线多人互动VR游戏传输框架。


虚拟现实可以用来做什么(一)
虚拟现实(Virtual Reality,简称VR)的出现,令人类仿真水平实现质的飞跃,达到新的境界。你知道虚拟现实可以用来做什么吗?

 
推荐阅读
一图读懂上半年虚拟现实领域投资
2021年起,元宇宙成为风靡全球的流量热词,带动我国虚拟现实行业出现新一轮投资热潮,据《中国电子报》不完全统计,2022年1-6月,中国VR/AR/XR及元宇宙领域的投融资情况如下。


Google 辟谣放弃 TensorFlow,它还活着!
不知道是不是之前“TensorFlow 将死”的谣言传得过盛,Google 于日前紧急发文广而告之,TensorFlow 没有“死”,现如今发展地非常好,与此同时,Google 也没有放弃继续开发 TensorFlow,未来它将与 JAX 同在。


Rust,程序员创业的最佳选择?
创业公司在选择编程语言时往往压力很大,尤其在考虑选择相对小众的新语言时。不仅需要考虑编程语言本身的语法、性能,还需要关注其对人才的吸引力。然而,这家创业公司最终的选择是Rust。快来看看他们的使用体验吧!


深度学习的坎坷六十年
从1958年弗兰克.罗森布拉特发明的感知机、RNN、LeNet-5到Transformers等等,前人们一步一步的带动着深度学习往前跑。本文主要偏向于计算机视觉方向,带大家回想智慧凝结的每一个里程碑。


一文聊聊自动驾驶中的网络安全
在《速度与激情8》中有这么一个片段,黑客找到汽车芯片漏洞,将停在路边及车库的汽车进行控制。在第一次看到这个片段时,无比震惊,虽然是经过艺术渲染后的效果,但不禁会思考,这个场景在现实生活中真的会出现吗?
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周