音视频技术开发周刊 | 272

Max 2022年11月20日
视频技术
基于端智能的播放QoE优化
伴随着B站业务形式的不断扩展,不同场景对视频播放体验的稳定性、流畅性提出了更高的要求,为保障提供给用户更好的播放体验B站做出了哪些努力?


Shopee 视频处理技术后台应用
在 8 月 6 日举办的 LiveVideoStackCon 2022 上海站大会中,Shopee 视频技术团队负责人 Zhixing 分享了 Shopee 视频处理技术的后台应用,本文根据演讲内容整理而成。


为什么 B 站的弹幕可以不挡人物?
今天分享一个小技巧,在 B 站看视频的时候,发现当字幕遇到人物的时候就被裁切了,不会挡住人物,是不是觉得很神奇。高端的效果,往往只需要采用最朴素的实现方式,让我们一探究竟。


Android FFmpeg 实现带滤镜的微信小视频录制功能
本文将实现对采集的预览帧(添加滤镜)和 PCM 音频同时编码复用生成一个 mp4 文件,即实现一个仿微信小视频录制功能。


音视频开发之旅(38) -使用FBO实现渲染到纹理(Render to texture)
我们把图片、视频、图形等渲染到屏幕时,需要用FBO的技术,先把素材渲染到纹理,然后针对纹理链式的依次进行离屏渲染,最终再把数据copy到屏幕缓冲区进行渲染显示。


音视频杂谈--LiveVideoStack Meet厦门
2022年11月12日,有幸参与了LVS举办的厦门meet活动,本文是整理相关与会内容,以及自己的一些补充和理解。

 
音频技术
Apple新专利 为电子设备提供更高质量音频
近日,美国专利商标局公布了苹果公司的一项专利申请,涉及电子设备(尤其是iPad)的音频换能器,例如,包括具有多个谐振器的扬声器,可以提供高质量音频。


完美重建声场,打造音乐会临场感
为了完美重现现场的声音体验,技术人员需要在录取声音信号的同时记录声源的位置信息,这离不开头部相关传递函数(HRTF)的获取。


声学专利述评:电声、主动控制、NVH、工业声学
这些近年来的声学专利的述评的目的是为读者提供足够的参考资源,以决定是否从专利本身寻求更多信息。此处所表达的任何意见都是审稿人的个人意见,并非法律意见。


INTERSPEECH2022|基于多尺度特征聚合Conformer说话人识别模型的创新与应用
本文探索了端到端语音识别领域最主流的网络结构Conformer在声纹识别任务中的应用,提出了一种基于Conformer的多尺度特征融合的说话人识别模型(Multi-scale Feature Aggregation Conformer, MFA-Conformer)。

 
编解码
对话安谋科技周华:编解码硬件的机遇与挑战
近年来随着AI技术的兴起,我们看到越来越多的标准组织正在或考虑在传统视频编码框架中增加AI的部分。一方面,这对于视频编解码的性能提升是利好的,但这也给硬件IP厂商带来了一定的挑战。


HG-FCN: 面向VVC帧内快速编码的多层次网格全卷积网络
为了降低VVC中帧内编码的复杂度,本文提出了一种分层网格全卷积网络,以及一种双阈值后处理策略,在编码时间复杂度和编码性能上取得了很好的trade-off,超过了其它的SOTA方法。


ICCV 2021 | 基于多尺度反投影和频率分解的深度图像压缩
本文基于经典的端到端图像编码框架,着手于编码器和解码器的优化,提出了 1. 融合多尺度特征的反投影方法;2. 对输入图像高频、低频信息的分割方法,以及对两者潜在表示的双重注意力融合机制。


11个常见的分类特征的编码技术
机器学习算法只接受数值输入,所以如果我们遇到分类特征的时候都会对分类特征进行编码,本文总结了常见的11个分类变量编码方法。

 
传输网络
技术博客|第15期:流媒体传输协议简介 - HLS协议
自适应流媒体传输协议有很多,其中最流行的当属MPEG组织开发的DASH协议和苹果公司的HLS协议。因此,本系列技术博客计划对这两种自适应流媒体传输协议进行介绍,并将对这两种协议进行对比。在本篇博客中,我们将首先介绍HLS协议。


火山引擎 RTC 视频性能降级策略解析
RTC 提供了一种性能降级机制,在性能负载过高时,触发降级;在性能负载降低后,触发升级。一套完整的性能降级方案,需要产品具备一些基本的降级能力,比如:支持动态修改视频分辨率、帧率,支持发布多路视频流(simulcast),支持 SVC,支持按需发布/订阅等。


认识 jteach 并以其屏幕广播功能为基础探讨下网络传输的优化
本文介绍下 jteach 的基本使用,然后以 jteach 的屏幕广播功能为基础分享下个人关于网络传输优化的一些经验。


NDI——新一代音视频IP化传输技术
在现场直播的节目制作过程中,大多采用传统的SDI(Serial Digital Interface)同轴电缆连接摄像机与制作中心,或者采用HDMI(High-Definition Multimedia Interface)线和视频采集卡连接摄像机和电脑。

 
开源技术
大神李沐开源新手剪辑神器!只看字幕就能剪视频,卡壳重复片段一键删除
连pr都不用打开,只需对照字幕就能轻松切掉空白停顿、反复重来的地方,简直分分钟出片!而且目前已在GitHub上开源。究竟有多神奇?一起来看看这款神器AutoCut。


最新代码开源!TartanCalib:自适应亚像素细化的广角镜头标定
对于本文的方法,作者开发了两种新的亚像素特征细化方法,以促进在高度失真区域中的精确目标检测,从而在广角镜头的边界区域中实现更好的整体标定。


OpenCV基础知识入门
本文旨在让你快速入门opencv。OpenCV是计算机视觉中最受欢迎的库,最初由intel使用C和C ++进行开发的,现在也可以在python中使用。该库是一个跨平台的开源库,是免费使用的。


即将开源!TransVisDrone:基于时空Transformer的无人机对无人机空中视频检测
无人机在空中检测其他无人机在视觉领域具有非常重要的作用,尤其是空中避障、应对无人机攻击以及多机协同。但现有的检测方法过为复杂,在本论文中,作者提出了一种新的基于时空Transformer的无人机对无人机检测算法,算法即将开源。

 
图形图像
包含核预测的多帧降噪网络
本文介绍一篇基于核函数预测的多帧降噪网络的文章,在基本的图像复原的基础上,作者考虑到了将多张图片融合后产生的结果能够利用不同帧之间的信息进行加权平均,产生更好的图像质量。


沉浸式体验飞鸟的快乐:从一张照片生成3D航拍视频
来自谷歌的研究团队提出了一种 3D 视觉体验生成新方法 Infinite Nature,仅用一张自然景观图片就能生成该场景的高质量 3D 「航拍」视频。


TIP 2022 | CONTRIQUE——利用对比学习进行图像质量评估
本文提出了通过对比学习的方式获得图像质量表示的问题。本文的结果表明,具有感知相关性的强大的质量表征可以通过无标注图像获得,而不需要大规模标记主观图像质量数据集。


使用 OpenCV 构建文档扫描仪
在本文中,我们将使用 OpenCV 库来开发 Python 文档扫描器。我们的软件应该能够正确对齐文档,检测捕获图像的边界,提升文档的质量,并最终提供更好的图像作为输出。


NeRF in the Dark: 直接在原始图像上训练NeRF实现HDR
NeRF-in-the-dark将NeRF修改为直接在线性原始图像上训练,从而保持场景的完整动态范围。通过从生成的NeRF渲染原始输出图像,我们可以执行新的高动态范围(HDR)视图合成任务。

 
计算机视觉
入门必读系列(六)神经网络中的归一化方法总结
归一化相关技术已经经过了几年的发展,目前针对不同的应用场合有相应的方法,在本文将这些方法做了一个总结,介绍了它们的思路,方法,应用场景。主要涉及到:LRN,BN,LN, IN, GN, FRN, WN, BRN, CBN, CmBN等。


语义分割、实例分割、全景分割?这些基本概念别再搞混了!
在计算机视觉中,术语“图像分割”或简称“分割”是指根据某些标准将图像分成像素组。分割算法将图像作为输入并输出区域(或片段)的集合。


【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)
系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。相信能够帮助初学者快速入门深度学习,帮助求职者全面了解算法知识点。


史上最全 | 基于深度学习的3D分割综述(RGB-D/点云/体素/多目)
3D目标分割是计算机视觉中的一个基本且具有挑战性的问题,在自动驾驶、机器人、增强现实和医学图像分析等领域有着广泛的应用。它受到了计算机视觉、图形和机器学习社区的极大关注。


深度解读|基于无监督深度学习的单目视觉的深度和自身运动轨迹估计的深度神经模型
这篇文章主要提出了一种基于无监督深度学习的单目视觉的深度和自身运动轨迹估计的深度神经模型。简单来说,这篇文章的核心就是下图中的两个深度卷积网络CNN,Depth CNN和Pose CNN绑定在一起通过View Synthesis进行训练。

 
人工智能
像背单词一样搞定机器学习关键概念!机器学习通关(3)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。


像背单词一样搞定机器学习关键概念!机器学习通关(4)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。


【机器学习】10个机器学习中常用的距离度量方法
本文将简要介绍常用的距离度量方法、它们的工作原理、如何用Python计算它们以及何时使用它们。这样可以加深知识和理解,提高机器学习算法和结果。


GIF | 超生动图解长短记忆神经网络
最近,国外有一份关于LSTM及其变种GRU(Gated Recurrent Unit)的图解教程非常火。教程先介绍了这两种网络的基础知识,然后解释了让LSTM和GRU具有良好性能的内在机制。当然,通过这篇文章,还可以了解这两种网络的一些背景。


神经网络的简单偏好
本文作者许志钦,接触深度学习五年,2019年10月入职上海交大。2022年8月19号,作者在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向,本文是该报告里关于理论方面的研究总结。


有了这个机器学习画图神器,论文、博客都可以事半功倍了!
ML Visuals 专为解决神经网络画图问题设计,最近,这一模板进行了更新。ML Visuals 现在包含了 100 多个可用的自定义图形,使用者可以在任何论文、博客、PPT 中使用这些资源。

 
智能汽车与自动驾驶
最全自动驾驶数据集分享系列五 | 全景数据集
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列五:全景数据集,共包括8个数据集。


万字长文解读深度学习算法在自动驾驶规控中的应用
本文将从规则的局限性与深度学习算法的潜在优势、为什么现阶段深度学习算法尚不能被大规模应用于规控算法、未来的规控算法以规则为主还是以深度学习为主这三个方面来详述。


一文聊聊自动驾驶传感器
本文系统介绍高级驾驶辅助系统(ADAS)和自动驾驶所需的激光雷达、毫米波雷达、超声波传感器和摄像头传感器的原理、功能及区别。


盘点自动驾驶界的各种 “ 联盟 ”
本文从量产自动驾驶企业、高速商用车企业和低速商用车企业三方面列举各细分领域的企业“联盟”情况,以供参考,排名不分先后。(据不完全列举)


自动驾驶路径规划五大常用算法(Dijkstra/人工势场/图搜索等)
规划是指无人车为了到达某一目的地而做出决策和计划的过程,其规划出来的轨迹是带速度信息的路径,本文总结了常用的路径规划算法。


自动驾驶决策规划中的问题与挑战
随着自动驾驶等级的不断提高,决策规划层作为自动驾驶的大脑,其重要性也随之提高。但与人脑相比,自动驾驶的这颗大脑还有太长的路需要追赶。本文将通过万字详述路径规划中的Motion Planning存在的问题与挑
战。
 
AR/VR与元宇宙
对话ZEGO即构科技许明龙:聊聊元宇宙与实时互动RTI
元宇宙作为当前热门话题之一,受到了业界广泛地关注,不少企业纷纷开始依托现有业务与技术能力布局元宇宙领域,迎接这个新的风口。


CVPR 2021 | 适用于实时AR的HDR环境图估计
本工作提出了一种从窄视场 LDR 相机图像实时估计 HDR 全景环境图的方法。可以产生增强现实中物体真实的反射及阴影细节。


戴上AR隐形眼镜去购物,眼动勾选购物清单一个不落!
你有没有过这样的经历?每次从超市回来,才想到落下了几样东西忘了买……手机上虽然存了购物清单,家人临时来电话嘱咐要买的东西还是忘掉了……如今,在AR技术的加持下,你的困扰有望得到解决啦!


最晚2026!苹果研发的AR眼镜,又放鸽子了?
你敢相信吗?令全球「果粉」望眼欲穿的AR眼镜,发布时间竟然又又又又推迟了!知名分析师Jeff Pu表示:由于设计问题,苹果的第一款AR眼镜已被推迟至2025,最晚则可能在2026年问世。


AR导航让出行变得更简单
随着AR技术日趋成熟,各大企业纷纷入局AR领域,越来越多的AR应用走进了大众生活。目前为人所熟知的不仅有AR游戏、AR滤镜等偏娱乐性的AR应用,而且还有一些更偏实用性的AR应用,比如AR导航。

 
推荐阅读
强化学习,商业化之路宣告死亡了吗?
继DeepMind推出AlphaGo已过去7年,强化学习在游戏行业有了不少应用,例如游戏陪玩、AI托管等。到目前为止,我们回顾自热潮掀起,再到质疑声频出,强化学习是否真的挺进各行各业?它创造商业价值了吗?


突发!比亚迪半导体终止IPO,原因亮了
比亚迪半导体,突然终止了IPO,最新消息一经披露,直接炸开了锅。比亚迪半导体独立上市的相关筹划工作,早在2020年就已启动。但没想到会以这样的方式告一段落。官方表述里的原因竟然是。。。。。。


一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)
由于交通参与者的不同策略、交通参与者与环境之间的复杂交互、感官信息的不确定性,AV的计算负担和计算时间要求,如何准确预测交通参与者的未来轨迹正引起人们的关注,并成为提高自动驾驶安全性的关键点之一。

 
课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

  1. 紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合
  2. 熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础
  3. 课程包含图文、代码、视频,降低学习门槛
  4. 李超精准讲解,及时详细解答

点此「立即订阅」

还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周
热门视频

Monibuca的架构演进

李宇翔/Web端实时音视频SDK开发