LiveVideoStack » 音视频技术开发周刊 | 270

音视频技术开发周刊 | 270

FFmpeg 语音识别 VVC 硬件解码 HTTP/3

LiveVideoStack 2022年11月6日

视频技术

对话火山引擎王悦：多媒体继续向更高清，更交互，更沉浸演进
火山引擎支撑起了字节跳动旗下的音视频能力，支持数亿DAU，为每天数千亿次播放与互动提供保障，他们是如何做好这一切的？除了数据驱动、A/B测试还有哪些深度的思考与方法呢？

关于 YUV 格式的一些总结
YUV，是一种颜色编码方法，常使用在各个视频处理组件中。YUV 主要是用在彩色电视中，用于模拟信号表示。YCbCr 是用在数字视频、图像的压缩和传输，例如H264、HEVC、JPEG、MPEG均采用此格式。一般人们所讲的YUV大多是指YCbCr。

B站直播间基于视图交互的架构演进
直播间是一种单页面强交互型业务场景，一个业务就经常需要会关心其他业务的状态，因此垂直方向拓展业务场景就会很多，直播间中的业务几乎都是在垂直屏幕方向上进行拓展的。

音视频、人脸和物体识别项目工程代码框架解析！
大家好，今天继续给大家分享之前的音视频、人脸识别项目，目前整个项目的工程代码已经开放了出来，具体大家可以到gitte和github上下载下来学习，今天主要是给大家分析两个项目工程的整体代码流程框架。

音视频生产关键指标：视频录制优化丨音视频工业实战
视频录制过程包括采集音视频数据，做滤镜、美颜、特效等图像处理，这些部分的优化类似采集预览流畅度优化，所以策略也类似。

FFmpeg filter浅析--中篇
本文主要讲解FFmpeg filter相关API和走读官方examples/filtering_video.c示例。

音频技术

西工大实验室负责人谢磊教授—智能语音技术新发展与发展趋势
本文总结于西工大音频语音与语言处理实验室负责人谢磊教授在公开课——智能语音技术的新进展与发展趋势—NPU-ASLP视角，汇报了实验室在智能语音技术方面的一些进展。

应用于语音识别的基于石墨烯的传感器
清华大学团队根据语音的生成机制开发了一种基于石墨烯的融合肌电电极和力学传感器的双生物通道传感器（DGEMS）用于采集佩戴者说话时下颌部和喉部的肌电信号和力学信号。

论文推介：MFCCA--基于多帧跨通道注意力机制的多说话人语音识别
该论文考虑到麦克风阵列不同麦克风接收信号的差异，提出了一种多帧跨通道注意力机制，该方法对相邻帧之间的跨通道信息进行建模，以利用帧级和通道级信息的互补性。

sherpa + ncnn 进行语音识别
本文详细介绍了如何使用 sherpa-ncnn 进行语音识别，涉及到模型转换、模型验证、sherpa-ncnn 的安装及使用方法。

编解码

新一代视频编码标准VVC的芯片设计思考
LiveVideoStackCon2022上海站大会邀请到了复旦大学微电子学院的范益波老师和和大家一同探讨了针对新一代视频编码标准VVC的芯片设计和思考。

音视频开发之旅（36) -FFmpeg +OpenSL ES实现音频解码和播放
在Android上还有一种播放音频的方式即OpenSL ES, 什么是OpenSL ES，这个我们平时接触的很少，下面我们一起来学习实践吧。

硬解码和软解码的比较！
对于视频的传输而言，解码的认识应该是基础的。那么什么是软解码，什么又是硬解码呢？之间的差异在哪里呢。难道只是专有名词的不同吗？其实他两个的区别很明显！

视频压缩足够好了吗？
WS Elemental 的首席软件工程师 Ramzi Khsib 分享了他对视频编解码的现状和未来前景的看法，讨论了 AVC、HEVC、VVC 和 AV1 的市场采用情况，内容自适应编码，硬件与软件的实现，以及如何利用机器学习工具提高现有编解码器的压缩效率。

MPAI-EVC编码标准简介
本文介绍一种利用AI工具来增强传统视频编码的编码标准，主要简单介绍一下该标准目前的发展状况。

传输网络

HTTP/3特性分析及未来发展
正如我们之前所说，HTTP/3的大部分潜力来自底层的QUIC，而非HTTP/3本身。虽然HTTP/3的内部实现非常不同于HTTP/2，但是它们的高层性能特性和使用方式仍然保持一致。

无人驾驶时代的室外组网技术研究
车载自组网是专门为车辆间通信而设计的自组织网络，它创造性地将自组网技术应用于车辆间通信，使司机能够在超视距的范围内获得其他车辆的状况信息(如车速、方向、位置、刹车板压力等)和实时路况信息。

论文推介：TEA-PSE 2.0--用于实时个性化语音增强的子带网络
在通话过程中语音质量往往受到背景噪声、混响、无关说话人等干扰的显著影响。有效的语音增强在 RTC 系统中起着至关重要的作用。

开源技术

深度解析字节跳动开源数据集成引擎 BitSail
BitSail 是字节跳动开源数据集成引擎，支持多种异构数据源间的数据同步，并提供离线、实时、全量、增量场景下全域数据集成解决方案，目前支撑了字节内部和火山引擎多个客户的数据集成需求。经过字节跳动各大业务线海量数据的考验，在性能、稳定性上得到较好验证。

这个开源太强了！智能标注10倍速、精准人像分割、3D医疗影像分割！
图像分割是计算机视觉三大任务之一，基于深度学习的图像分割技术也发挥日益重要的作用，广泛应用于智慧医疗、工业质检、自动驾驶、遥感、智能办公等行业。

EV感知的开源数据集分享
本篇介绍的数据集涵盖了真实世界的图像数据、点云数据和仿真构建的自动驾驶场景数据。所有这些数据集都提供了有价值的信息，研究人员可以利用这些数据集来帮助自动驾驶汽车开发BEV感知算法。

一个没有KPI的国产编程语言，开源3个月有了哪些新进展？
凹语言（凹读音“wā”）是国内 Gopher 针对 WASM 平台设计的通用编程语言。凹语言正式开源不知不觉已经过去一个季度，这是凹语言开源的第一个季度的非正式总结，也是对未来的计划和展望。

人群计数、行人检测等开源数据集资源汇总
本文收集总结了一些行人检测、人群计数相关的开源数据集资源，均附有下载链接。

课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

→点此「立即订阅」

图形图像

边缘检测算法综合指南
将边缘检测算法应用于图像可以显着减少要处理的数据量，因此可以过滤掉可能被认为不太相关的信息，同时保留图像的重要结构属性。在这篇博客中，让我们了解 Canny 边缘检测器和整体嵌套边缘检测器。

12个常用的图像数据增强技术总结
本篇文章只讨论“图像”数据增强技术，只详细地介绍各种图片数据增强策略。我们还将使用 PyTorch 动手实践并实现图像数据或计算机视觉中主要使用的数据增强技术。

单像素成像图像智能处理算法
近十多年来，科学家们在探索一种新型的“单像素相机”，即图像传感器只包含一个像素，这种另类的光学成像方式就是“单像素成像”。那么单像素相机又是怎么工作的呢？

veImageX演进之路:HEIF图片编码压缩与优化
压缩技术对于图像、视频应用十分重要。在保证同样主观质量的前提下，如何将图像压缩到更小体积便于互联网信息传输？

计算机视觉

入门必读系列（四）Transformer模型
本文回顾了ViT的结构，总结了计算机视觉中的transformer的主要改进思路：改进分块，改进位置编码，改进Encoder，增加Decoder。每个思路下都介绍了相关的论文，介绍了这些论文的提出出发点和改进思路。

增强算法真的有效? 无需增强，直接训练，解决低光照场景下的目标检测问题
针对暗光场景下的high-level vision task中存在的一些问题：1.图像质量差 2.图像增强手段容易失效 3.数据集规模小，作者提出了一种新的多任务自动编码转换（MAET）模型。该工作已经收录于ICCV2021。

X射线图像中的目标检测
在本项目中，我们将一起探索几个基于深度学习的目标检测模型，以对X射线图像中的违禁物体进行定位和分类为基础，并比较这几个模型在不同指标上的表现。

使用 OpenCV 处理图像和视频
在本文中，我将介绍如何使用 Python 的 OpenCV 库开始处理图像和视频。在本文中，我将介绍如何使用 Python 的 OpenCV 库开始处理图像和视频。

AdaptivePose++：开辟多人姿态估计新思路，速度快、精度高
来自北邮、鹏城实验室等单位的学者提出将人体部位表示为自适应点集，并引入一种细粒度的身体表示方法，这种表示能够充分编码各种姿势信息，并在单次前向传递中有效地建模人体实例与相应关键点之间的关系。

人工智能

像背单词一样搞定机器学习关键概念！机器学习通关（1）
“如何高效学习机器学习关键概念？”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念，并彩笔手绘，制作了这份精美的小抄。

700+机器学习术语！
本文是几位机器学习权威专家汇总的725个机器学习术语表，非常全面了，值得收藏！

万字长文解析cv中的注意力机制
注意力机制是机器学习中嵌入的一个网络结构，主要用来学习输入数据对输出数据贡献；注意力机制在NLP和CV中均有使用，本文从注意力机制的起源和演进开始，并主要介绍注意力机制以及在cv中的各类注意力机制。

图神经网络从入门到入门
文从一个更直观的角度对当前经典流行的GNN网络，包括GCN、GraphSAGE、GAT、GAE以及graph pooling策略DiffPool等等做一个简单的小结。

神经网络的简单偏好，5年心得分享
本文作者分享了自己从事深度学习五年来，围绕神经网络的简单偏好的研究总结，比如算法适合什么数据，不适合什么数据，希望能对各位读者有所帮助。

【深度学习】7大类卷积神经网络(CNN)创新综述
本综述将最近的 CNN 架构创新分为七个不同的类别，分别基于空间利用、深度、多路径、宽度、特征图利用、通道提升和注意力。

智能汽车与自动驾驶

最全自动驾驶数据集分享系列三｜车道检测数据集
目前关于自动驾驶数据集你想知道的，应该都在这里了，这是「整数智能」自动驾驶数据集八大系列分享之系列三，本文是<系列三车道线检测数据集>，共包括10个数据集。

浅谈自动驾驶关键一环：感知前沿技术
本文总结于Waymo研发经理周寅博士在深蓝学院的讲座—《自动驾驶感知前沿技术介绍》。讲座内容主要包括自动驾驶系统的总览，自动驾驶感知的介绍，以及感知的前沿动态和总结。

自动驾驶长尾难题解法 | Nvidia 自动驾驶仿真神经重建引擎
Realism是不是一个困难的问题，取决于我们对自动驾驶问题的认知是否有效和准确。当我们在问和成数据到底真不真实的时候，一个更值得澄清的问题是“什么是我们在乎的真实“？

一文读懂自动驾驶车辆的硬件池
谈起自动驾驶车辆，除了外观可见的传感器的差异，自动驾驶车辆和普通车辆又有哪些不同呢？本篇文章就来带领读者起底一下目前自动驾驶车辆所用到的硬件池技术栈。

目标检测技能点｜一步一步带你实验并重新思考目标检测不同检测头的作用
作为智能驾驶的重要组成部分，目标检测对于确保驾驶安全至关重要。通常，为了平衡FLOP的检测精度，缩放输入分辨率是一种常见的方法。作者回顾了BDD100K数据集上检测模型的细节，意外地发现不同的检测头可以在不同的输入分辨率下匹配不同尺度的目标。

BEV和单目图像车道线检测方法总结
本文主要对主流的车道线检测（包括BEV视角和图像视角）方法进行总结。由于基于深度学习的方法性能远超传统方法，所以本文只总结了基于学习的方法。

AR/VR与元宇宙

对话腾讯音乐天琴董治：聊聊元宇宙与AI技术驱动虚拟人
入局元宇宙需要具备哪些能力？用AI技术驱动的虚拟人从建模到渲染，再到场景应用，当前遇到的瓶颈是什么？腾讯音乐天琴实验室董治老师为您分享一些观点和相关经验。

元宇宙太烧钱！今年以来 Meta Reality Labs 已亏损 94 亿美元，扎克伯格称还将加大投入
Meta 在元宇宙上的亏损是惊人的。财报显示，Meta 的 Reality Labs 在上个季度亏损了 37 亿美元，今年以来已累计亏损了 94 亿美元。2021 年亏损超 100 亿美元。

IEEE VR 机器学习专题（上）
本文整理 IEEE VR 2022 的网络研讨会机器学习专题的上半部分，包含了休闲立体摄影几何、对深度图像分类器的对抗攻击两个工作。

看！我的 iPhone 14 等来了这款 MR 眼镜
一款名为 HoloKit X 的头戴设备，与今年流行的 Meta Quest、Pico 等 VR 一体机、以及 Rokid Air 等 AR 眼镜不同的是，它不仅需要配合一部手机用——还必须是 iPhone，还要有配套的 App。官网的定义更准确：它是一款「iPhone 配件」。

INMO影目科技发布AR眼镜Air2，“元宇宙”应用亮相
10月28日，消费级无线AR眼镜厂商INMO影目科技召开以“去探索”为主题的线上直播新品发布会。INMO第二代AR眼镜 INMO Air2 及智能戒指 INMO Ring 亮相，并发布全球最轻量级SLAM空间算法，以及基于该项技术的重磅“元宇宙”应用——INMOVERSE。

罗永浩AR公司获近4亿元融资，AR成为资本市场新风口
近日，据36氪报道，罗永浩所创立的AR公司——Thin Red Line已完成近4亿元的天使轮融资。目前无论国内还是国外，很多公司都在相继围绕AR领域开展新一轮战略布局。为什么资本市场以及各大企业都如此看好AR呢？

推荐阅读

给算法校招同学的一些建议：观点篇
今天分享知乎作者BigMoyan从个人经验出发，分享一些自己在找工作方面的认知。预计这个文章会有上中下三篇或上下两篇，今天这篇主要输出一些观点。

面试官问你期望的工资是多少，怎么回答最好？
谈薪水作为面试过程中的重要环节，而薪酬谈判的核心就是明确自己的期待和市场情况。本文分享了对于如何谈薪资的建议，祝各位读者都能谈到自己满意的薪资。

中美AI角力场，谁将领跑人工智能的未来？
如果说，未来的世界是AI的世界，AI的未来在中国吗？到了今天，中国可以说是世界上最深入的数字社会，在街角烧烤的小贩喜欢通过手机和二维码收款，日常使用现金的人越来越少。

元宇宙与AI热度不减，Gartner 2023 年十大战略技术趋势完整解
Gartner 2023 年十大战略技术趋势近日新鲜出炉，最受关注的依然是 AI 与元宇宙方向。本文围绕优化、扩展和开拓三大主题，对十大趋势展开了生动详细的解读。

全部评论

作者介绍

LiveVideoStack

相关文章

阅读排行

2周
4周
16周

热门视频

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

/

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

/

「线上分享」AMD面向8K UHD应用解决方案

/

活动推荐

LiveVideoStackCon 2023 深圳站

更多

@2017-2024 LiveVideoStack版权所有. 京ICP备20010033号-1 京公网安备 11010502042092号