LiveVideoStack » 音视频技术开发周刊 | 265

音视频技术开发周刊 | 265

VVC AV1 语音识别视频修复 PyTorch

LiveVideoStack 2022年10月2日

视频技术

音视频开发之旅（30) -音视频基础知识
从这篇开始我们进入FFmpeg系列的学习实践，作为开篇，我们先来了解下音视频相关的基础知识。

Android FFmpeg系列08--seek和精准seek
seek功能的基本实现是比较简单的，不过要做到连续正向&逆向seek播放流畅不卡顿要做的优化点其实是比较多的，本篇文章仅讲述如何使用FFmpeg来实现最基本的seek和精准seek功能。

视频基础知识
B站B端技术中心资深开发工程师姜军为你从0开始讲视频：一系列连续的图片按照一定的速度进行顺序播放，人眼看起来就像是画面中的东西在动，这就形成了视频。

音视频生产关键指标：视频发布优化丨音视频工业实战
这篇文章是音视频工业实战主题专栏中关于视频发布流程的优化。视频发布流程是指视频录制和编辑完成后，对视频进行转码、上传的过程。在这个过程中，我们关注的指标包括发布成功率、发布耗时等。

从0到1000万：哔哩哔哩直播架构演进史
哔哩哔哩直播经过 8 年时间的发展，技术架构从一个单体服务演进为由数百个微服务组成的复杂系统。本文将回顾 8 年来哔哩哔哩直播架构演进中一步步的变化，带你了解它是如何从 0 开始逐渐成为能够承载千万在线的微服务系统。

基于光流的端到端视频修复算法
本文提出了一个端到端的可训练的基于光流的视频修复模型。实验结果表明该方法在两个基准数据集上实现了最先进的定量和定性性能，并且在推理时间和计算复杂度方面非常高效。

音频技术

对话腾讯天琴赵伟峰：当音乐与科技结合，会碰撞出怎样的火花？
腾讯音乐旗下的天琴实验室就如精妙绝伦的天琴一样，为人们带来了完美、流畅的音乐。近些年来，天琴实验室一直致力于音频技术的创新和研发，他们已经推出了听歌识曲、哼唱识别、翻唱识别、智能字幕、智能修音、臻品音质、DMEE等音频创新功能和产品。

中国汽车声学行业综述
汽车声学系统中的核心硬件包括车载扬声器、车载功放以及 AVAS，其中中国自2018年至今已陆续出台多个将AVAS系统规定为新能源汽车强制安装的配套产品的政策负法规，汽车声学行业迎来增量市场。

竞赛获奖系统解读：远场说话人确认中基于两阶段迁移学习解决域不匹配问题
本文介绍了西工大音频语音与语言处理研究组与华为云合作提交在FFSVC2022上的说话人确认系统，提出了一个两阶段迁移学习框架来解决域不匹配的问题。

端到端语音识别应用基于前缀树的热词技术
本文介绍的是关键词即特定场景语料，在序列到序列任务中通过构建状态转移自动机的方法改善最终效果的方案。

编解码

对话Debargha Mukherjee：AV1历史和三个你可能不知道的工具
在这次采访中，你将了解关于AV1开发的重要内容，其中包括使AV1在市场中获得独特优势的三个工具。在采访最后，Debargha还分享了如何最有效地使用新编解码器的秘密，这样你就能够尽可能准确地评估编解码器。

VVC 的精确复杂度控制
文章参考了码率控制的思路，实现了第一个基于 VVC 的编码器复杂度控制方法，无需多轮编码，即可精确达到指定的编码复杂度（绝对时间）。

基于JND的AV1编码器感知率失真优化
本文介绍一篇发表于2019 PCS的论文，该论文提出一种基于JND的AV1编码器感知率失真优化方案，实验结果表明，与原来的AV1相比，所提出的方法可以有效地提高感知编码的效率。

开源

WebRTC开源项目现状
在今天这篇文章中，我们会详述WebRTC开源生态的现状，以及我们为什么需要做出必要的改变以确保WebRTC在未来几年能够健康发展。

能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类
逼近人类水平的语音识别系统来了？没错，OpenAI新开源了一个名为「Whisper」的新语音识别系统，据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性！

开源要正式写进法律了？
美国两党议员近日提出的“保护开源软件法案”，旨在确保联邦政府、关键基础设施和其他机构安全可靠地使用开源软件。该法案也被称为保护开源软件法案，立法一旦成功，它将成为联邦政府更广泛地支持开源软件的健康和安全的历史性一步。

MICCAI 2022 | ASA:用于预训练脑核磁分割的注意力对称自动编码器开源
本文提出了提出了一种基于Vision Transformer (ViT) 的新型注意力对称自动编码器 (ASA)，用于 3D 大脑 MRI 分割任务，在三个脑 MRI 分割基准上优于最先进的自监督学习方法和医学图像分割模型。

传输网络

复杂网络环境下加密流量识别方法研究
互联网络快速发展，流量的变化日益多样和复杂，加密流量占比不断提高给网络安全带来挑战。通过对现有加密流量的主流识别方法进行分析对比，设计了一种适用于大型骨干网加密流量应用识别的系统，以对不同网络环境下的加密流量进行精准分类。

HTTPS的原理浅析与本地开发实践（上）
本文提出了HTTP协议在目前网络传输中存在的问题，然后基于两个典型问题做了合理的方案设想，最终推演出的第四种方案。

HTTPS的原理浅析与本地开发实践（下）
本文将以阿里云证书配置和OpenSSL自签证书配置两种方式来让你的网站从HTTP转换到HTTPS，为系列第二篇，希望这两篇关于HTTPS的浅析能够对你的日常研发过程有所帮助。

课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

→点此「立即订阅」

图形图像

介绍用于图像识别的五大最佳编程语言！
随着人工智能的普及，未来图像识别将越来越受欢迎，图像识别工程师的薪资也让非常多人眼红，想要转行拿高薪，却不知该如何入门！，最好的入门方向就是先学习一门适合图像识别的编程语言。编程语言那么多，最适合图像识别的是哪种呢？

COIN：用隐式神经表示法进行压缩
不同于基于混合编码框架的传统图像编码标准，COIN 利用隐式神经表示法，实现了图像的压缩。

图像对比度增强的硬件实现
本文将介绍一篇2014年发表于TIP的论文，该论文基于AGCWD算法实现了其硬件实现，并提出了一些硬件优化的方案，其方案主要包括算法层面的硬件适应修正以及相应的电路结构优化。

Android相机延时摄影是如何实现的
本篇文章我们来简单聊聊如何实现延时摄影这个功能，延时摄影又叫缩时摄影、间隔摄影或者定时定格摄影，是一种将画面拍摄频率设定在远低于一般观看连续画面所需要频率的摄影技术。

课程 "GAMES101" : 现代计算机图形学入门 —— 光栅化成像
本文将整理 GAMES101 现代计算机图形学第一组成部分：光栅化成像，主要内容包括：变化、光栅化、着色三个部分的基础知识及原理。

计算机视觉

浅谈如何基于深度方法进行三维重建（续）
本文继续带大家了解场景三维重建的一些优秀文章。基于深度图融合方法，尝试直接预测有向距离场（SDF）或截断有向距离场值（TSDF）或occupancy value，从而进行三维重建。

BEV和单目图像车道线检测方法总结
本文主要对主流的车道线检测（包括BEV视角和图像视角）方法进行总结。由于基于深度学习的方法性能远超传统方法，所以本文只总结了基于学习的方法。

机器视觉光源颜色选型攻略
机器视觉光源的作用是将被测物体与背景明显分别，获取高品质的图像，在视觉系统中起着重要作用，选择合适的光源是视觉系统搭建的重要环节。机器视觉光源除了有很多类型也有不同的颜色区分，具体应该如何选择呢？

双目视觉测距原理，数学推导及三维重建资源
通过对两幅图像视差的计算，直接对前方景物进行距离测量，双目摄像头的原理与人眼相似。人眼能够感知物体的远近，是由于两只眼睛对同一个物体呈现的图像存在差异，也称“视差”。

覆盖100余篇论文，这篇综述系统回顾了CV中的扩散模型
在这篇论文中，来自布加勒斯特大学、中佛罗里达大学的 Mubarak Shah（IEEE Fellow）等几位研究者对计算机视觉中的 100 多篇去噪扩散模型论文进行了全面回顾。

人工智能

简单易懂的讲解深度学习（入门系列之九）
损失函数是用来评价模型的预测值与真实值的不一致程度，它是一个非负实值函数。通常使用 L(Y,f(x)) 来表示，损失函数越小，模型的性能就越好。

机器学习中常用的9种距离
在这篇文章中，我们将介绍许多距离度量方法，并探讨如何以及何时可以最好地使用它们。最重要的是，我将谈论它们的缺点，以便你能认识到什么时候应该避开危险。

综述论文：机器学习中的模型评价、模型选择与算法选择！
本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术，并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而，给出建议以促进机器学习研究与应用方面的最佳实践。

机器学习领域最全综述列表！
本文给大家分享github上的干货，一个『机器学习领域综述大列表』，涵盖了自然语言处理、推荐系统、计算机视觉、深度学习、强化学习等主题。

PyTorch深度学习实战：构建神经网络模型(上)
本文继PyTorch深度学习实战：数据读取，基于时间序列预测 Autoformer 源码深入研习深度学习流程管道进行拆解，按照从数据获取与处理，构建模型，模型训练和预测以及其他的一些模块的顺序进行深入研习。

PyTorch深度学习实战：构建神经网络模型(下)
本文是构建神经网络模型的下半部分。上部分主要介绍了模型构建通用方法，接下来我们根据模型架构原理具体学习一个完整神经网络模型的代码实现。

智能汽车与自动驾驶

L0到L4超全介绍！30+自动驾驶方案汇总
本文对自动驾驶等级进行了详细全面的介绍，其中主要介绍了L0-L4等级的相关功能。

超大超全！万字长文详解多领域实时目标检测算法（2022最新）
深度神经网络的最新进展带来了目标检测领域的显著突破。目标检测通过提供目标的位置以及类别标签和置信度分数来同时完成分类和定位。目标检测器可用于多种应用场景，例如自动驾驶系统(ADS)、监控、机器人和医疗保健。

一文聊聊驾驶员疲劳检测系统
DMS为车内人机交互的一大应用领域，DMS在发现驾驶员出现疲劳、打哈欠、眯眼睛及其他错误驾驶状态后，DMS系统将会对此类行为进行及时的分析，并进行语音灯光提示，起到警示驾驶员，纠正错误驾驶行为的作用。

万字综述自动驾驶决策规划中的问题与挑战
随着自动驾驶等级的不断提高，决策规划层作为自动驾驶的大脑，其重要性也随之提高。但与人脑相比，自动驾驶的这颗大脑还有太长的路需要追赶。本文将通过万字详述路径规划中的Motion Planning存在的问题与挑战。

谈一谈自动驾驶中的MPC控制
目前的车辆控制中，最火的控制器就是MPC了。在学校，如果你不做MPC控制，不懂MPC控制，是绝对不好意思说是做车辆控制的。

AR/VR与元宇宙

字节首款VR头显来了：2992元起，光学清晰度提升86%，不拿手柄也能玩
字节跳动在耗资90亿元收购PICO一年多之后，终于推出了自家首款VR头显。这一回，字节一口气推出了两款VR产品：PICO 4和PICO 4 Pro，并都将面向全球市场发售。

国内首个“元宇宙”专业引热议：南京双一流高校推出，3年前刚成立AI学院
一所“双一流”高校，将有着25年历史的“信息工程系”，改名成了“元宇宙工程系”？！自元宇宙大火到现在，这还是“第一个吃螃蟹的高校”。

Meta用一个头显搞定全身动捕，无需手柄和下身传感器，网友：VR终于少点物理挂件了
现在，Meta终于迈出了一大步——只凭头显（甚至不用手柄），就能搞定全身动捕，连双腿的不同动作都预测得一清二楚。有网友调侃，小扎的元宇宙终于要有腿了！

钉钉，元宇宙的“另类”入局者
在9月21日的“数字韧性”2022年秋季钉峰会上，钉钉副总裁、智能硬件生态负责人林锋发布了钉钉与伙伴联手落地的三种解决方案——虚拟演播厅、数字展厅解决方案，以及数字人门禁。这样来看，钉钉入局元宇宙可能不是玩票性质。

推荐阅读

你可以怀疑自动驾驶的安全性，但大数据告诉你：它确实比你开得好
智能驾驶的时代正在到来。虽然每一起智能驾驶事故都会引起人们对自动驾驶的广泛讨论和关注，但数字不会说谎，自动驾驶已经大大降低了交通事故的发生率。

马斯克雷军竞速「机器人」背后，一场机器革命正在发生
前有雷军抢先发布人形机器人CyberOne，后有马斯克即将亮相的特斯拉人形机器人擎天柱。科技大佬都在竞速争夺「机器人」。所以，这股热潮背后，科技巨头们看中的究竟是什么？莫非机器人产业，还真就悄悄迈向了大规模应用前夜，要迎来变现的时间节点了？

Rust 正在「吞噬」我们的系统，C/C++ 是时候下课了
首个 Rust 编写的驱动程序正入驻 Linux，微软 Azure 首席技术官 Mark Russionvich 也直言 C/C++ 这对主流系统语言是时候下课了，Rust 才是未来的发展方向。

全部评论

作者介绍

LiveVideoStack

相关文章

阅读排行

2周
4周
16周

热门视频

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

/

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

/

「线上分享」AMD面向8K UHD应用解决方案

/

活动推荐

LiveVideoStackCon 2023 深圳站

更多

@2017-2024 LiveVideoStack版权所有. 京ICP备20010033号-1 京公网安备 11010502042092号