音视频技术开发周刊 | 239

LiveVideoStack 技术沙区 2022年4月3日
视频技术
什么是体积视频?
本文介绍了体积视频(Volumetric Video)的解释,创建体积视频所需的设备,并给出了具体的用例。

原创干货 | 入门或者转行音视频,应该要怎么做?
想从事(入门或者转行)音视频开发,要怎么做?很多人对此都有疑惑,不光有工作多年的职场老司机,也有求学期间的研究生同学们,本文帮你分析到底要不要从事音视频开发工作,以及如果从事音视频开发要怎么做?

虎牙直播在AI实时剪辑技术上的创新实践
如何让用户快速甚至实时地回顾到直播中的精彩镜头成了我们关注的问题,直接的人工剪辑需要耗费大量人力,我们希望通过设计算法来自动剪辑,将好看的精彩镜头实时呈现给观众。

Google Widevine及其工作原理
在本文中,我们将深入了解谷歌的Widevine DRM解决方案——它是一种流行的DRM解决方案,在Web和移动生态系统中获得了广泛支持。

FFmpeg 源码分析-转码6
本系列 以 FFmpeg4.2 源码为准,FFmpeg 源码分析系列以一条简单的命令开始,ffmpeg -i a.mp4 b.flv,分析其内部逻辑。本文主要分析 process_input_packet() 的内部逻辑。
 
音频技术
iOS AVDemo(6):音频渲染,免费获得源码丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第六篇:iOS 音频渲染 Demo。

5G Edge-XR 中的音频处理
本文主要介绍了 5G Edge-XR 及其所使用自动声源识别和混音的机器学习方法。利用GPU加速,5G Edge-XR 在云上部署了创新的算法,使得音频内容可以实时自动混合,为观众提供个性化、沉浸式和交互式的体验。

音视频开发之旅(三)AudioTrack播放PCM音频
Android SDK 中提供了三种播放声音的API,常见的是MediaPlayer和AudioTrack
其中AudioTrack管理、播放单一音频资源。可以将PCM音频数据传输到音频接收器,以供播放,只能播放源码流即PCM。
 
编解码
视频编解码芯片设计原理----07 重建环路
本文给出了HEVC重建环路的相关背景知识,并在此基础上分析了VLSI实现下重建环路所面临的实际问题,并有针对地在模块层次和架构层次对重建环路进行了优化。

AV1编码现状(2022.1)
本文主要对 AV1 编码器就如下几方面进行概述:发展历程、2022 年应用情况、设备部署和性能。此外,主讲还简要介绍了基于 Bitmovin 编码器的 AV1 编码流程。
 
开源
小目标检测、图像分类、图像识别等开源数据集汇总
本文收集整理了多个小目标检测、图像识别、图像分类等方向的开源数据集,本次还有猫咪、斯坦福狗狗数据集以及3D MNIST数字识别等~

TensorFlow基础入门十大操作总结
TensorFlow 是一个开源的、基于 Python 的机器学习框架,它由 Google 开发,提供了 Python,C/C++、Java、Go、R 等多种编程语言的接口,并在图形分类、音频处理、推荐系统和自然语言处理等场景下有着丰富的应用,是目前最热门的机器学习框架。

如何在OpenCV中使用YOLO
今天,我们将研究如何在OpenCV框架中使用YOLO。YOLO于2016年问世,用于多目标检测,它与OpenCV框架兼容,但我们需要下载“ yolov3.weights”和“yolov3.cfg”。
 
网络传输
云视频传输中的记时与同步
本次演讲主要介绍了在视频云服务中的传输问题,介绍了其中同步的重要性,并给出了对于视频处理和传输流程中的延时记录和同步处理的解决框架。

如何实现 LL HLS
在本教程中,我将回顾创建流媒体过程,测试我们制作的流的延迟,并介绍一些有价值的资源,让你熟悉 LL HLS 的当前性能包络。

一网打尽车载以太网之SOME/IP(上)
你知道什么是SOME/IP吗?你知道为什么会产生SOME/IP即相关背景吗?你知道SOME/IP与SOA又有着哪些千丝万缕的联系呢?SOME/IP在实践中到底应该如何使用呢?今天,我们就来一起探索并回答这些问题。
 
人工智能
GNN for Science: 腾讯AI Lab、清华共同发文综述等变图神经网络
在这篇综述里面,我们系统性的梳理了近年等变图神经网络的发展脉络,并且提供了一个简洁的视角帮助读者能够很快的理解这类网络的内涵。我们还详尽阐释了当前的挑战和未来的可能方向。

PP-YoLoE | PP-YoLov2全面升级Anchor-Free,速度精度完美超越YoLoX和YoLov5
PP-YOLOE是基于PP-YOLOv2的卓越的单阶段Anchor-free模型,超越了多种流行的yolo模型。PP-YOLOE有一系列的模型,即s/m/l/x,可以通过width multiplier和depth multiplier配置。

端到端深度学习项目:第1部分
第1部分介绍了问题陈述的设置、数据预处理、迁移学习背后的直觉、特征提取、微调和模型评估。

FP-DETR:通过完全预训练提升transformer目标检测器
最近,Detection Transformer[4,5,6,7]提供了一种简洁的目标检测框架,在实现端到端的同时也取得了不错的检测性能。
 
AR/VR
庞贝古城千年废墟复活:VR模型与眼动追踪复现被火山灰掩埋的建筑
VR技术现在已经进展到,即使古迹被火山灰埋了两千年,也可以复现出当年的原貌,还能为游客定制观景体验啦。

2022 GDC AR/VR盘点:游戏产业化趋势势不可挡
2022年GDC在美国旧金山于3月21日至25日召开。本次大会上出现了诸多令人眼前一亮的精彩瞬间,本文将会为大家呈现。
 
图像
ICCV 2021 | R-MSFM: 用于单目深度估计的循环多尺度特征调制
深度估计的目的是确定图像中每个像素的深度。从计算机视觉的早期阶段开始,对图像的深度估计就一直是研究者面临的主要挑战之一。深度估计作为一项低级任务,需要完成高级任务,包括三维重建、自动驾驶、三维目标检测、水下图像恢复等。

超详讲解图像拼接/全景图原理和应用 | 附源码
图像拼接是计算机视觉中最成功的应用之一。如今,很难找到不包含此功能的手机或图像处理API。在这篇文章中,我们将讨论如何使用Python和OpenCV执行图像拼接。
 
智能汽车与自动驾驶
波恩大学最新开源!自动驾驶场景自监督三维点云表征学习无需标注
在本文中,我们提出了一种在自动驾驶场景中 3D 点云数据的表征学习算法。我们提出了一种新的对比方法,旨在学习场景中不同结构和物体之间的关系和特征。

万字综述车载摄像头
车载摄像头被誉为“自动驾驶之眼”,是ADAS系统、汽车自动驾驶领域的核心传感设备。主要通过镜头和图像传感器实现图像信息的采集功能,可实现360°视觉感知,并弥补雷达在物体识别上的缺陷,是最接近人类视觉的传感器。

《软件定义汽车服务API参考规范》第二版发布
2022年3月30日,中国汽车工业协会SDV工作组发布了《软件定义汽车服务API参考规范》2.0正式稿,本正式稿通过广泛征集工作组成员意见,并针对广大整车厂/零部件供应商/软件开发等企业在智能汽车开发过程中提出的优化建议进行评审,以确保软件定义汽车服务API标准规范满足产业落地需求。
 
推荐阅读
对话七牛云技术总监陈辉:音视频行业中的新系统新规划和新增长
我们有幸地采访到了七牛云技术总监陈辉,聊一聊这半年来七牛云在以音画质量为主线,结合自身 QRTC 产品进行的迭代和创新;以及七牛云未来在 RTC 方面的规划等内容。

音视频PaaS的“未毕之旅”
本文由LiveVideoStack和赵加雨的对话整理而成,旨在还原一名技术创业者的思考,涉及创业、RTC与音视频PaaS、to B SaaS、出海和钉钉生态。

从30天到1天,专业视频制作背后的技术探索之路
近日,LiveVideoStack采访到了视杏科技的创始人&CEO李志强,请他来跟大家谈谈市面上内容生产工具和解决方案普遍存在的痛点、视杏科技旗下的专业视频内容制作神器VE引擎、视杏科技的技术创新和研究重点以及海外市场探索等话题。

屏幕发声 | 扬声器和麦克风二合一的智能屏幕离我们还有多远?
“我们的目标是让显示器——或任何平面——成为扬声器、麦克风和触摸界面。”音频和音乐工程专业的Ben Kevelson是罗切斯特大学团队的一员,该团队致力于设计可以作为声学和触觉界面的平面,不需要外部麦克风或扬声器。
 
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周
热门视频

用互联网发展视角看元宇宙创新

龙明康/AI工程院常务副院长

单目3D人体姿态估计的挑战和探索

宋波/人工智能高级工程师