音视频技术开发周刊 | 238

LiveVideoStack 2022年3月28日
▸ 视频技术
整个世界都是你的绿幕:这个视频抠图换背景的方法着实真假难辨
绿幕是影视剧中抠图、换背景的利器,但如果不在绿幕前拍摄,我们还能完美地转换背景吗?华盛顿大学的研究者最近就上传了这样一份论文,不在绿幕前拍摄也能完美转换视频背景,让整个世界都变成你的绿幕。

使用边缘计算来增强流传输
本次演讲将深入探讨跨多个供应商使用边缘计算平台的细节,以通过即时和全球可扩展的方法为现有媒体流实施新功能。

我们如何建立一套无参考视频质量评价体系?
在实时互动无处不在的今天,视频质量是反映终端用户体验的重要指标。单纯依赖人工实施大规模的实时评估是不现实的,因此视频质量自动化评估体系的搭建与推广是大势所趋。

H264 视频文件如何缩放分辨率?
前几天在知识星球里面有位朋友请教问题:如何将 H264 视频缩放分辨率?将 800x600 的 H264 文件缩放成 400x300 的,大概的流程是先解码,得到 AVFrame 后对其做缩放操作,然后再编码,得到 AVPacket 后写入文件即可。
 
▸ 音频技术
基于频域卷积传递函数的盲源分离研究获得进展
音频信号的盲源分离最初是为解决“鸡尾酒会问题”发展起来,它在人机语音交互、自动会议纪要、人声和配乐分离等方面有潜在的重要应用价值。

音视频开发之旅(二)AudioRecord录制PCM音频
AndroidSDK提供了两套音频录制的API,AudioRecord和MediaRecorder。其中MediaRecorder是更加上层的API,他可以直接对手机麦克风录入的音频数据进行压缩编码(比如 mp3),并存储为文件。

移动端高性能、低延迟音频库
移动端上的很多音频场景都会有低延迟的要求,比如k歌应用,会有耳返需求。耳返主要实现监听的功能,在低延时的情况下可以给主播一个比较真实音频的反馈,技术实现上来说就是要实时地把录制进的音频数据立刻播放出去,当然这个过程要低延迟。
 
▸ 编解码
视频编解码芯片设计原理----06 分像素运动估计
本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。

iOS AVDemo(5):音频解码,免费获得源码丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第五篇:iOS 音频解码 Demo。
 
▸ 开源
大厂白嫖拖垮开源!开源届码农:用户脾气大需求多还不给钱
现在,开源软件界或即将到达必须变革的临界点:被大厂白嫖的既有模式不可持续,开源码农必须得到相应尊重和报偿。

龙芯FFmpeg进入5.0时代,全力支持LoongArch生态
2022年1月,FFmpeg社区正式对外发布FFmpeg 5.0版本,新版本集成了对LoongArch的生态支持和优化。本文就龙芯中科FFmpeg 5.0版本工作及规划进行系统介绍。

FFmpeg 中 AVPacket 与 AVFrame 中数据的传递与释放
这里我理解在AVFrame与AVPacket传递流转的过程中并不会去每次创建和拷贝音视频数据,音视频数据被存储在AVBuffer中,而AVFrame与AVPacket在流转时进行浅拷贝,只有调用其对应unref时,会减少AVBuffer中的引用计数,最终释放内部存储音视频数据的buffer。

一文简述FFmpeg
FFmpeg是一款开源软件,用于生成处理多媒体数据的各类库和程序。FFmpeg可以转码、处理视频和图片(调整视频、图片大小,去噪等)、打包、传输及播放视频。

FFmpeg 源码分析-转码5
本系列 以 FFmpeg4.2 源码为准,FFmpeg 源码分析系列以一条简单的命令开始,ffmpeg -i a.mp4 b.flv,分析其内部逻辑。本文主要分析 process_input_packet() 的内部逻辑。
 
▸ 网络传输
WebRTC系列分享 | WebRTC视频QoS全局技术栈
WebRTC真是一套让人既爱又恨的开源代码。一方面,WebRTC里面有一套很完善很系统的QoS策略。但另一方面,WebRTC代码庞大且版本更新迭代特别快,代码的阅读和学习难度很大。为了方便大家学习了解,我们在这里对WebRTC的QoS思想及算法实现做了一些梳理总结,以系列分享的方式呈现给大家,供大家参考。

WebRTC 教程(1)
本文是 Engineering Semester 的 WebRTC 教程第一部分,主要介绍了 WebRTC 是什么,其和 Websocket 的异同,WebRTC 信令,架构和 API 入门。
 
▸ 人工智能
只用一张训练图像进行图像的恢复
计算机视觉的深度学习应用往往需要大量的图像数据集,现在我告诉你,只有一张图像也可以训练,是不是非常神奇?

AI靠语意理解把照片变抽象画,无需相应数据集,只画4笔也保留神韵,有毕加索内味儿了
只用几笔,如何勾勒一只动物的简笔画,很多人从小都没整明白的问题——,如今AI也能实现了。其实AI画抽象简笔画比人更难。既要准确地理解语义,又要在几何上相似,才能让抽象画看起来有“像”的感觉。

CVPR 2022 | 惊呆了!只用一张图+相机走位,AI就能脑补周围环境!
让AI根据一个画面,就推测出后面的内容,这个感觉是不是和让AI写文章有点类似?实际上,研究人员这次用到的正是NLP领域常用的Transformer。
 
▸ AR/VR
AR导航背后的秘密,你知道多少?
自打用过AR驾车导航/AR步行导航,很多小伙伴直呼黑科技真香!今天小德带大伙儿一块拆解AR导航,看看这款黑科技背后的秘密~

构建呈现二手车VR体验(上篇)
VR技术日趋成熟,元宇宙概念的大热又重新将VR相关话题搬上台面来讨论,这种新的看空间类商品方式相比传统方式更具沉浸感和互动性。58集团旗下的临感品牌作为全国领先的3D空间数字化平台自2017年起开始布局VR相关领域,今年在二手车领域中的探索得以落地。

虚拟现实技术在帕金森病冻结步态康复中的应用进展
在平衡和协调康复方面,Ding等结合强制性运动疗法原理对Nintendo Wii Fit游戏系统进行改造,构建一款基于虚拟现实的下肢平衡康复训练系统:患者双脚站在两块平衡板上,通过双脚用力,动态控制压力中心,操控虚拟人的运动。
 
▸ 图像
浅谈单图像三维重建算法
本文简单带大家看一下单图像三维重建相关的论文。写这篇文章算是对之前的一点总结。在开始讨论之前先说一下为什么要做单图像三维重建,原因其实很直观。总结起来就是两个字,“需要”。

从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
在这篇论文中,研究者提出了 OUR-GAN,这是首个单样本(one-shot)超高分辨率(UHR)图像合成框架,能够从单个训练图像生成具有 4K 甚至更高分辨率的非重复图像。
 
▸ 智能汽车与自动驾驶
自动驾驶汽车如何解决复杂交互问题?清华联合MIT提出M2I方案
来自清华、MIT的研究团队提出了一种基于自监督学习的方法,让自动驾驶模型从已有的轨迹预测数据集中学会正确判断冲突中的礼让关系。

自动驾驶感知中的深度学习
自动驾驶是一种自主决策系统,它处理来自不同车载来源的观测流,如照相机、雷达、激光雷达、超声波传感器、GPS装置和/或惯性传感器。这些观察结果被汽车的计算机用来做驾驶决定。

万字解读自动驾驶系统中视觉感知模块的安全测试
由于深度学习系统的行为缺乏可解释性,测试基于深度学习的自动驾驶系统的安全性极具挑战性。针对基于视觉感知的自动驾驶系统,设计开发了一种场景驱动的、可解释强的、运行高效的安全性测试系统。

一文解析自动驾驶汽车决策控制系统技术
自动驾驶系统是一个集环境感知、决策控制和动作执行等功能于一体的综合系统,是充分考虑车辆与交通环境协调规划的系统,也是未来智能交通系统的重要组成部分。本文着重分析自动驾驶决策控制的相关技术,探索未来的发展方向。
 
▸ 推荐阅读
刚刚,钉钉宣布买下拍乐云
3月18日,资本市场传来一则重磅消息:钉钉已完成对音视频平台服务公司拍乐云的全资收购,拍乐云核心团队整体加入钉钉,创始人赵加雨还将担任钉钉音视频事业部一号位。

扎克伯格眼中的Meta,和他的元宇宙野望丨深度
马克·扎克伯格作为Meta的首席执行官,他第一次在公众面前谈到元宇宙的时候就说过:“(元宇宙)这可能看起来像一个笑话或者是骗局,但不得不说,这一定是未来这个世界的形态。”可以说马克·扎克伯格就是元宇宙的开发者先驱之一。

对话美摄科技侯康:提升技术,拓展场景 美摄智能汽车视频处理方案已就位
来自美摄科技的算法工程师侯康,他向我们介绍了过去的一年美摄科技在音视频领域关注的重点、在美摄汽车智能剪辑方案开发过程中所做的工作、研发过程中遇到的“坑”以及最近推出的桌面端深度视频编辑解决方案“美映PC版”等。

流媒体“外卷”
音视频行业的机会在哪里?也许本文能提供一些视角和思路。本文由LiveVideoStack与腾讯云副总裁李郁韬的对话整理而成,在不影响原意的前提下部分内容有所删改。

众说元宇宙及其实现
本篇文章不会去过多地讨论现在围绕元宇宙的诸多活动(科技巨头想要通过它们来占有我们更多的数据、金钱以及精神世界)。但我们也必须承认:下一代互联网框架之战已经开始了。
 
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周