音视频技术开发周刊 | 232

LiveVideoStack 2022年2月13日

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

图片

短视频内容理解与生成技术在美团的创新实践
美团围绕丰富的本地生活服务电商场景,积累了海量视频数据。如何通过计算机视觉技术用相关数据,为用户和商家提供更好的服务,是一项重要的研发课题。本次LiveVideoStackCon 2021音视频技术大会 北京站,我们邀请到了美团高级算法专家马彬老师来分享短视频内容理解与生成技术,在美团业务场景的落地实践。

图片

FFmpeg 工具:音视频开发都用它,快@你兄弟来看丨音视频工具
从事音视频开发的程序员几乎都应该知道或使用过 FFmpeg。FFmpeg 是一个开源软件,采用 LGPL 或 GPL 许可证(需要注意这里的开源协议,它具有『传染性』,会要求它的使用方也开源)。我们可以使用 FFmpeg 来进行多种格式音频和视频的录制、转换、流处理功能。

音视频基础概念合集:148 个问题带你快速上车音视频丨音视频基础
这篇文章是为音视频基础的概念建一个索引,方便记忆和查阅。如果你是对音视频方向感兴趣的开发者,强烈建议点赞、收藏、分享。

用于高效跨格式低延迟交付的通用CMAF容器
本文介绍了一种利用通用媒体应用程序格式(CMAF)作为标准化容器格式的方法,结合低延迟HLS(LL-HLS)和低延迟DASH(LL-DASH)中的特定内容编码约束和寻址模式约束,提供跨格式解决方案,最大限度地提高边缘缓存效率,最大限度地降低源存储成本和客户端请求率。

图片

Audio Orchestrator:使用多设备编排沉浸式互动音频
本文主要介绍了 BBC R&D 开发的音频多设备编排工具 Audio Orchestrator 。Audio Orchestrator 可以通过互联网,对多个设备进行音频及图像输出的编排,以增强媒体内容的表现效果。

图片

基于显著性的感知视频编码
本次演讲是对论文《AI based saliency-aware video coding》的讲解。在这篇论文中,介绍了使用基于深度学习的显著性图预测的方式来进行编码的前处理,并将显著性图信息用于改进码率控制的过程以实现更好的客观质量与码率节省。

图片

不完整收录:过去一年字节开源的10个项目丨字节技术年货
字节跳动技术团队过去一年间,以审慎的态度在开源领域稳扎稳打,陆续向社区开放了多个经过内部业务验证的开源项目,也向社区反哺了多个主流开源项目的新特性。

ffmpeg 源码分析-命令行3
本文章以 FFMpeg 4.2.5版本的源码为准,本系列主要分析 ffmpeg_parse_options() 转码的内部逻辑。本系列以一条简单的转码命令开始,ffmpeg -i a.mp4 b.flv 、 a.mp4。

ffmpeg 源码分析-命令行4
本文章以 FFMpeg 4.2.5版本的源码为准,本系列主要分析 ffmpeg_parse_options() 转码的内部逻辑。本系列以一条简单的转码命令开始,ffmpeg -i a.mp4 b.flv 、 a.mp4。

图片

网络损伤工具大乱斗
从互联网诞生开始,网络吞吐量的限制、数据分组的丢失、数据传输的延迟和延迟抖动等人为或意外的状况就紧紧的伴随着互联网的发展。而当今的互联网更是一个拥挤、繁忙和复杂的庞大系统,不同的网络服务和应用以竞争的方式共享相同的网络基础设施收发流量。

什么是HLS(HTTP Live Streaming)?
2009年,Apple推出了HLS(HTTP Live Streaming)——基于HTTP的自适应码率流媒体传输协议。HLS描述了一组通过互联网提供音视频服务的工具和程序。

图片

中国队夺金幕后的「AI手语翻译官」:初次上岗,手语可懂度超90%
在央视频多场赛事中,腾讯 3D 手语数智人「聆语」作为「AI 手语翻译官」,提供了手语解说服务,让处于无声世界中的特殊人群也能「听」到中国举办冰雪赛事的盛况,进一步提升了听障人士的观看体验。

Mimir:通过AI向所有人提供视频服务
这是一个适用于Vimeo播放器的通用ABR解决方案,该算法能自适应全球不同网络状况和全天的网络波动。

AI | 优化背后的数学基础
深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器。

详解AI加速器(一):2012年的AlexNet到底做对了什么?
AI、机器学习、深度学习的概念可以追溯到几十年前,然而,它们在过去的十几年里才真正流行起来,这是为什么呢?AlexNet 的基本结构和之前的 CNN 架构也没有本质区别,为什么就能一鸣惊人?在这一系列文章中,前苹果、飞利浦、Mellanox(现属英伟达)工程师、普林斯顿大学博士 Adi Fuchs 尝试从 AI 加速器的角度为我们寻找这些问题的答案。

详解AI加速器(二):为什么说现在是AI加速器的黄金时代?
在上一篇文章中,前苹果工程师、普林斯顿大学博士 Adi Fuchs 解释了 AI 加速器诞生的动机。在这篇文章中,我们将跟着作者的思路回顾一下处理器的整个发展历程,看看 AI 加速器为什么能成为行业焦点。

图片

揭秘抖音春节爆款 AR 道具背后的“秘密”
临近 2022 年新春佳节,抖音正式启动了温暖中国年活动。为了增加线上的虎年新春氛围,一系列 AR 相机特效上线集成到抖音相机中,日常生活的景观会在抖音的镜头下呈现出各种奇妙的效果。

图片

最全综述 | 图像分割算法
图像分割是计算机视觉研究中的一个经典难题,已经成为图像理解领域关注的一个热点,图像分割是图像分析的第一步,是计算机视觉的基础,是图像理解的重要组成部分,同时也是图像处理中最困难的问题之一。

图形学的春天
通过作者的求学之路,以及工作经历,从浙大CAD&CG实验室,到微软亚洲研究院,再到欧特克(Autodesk),以及VR初创公司,经历了图形学发展的重要阶段。让读者从本文作者回望入行二十周年的经历中,看到了图形学未来的勃勃生机。

针对 YUV420 颜色空间的深度图像压缩研究
在这篇论文中,作者提出了两种方法来调整为 RGB 图像设计的深度图像压缩框架来压缩 YUV420 图像;基于轻量级框架,进一步研究了调整 YUV 通道的训练失真权重时对编码性能的影响。

彩色图像到灰度转换 常见方法汇总与对比
今天来说说图像处理最基础知识,彩色图像与灰度图像转换,一般大家熟知的彩色图像转灰度的公式如下。

图片

【讲堂】聊聊无人驾驶车辆如何感知和理解世界
无人驾驶车辆在运行中需要面对白天、黑夜、黄昏、大风、暴雨、雾霾等自然环境信息,以及道路上行人、车辆、红绿灯等物体信息,车辆究竟是如何做到理解这些复杂的信息?

自动驾驶产业年度总结报告 | 附下载
《2021-2022中国自动驾驶产业年度总结报告》通过对2021年自动驾驶大事件的梳理,从汽车产业价值链、技术发展路径、多场景应用、企业商业模式、核心零部件供应、数据安全这六个维度进行年度复盘与分析。

一文了解自动驾驶汽车“定位”
本节将介绍自动驾驶汽车的定位技术包括:GNSS(全球导航卫星系统),RTK(实时运动定位)和惯性导航。


阅读推荐

当谈论元宇宙时,我们在谈论什么?
“元宇宙”这个词对人们来说有不同的含义:对一些人来说,它是在一个持久的景观中的沉浸式虚拟现实体验;对另一些人来说,它是一个特定的技术栈;对一些人来说,它是对未来社会的一种展望。

MPEG 第 137 次会议进展
MPEG 第 137 次会议于 2022-01-17 至 2022-01-21 在线举行。在第 137 次 MPEG 会议上,MPEG 需求组(WG 03)发布了一项提案征集令(CfP),征集实现编码器和打包器同步以及相关的分布式媒体资产存储的技术。

Mux收购web端推流直播工具 StreamClub
Stream Club平台即将加入Mux,这是一个让客户能够轻松构建实时视频广播和创建类似工作室的体验的平台。Mux和Stream Club有一个共同的目标——让每个人都可以使用流媒体直播。Mux为开发者提供基础设施,Stream Club为创作者提供现场内容制作体验。

LiveVideoStack年终技术盘点总结
在2021年底,LiveVideoStack策划了一次年终技术盘点,我们向音视频领域的一线技术工作者们发出了约稿邀请,希望他们能够输出一些音视频方向的技术内容。

FPGA交换格式:实现可互操作的FPGA工具
谷歌和Antmicro合作的FPGA 交换格式项目,提供一个统一的框架,以降低开发人员从一种工具快速迁移到另一种工具的准入门槛。Antmicro 和其他 CHIPS 联盟成员正在合作开发 Interchange 格式定义和相关工具,旨在成为 FPGA 行业需要的开发标准。

MPEG-LA发布VVC专利池
上个月,MPEG-LA发布了VVC专利池。此前,Access Advance在2021年7月率先发布了VVC专利池。两大VVC专利池形成对峙,但都没有吸引最重要的企业加入。

Datadog宣布收购CoScreen
CoScreen 现在是 Datadog 的一部分,Datadog是云应用程序的监控和安全平台,也是最成功的科技公司之一。Datadog 让技术团队深入了解他们的系统和应用程序,帮助他们更快地发现、分析和解决问题。

 

还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周