音视频技术开发周刊 | 227

LiveVideoStack 2022年1月4日

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。



直播新玩法背后的音视频技术演进

近年来,直播改变了许多行业模式,其形态在不断的演进中也逐渐丰富起来。直播在字节跳动中衍生出了KTV歌房、直播答题、互动游戏、电商拍卖及企业直播等不同场景。本次分享我们邀请到火山引擎视频云音视频直播客户端研发负责人——徐鸿,向大家介绍直播场景中沉淀下的优秀架构能力和技术能力。


微博HDR视频的落地实践

社交平台以日渐成为我们日常生活中不可或缺的一部分。从文字、语音再到视频,用户对社交平台中的视频类信息越发依赖,这也促进了视频体验优化的发展。随着HDR的普及,微博用户也希望获得更好的视频体验。本次LiveVideoStackCon 2021 音视频技术大会 北京站,我们邀请到了微博客户端播放器研发负责人——刘文,他向我们分享了微博在HDR视频方面的落地实践。


基于AVS3的全I帧8K浅压缩编码实践

本文对AVS3标准进行扩展以支持4:2:2色度采样格式,针对AVS3的全I帧编码研发了基于CPU+GPU的混合编码框架,同时设计实现高效并行机制,实现了8K 50P 10bit 4:2:2的实时编码效果。通过对AVS3全I帧浅压缩的实践,验证了其不仅可以满足实际应用需求,而且在压缩率上比现有方案体现出明显优势。


Android FFmpeg + MediaCodec 实现视频硬解码

本文将利用 FFmpeg+ MediaCodec 做一个播放器,实现视频的硬解码和音视频同步等功能。


超高清时代编码技术应用与发展的现状

超高清电视的视频数据量巨大,对视频编码技术提出了挑战,为了更好地适应超高清时代编码技术需求,国内外相关机构都开展了超高清编码技术的研发和应用。本文对国内外超高清视频编码标准相关情况及关键技术进行了介绍,并对比分析了几种浅压缩编码技术的性能,为超高清编码技术实际应用提供参考。


从 RTC 走向元宇宙

元宇宙无疑是是当下产业和技术的热词,成为近期全球科技领域炙手可热的新概念。上海交通大学 Medialab 的宋利老师最近就这一热点话题,做过多次访谈或技术报告,包括上海人民广播电台长三角之声《思创空间》、上海科技报《科技会客厅》、数字电视与无线多媒体通信国际论坛(IFTC2021) 、视频体验联盟(VEA)、以及百视通、华为等企业。最近受邀在 RTSConf 2021(12 月 26 日,线上)做了“从 RTC 到元宇宙”的分享。


索尼360 VME空间音频技术解析:可打造虚拟的专业混音室

我们都知道,理想的VR体验不只需要沉浸、清晰的视觉效果,还需要模拟逼真的体感环境,而具有空间感的3D音频也同样重要。在VR中常用到两种音频,即Object Based Audio和Ambisonic。


其中,Ambisonic可应用于3DoF全景VR视频。指的是一种高保真的立体声像复制技术,特点是将声源贴在360°全景视频上,又称为full-sphere环绕音频。而Object-based音频则是一种将声源与位置信息结合的技术,原理是在空间中特定位置,放置支持实时渲染的声源,为体验者提供具有空间感的声音效果。


旅行中的增强现实:增强现实(AR)如何丰富游客度假体验

如果你玩过 Pokemon Go,尝试过宜家的应用程序来选购家居,用过抖音各式各样的滤镜,沉迷过美图相机的各种风格妆效,那么你已经与增强现实有了短暂的接触。增强现实的本质是改变我们所见的事物,增强我们的体验并且增加我们探索世界时的乐趣,这项新技术正在渗透进我们生活的方方面面。


Github大盘点!2021年最惊艳的38篇AI论文

2021年是人工智能继续突飞猛进的一年。近日,Github上有人总结出了今年最有趣、最惊艳的38篇关于AI和机器学习论文,值得收藏。


基于Adapter结构进行高参数效率的跨语言迁移学习

本文将为大家介绍「如何使用Adapter(适配器)结构、基于元学习和迁移学习思想对预训练语音识别(ASR)模型进行跨语言的迁移」。


2021 AI技术盘点:预训练模型5大进展

2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展。其中,预训练模型无疑是2021年的重点发展领域。


基于Object Query的机器视觉新思路: DETR及发展

目标检测是计算机视觉的重要任务。DETR模型是面向这一任务的新型端到端方法。它集合了set prediction思想,以创新的object query结构,打破了之前传统的基于人工锚点进行识别再进行重复结果合并的流程。我们将探讨其中的实现原理以及后续的改进工作,这也将帮助我们思考与DETR类似的使用Transformer结构在计算机视觉领域的应用及其特点。


动漫风格迁移AnimeGANv2,发布线上运行Demo

AnimeGANv2 最近发布了一项更新,由社区贡献者开发,通过 Gradio 实现了一个可以在线运行的 Demo,发布在 huggingface 上。


用上 RNN,这个视频抠像工具效果绝了

本文为字节跳动团队发布的视频抠像工具 RVM 代码解析及论文《Robust High-Resolution Video Matting with Temporal Guidance》概要。


图像的表示(2):YCbCr 怎么来的?必看这篇颜色空间发展简史丨音视频基础

在前面的文章《图像的表示(1)》里,我们提出了一个问题:从我们眼睛看见的『画面』,到我们用手机、电脑所处理的『图像数据』,其中经历了什么?从这个问题出发,我们探讨了『图像的定义是什么』和『图像成像的原理是什么』这两个问题,接下来我们继续探讨下个问题:『怎样对图像进行数学描述』。




阅读推荐


音视频出海,如何乘风破浪?

最近几年,以TikTok为首的泛娱乐出海企业的成功让大家看到了中国之外的巨大市场和机会。但面对紧张的国际形势,严格的监管措施,很多跃跃欲试、想要开启出海业务的公司却望而却步:要不要出海?向哪里出海?如何应对“水土不服”?本地化如何开展?海外员工在管理上与国内有何不同?各种不确定性和疑问随之而来。


因此,LiveVideoStack策划了一期出海访谈,我们邀请到三家音视频相关领域的出海企业:四达时代、声网Agora和传音控股,请相关负责人跟大家聊聊出海所面临的机遇和挑战。


中南大学张昊:我非常期待基于AI的图像视频编码技术的创新

本周是2021年的最后一周,在这个迎接新年的日子里,LiveVideoStack有幸邀请到了中南大学计算机学院张昊教授参加我们的年终访谈。过去的十余年时间里,张教授一直致力于视频编码技术的研究,曾发表期刊会议论文共50余篇,拥有专利60余项(授权或申请),主要研究领域包括视频编解码、基于深度学习的图像视频处理、视频分析等。在此次与LiveVideoStack的对话中,张教授分享了他对音视频技术发展与未来创新、元宇宙、音视频人才培养和技术学习等话题的看法和感悟。


苹果发布7项空间音频相关专利

苹果正在优先考虑在AirPods Pro,AirPods Max和未来的混合现实耳机的音频系统上提供空间音频。空间音频与动态头部跟踪为用户提供影院般的观影体验,在观影过程中,声音始终围绕着他们。通过内置陀螺仪和加速计,AirPods Max和你的iPhone、iPad、Mac或Apple TV追踪头部的细微运动,并由此将声音固定在设备上。日前,美国专利和商标局发布了一系列苹果公司与空间音频相关的7项专利申请,这些专利详细介绍了头部运动检测、用户姿态检测等。


行业报告|未来已来:全球XR产业洞察

近日,德勤中国科技、传媒和电信行业推出元宇宙系列报告《元宇宙系列白皮书—未来已来:全球XR产业洞察》,聚焦XR产业发展趋势。


报告指出,多元融合是元宇宙的演变趋势。在元宇宙发展的起步阶段,预计将会形成以各行业为核心的分散化、多中心的元宇宙小生态体系,随后相近的小生态之间开始逐步打通数据与标准,实现相似相融的整合,而成熟阶段的元宇宙目前仍充斥的大量不确定的想象。


LiveVideoStack公众号2021年终盘点

在2021年伊始,我们翻译过Tsahi Levent-Levi关于今年WebRTC流行趋势的文章,文中提到2021年将是“还债”的一年,此前所进行的系统设计、软件架构或软件开发都将迎来最终结果;同时它也将是服务及传输质量不断优化的一年。在供给侧长期大于需求侧的当下,技术迭代的速度远远甩开新需求增长的趋势。或许每当这个时期,大家都会选择沉淀下来等待下一个风口,翘首以盼谁会成为下一只“FlyPig”,率先打破元宇宙与现实的边界。


在此之前还是让我们跟随LiveVideoStack的视角,来看看2021年有哪些内容被大家广泛关注。




活动推荐


【城市沙龙】LiveVideoStack Meet | 南京:

互联网沙漠的音视频发展


2021年LiveVideoStack Meet已成功在北京、苏州、杭州、成都、西安、合肥与上海落地。这一路我们分享对于行业内卷的看法,探讨技术发展方向,也了解到更多二线城市的音视频环境。2022年第一站,将于1月8日南京与大家见面,本次分享内容涵盖人工智能、实时音视频、直播全链路监控、云游戏实践等多方面,快来现场与嘉宾面对面交流吧。


活动时间:2022.01.08 14:00-16:00
活动地点:南京市雨花台区凤信路6号 南京金证科技园3栋1楼路演厅


报名地址:

https://8392623630544.huodongxing.com/event/5628086056100




插图源自Pexels


还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周