LiveVideoStack

音视频技术开发周刊 | 233

数据抓包视频稳像超分辨率 OpenCV WebRTC

LiveVideoStack 2022年2月20日

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

数据抓包工具：看看竞品的协议都做了哪些优化丨音视频工具

据抓包是我们做业务测试、竞品分析的常用方法，在直播、短视频等常见的音视频业务场景能有好的数据抓包工具帮助，很多时候也能事半功倍，这里我们就介绍两款常见的数据抓包工具。

可视化音视频分析工具：好用工具大集锦，快转发给你兄弟看看丨音视频工具

工欲善其事，必先利其器。在音视频开发中，为了方便、快捷、直观的分析音视频数据，最好能有一些可视化的分析工具来帮助我们，这篇文章就来介绍一下常见的可视化音视频分析工具。

采用姿态传感器信息的深度在线视频稳像

本文介绍我们最新发表在IEEE Transaction on Multimedia(TMM)的工作，采用姿态传感器信息的深度在线视频稳像。在该论文中，我们构建了含有7种典型拍摄场景的数据集。并且设计了一种自适应地滤波模型，仅使用3或者10帧的缓存，高效地进行路径优化。

1.5K star量，上古老番变4K，B站开源超分辨率算法

最近，GitHub 上一个图像超分辨率的项目火了，一个叫做 Real-CUGAN 的工具可以把动画图像的质量提升 2 到 4 倍，qq 上斗图的表情包也能给你脑补成 4k 品质。

声网Agora Lipsync 技术揭秘：通过实时语音驱动人像模拟真人说话

今天我们来聊聊声网自研的 Agora Lipsync（唇音同步）技术是如何实现无需打开摄像头，无需面部捕捉技术，只需上传一张/多张人脸头像就可以通过说话人的语音音频信号，就能驱动静态人脸头像的嘴部运动。

2021声学热点全知道——实时通信中的音频技术

2021声学行业大总结系列文章第二期，21dB声学人来和大家聊一聊实时通信中的音频技术。音视频实时通讯产品发展至今，其产品功能趋于智能化、多样化、人性化。以广泛使用的线上会议产品为例，声学场景分类作为近年大热的技术，极大地提升了线上沟通质量。

详解低延时高音质：丢包、抖动与 last mile 优化那些事儿

本篇是「详解低延时高音质系列」的第三篇技术分享。我们这次要将视角放大，从整个音频引擎链路的角度，来讲讲在时变的网络下，针对不同的应用场景，如何权衡音质和互动的实时性。

视频编解码芯片设计原理--01 概论

本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文为概论部分，将简单介绍图像视频的基本信息和视频编码的基础知识。

使用OpenCV校准鱼眼镜头

当我们使用的鱼眼镜头视角大于160°时，OpenCV中用于校准镜头“经典”方法的效果可能就不是和理想了。如果小伙伴也遇到了类似情况，那么这篇文章可能会对大家有一定的帮助。

一个神奇的开源项目：让照片快速 3D 化！

近日，弗吉尼亚理工等机构开发出了一种语境感知分层深度修复技术，它利用基于学习的修复模型来迭代地合成新的颜色和深度信息，并借助标准图形引擎将这些老照片渲染成 3D 照片。

最新发布！SMOKE 单目3D目标检测，代码开源！

SMOKE是一个one-stage的单目视觉障碍物检测模型，它认为2D检测对于单目3D检测任务来说是冗余的，且会引入噪声影响3D检测性能，所以直接用关键点预测和3D框回归的方式。最近发布的百度Apollo 7.0中，摄像头障碍物感知也是基于这个模型改进的；它能实现实时推理，代码开源，值得学习一下。

FFMpeg 源码分析-命令行总结

前面四篇文章已经把 ffmpeg_parse_options() 的内部逻辑以及内部函数分析完毕，下面画一张整体的流程图做为总结。

WebRTC社区头部开源项目介绍

最近WebRTC相关的开源项目非常活跃，作者搜集了一部分，包括在github上star超过1k的开源项目，排名不分先后。

通过文本实现人脸通话视频的超低比特率压缩

我们是否可以将音视频转化为文本传输并将文本还原回视频，在跟标准编码器比较的情况下，使用更少的带宽达到相同的 QoE 呢？答案是可以。本次演讲中，Pulkit 介绍了一个通过文本实现人脸通话视频的超低比特率压缩的流程，给出了 demo 展示并分析了目前存在的缺陷。

WebRTC 如何发展至今？

疫情期间，WebRTC 发挥了至关重要的作用，让所有人都保持联系，许多人对它的工作原理和所做的技术决定感到惊讶和困惑。这次演讲旨在为这些决定提供一些历史背景，希望能减少关于这些决定的困惑。

出发，去东南亚市场搞AI

在科技圈提起人工智能，人们会更多地把目光瞄准中美，却忽略增长势头最为迅猛的东南亚。这里有超过 6.6 亿的人口，快速增长的经济，以及不断完善的基础设施。随着消费水平的提升和疫情的推动，当地的技术和人才无法跟上迅速增长的业务量，带来了很多新需求。

腾讯发布国内首份可解释 AI 报告：详解打开算法黑箱的理念与实践｜附报告下载

随着各界对 AI 伦理的日益重视，AI 系统的可解释性也逐渐成为热点，甚至上升到立法和监管的要求。许多人工智能领域的专家都把 2021 年视为“AI 可解释元年”，在这一年，不仅政府出台相应的监管要求，国内外许多科技公司，譬如谷歌、微软、IBM、美团、微博、腾讯等，也都推出了相应的举措。

深度学习目标检测在实际场景中的应用（附源代码）

目标检测是现在最热门的研究课题，目前最流行的还是Yolo系列框架，最近我们计算机视觉研究院也分享了很对目标检测干活及实践，都是Yolo-Base框架，今天我们分享一个经过修改后的Yolov5，实时检测的效果！

虚拟现实耳机中的“窃听风云”

研究表明，黑客可以使用内置运动传感器的流行虚拟现实（AR/VR）头盔，记录与语音相关的微妙面部动态，窃取通过语音命令交流的敏感信息，包括信用卡数据和密码。

分类器可视化解释StylEx：谷歌、MIT等找到了影响图像分类的关键属性

本文中，来自谷歌、希伯来大学、 MIT 等机构的研究者提出了一种新的分类器可视化解释方法 StylEx，该方法能以不同方式修改图像属性来更改其分类器输出。

推荐 | Pair，医学图像标注神器

在AI新基建时代，智能化医疗成为一种潮流趋势，其中医学影像标注为智能化医疗研究提供了基础金标准。但现有软件无法满足标注项目的复杂需求。因此，本文为大家推荐一款一站式医学图像标注软件Pair，解决所有“不可以”。

Adobe提出自动生成高质量合成图像新方法

近日，Adobe 联合约翰霍普金斯大学的研究者提出了一种无需用户输入即可生成高质量合成图像的新方法。该方法能够进行端到端的训练，以优化对前景和背景图像上下文和颜色信息的利用，其中在优化过程中考虑了合成质量。

DMV 2021自动驾驶报告：Waymo平均接管里程骤跌，数据价值仍遭质疑

2月10日，加州交通管理局（DMV）发布了2021年全年自动驾驶数据。根据规定，DMV颁发的自动驾驶测试许可证持有公司每年1月1日都要提交年度报告，包括车队数量、车辆细节、测试总里程、脱管总数及情况等。加州作为世界上最受瞩目的自动驾驶路测地区，这份报告也被认为是全球自动驾驶企业的成绩单。

为了自动驾驶，谷歌用NeRF在虚拟世界中重建了旧金山市

训练自动驾驶系统需要高精地图，海量的数据和虚拟环境，每家致力于此方向的科技公司都有自己的方法，Waymo 有自己的自动驾驶出租车队，英伟达创建了用于大规模训练的虚拟环境 NVIDIA DRIVE Sim 平台。近日，来自 Google AI 和谷歌自家自动驾驶公司 Waymo 的研究人员实践了一个新思路，他们尝试用 280 万张街景照片重建出整片旧金山市区的 3D 环境。

基于单目摄像头的BEV实例预测（ICCV 2021）

驾驶需要与道路智体互动并预测他们未来的行为，以便安全导航。FIERY是一种单目摄像头中BEV未来概率预测模型。其预测动态智体的未来实例分割和运动，转换为非参数未来轨迹。结合传统自动驾驶栈的感知、融合和预测组件，直接从RGB 单目相机输入估计BEV预测。

低速自动驾驶技术：APA

自动泊车系统（APA）主要是利用遍布车辆自身和周边环境里的传感器，测量车辆自身与周边物体之间的相对距离、速度和角度，然后通过车载计算平台或云计算平台计算出操作流程，并控制车辆的转向和加减速，以实现自动泊入、泊出及部分行驶功能。

阅读推荐

探秘冬奥开幕式背后的播控系统

2022年2月4日晚8点，一场美轮美奂的冬奥开幕式如约而至，当我们正在电视机前观看这场视觉盛宴的时候，澜景科技的工作人员们正在后台辛苦地忙碌着，作为本次冬奥开幕式的播控系统，该公司旗下的Hirender全媒体总控系统为全世界观众呈现出了最完美的视觉效果。

Meta 2022博士奖学金计划公布，华人学者占四成

近日，Meta（Facebook）博士研究奖学金计划结果公布，多位来自海外高校的华人青年学者入选。该奖项旨在奖励在 AI 系统硬件 / 软件协同设计、区块链和加密经济学、人机交互、编程语言、AR/VR 等计算机科学和工程领域做前沿研究的博士生。

对话OTTVerse创始人Krishna Rao Vijayanagar：创业之初，挑战与机遇并存

最近，OTTVerse的创始人Krishna接受了LiveVideoStack的采访，在采访中，他畅谈了创立OTTVerse的原因，写作视频技术科普文章的初心、以及运营OTTVerse过程中所遇到的挑战与机遇。最后，他还向我们介绍了印度视频技术的发展情况。

全部评论

作者介绍

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

音视频技术开发周刊 | 233

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案