LiveVideoStack » 音视频技术开发周刊 | 255

音视频技术开发周刊 | 255

图像去噪声纹模型运动估计 Per-Title编码播放器推荐引擎

LiveVideoStack 2022年7月25日

LiveVideoStackCon 2022 上海站 | 2022 音视频技术风向标

想想从去年11月底我们正式启动LiveVideoStackCon 2022 音视频技术大会上海站算起，已经过去8个月了。因此也成就了筹备时间最长的一届音视频技术大会，这次终于要在8月5日-6日上海海神富诺特大酒店召开了。在这不平凡的8个月里，我们从专题设置、环节策划，再到演讲内容打磨做了充分的准备，以下就是本次大会的亮点解析。

时间：2022年8月5-6日
地点：上海·海神诺富特大酒店

→点此「立即报名」

视频技术

什么是视频内容推荐引擎？
推荐引擎通常是指利用机器学习（基于用户的过去选择、偏好以及内容提供商的目录）来预测特定用户有可能观看哪一部电影或者视频的系统。在本文中，我们将从OTT服务提供商的角度来了解推荐引擎、它所需的数据、以及它的用途等。

专访铃盛（RingCentral）何必苍：以不断创新的MVP赋能未来混合办公
疫情之下，随着海外远程办公常态化，混合办公作为一种新的办公趋势正在融入各行各业。作为一家全球领先的企业云通信提供商，铃盛（RingCentral）发布的MVP产品将即时消息、视频会议和云电话这三大功能集成在同一APP上，成为众多企业在混合办公模式下的新选择。

跨平台播放器开发 (五) 如何渲染音视频裸流数据
上一篇咱们学习了 FFmpeg 解码、像素格式转换和音频重采样，该篇我们主要学习 QT 跨平台音频视频渲染 API 。

音视频开发之旅（18） JNI - 引用类型、异常处理、函数注册
我们来继续学习JNI的一些知识，引用类型、异常处理以及函数注册。通过本文了解三种引用类型的使用场景和以及释放方式，了解JNI异常处理和java的trycatch的区别以及异常检测和处理，了解函数动态注册的流程。

C++ 的万能头文件，你知道多少？
很多小伙伴估计看有的代码会碰见没有多余的其它头文件比如 algorithm、cmath、iostream 而是用了一行 #include<bits/stdc++.h> 这样的头文件并感到诧异，想这是什么？其实这是一个包含了 C++ 所有头文件的一个头文件。

MemoryThrashing：抖音直播解决内存抖动实践
直播 OOM 问题比较棘手难以定位，主要体现在涉及的业务很多，从定位到解决花费时间比较久。为了提前触达问题，提高定位的效率，也是对现有工具的补充，提出直播内存抖动解决方案- MemoryThrashing。

编解码

什么是Per-Title编码？
Per-Title（按主题）编码是指为了节省码率、存储空间以及ABR传输带宽为每部电影调整ABR码率阶梯。接下来，我们将了解Per-Title编码所涉及的编码过程以及它为流媒体提供商带来的优势。

种种迹象表明，Apple将有望支持AV1
Apple已经在其AVFoundation框架中为AV1视频添加了一个新选项，表明这家公司已经几乎准备好在tvOS、iOS、iPadOS和macOS上推出AV1支持。

Android AVDemo（13）：视频渲染丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第十三篇：Android 视频渲染 Demo。

光流简介及其在视频编解码中的应用
本文对光流进行简要介绍，并介绍光流在视频编解码标准中的应用。

基于 SPICE 协议的硬编推流整合方案在云游戏中的应用
随着虚拟化技术如模拟器，容器化等技术等发展，在安卓云游戏/云手机场景中，可以在服务宿主侧虚拟出更多更小颗粒度的 Android 实例。其中比较核心的技术是图形虚拟化技术，如何最大限度利用宿主侧的 GPU 资源进行渲染和编码，不考虑软编等利用 CPU 资源进行渲染编码是因为效率带来的延迟问题。

音频技术

CaTT-KWS—基于级联Transducer-Transformer的多阶段自定义关键词识别框架
关键词检出是语音识别领域的核心任务之一，本文提出了一种新的以神经网络为基础的多阶段自定义关键词识别框架，通过多个校验阶段逐步过滤掉识别过程中的虚警，大幅减少运行过程中的误触发。

音视频学习--运动估计搜索算法（一）
本文开始依次介绍FFMPEG中9种算法，并尝试找到最初的Paper，完成运动估计算法的起始、相关算法发展、优化过程的展现，期望对加油有足够帮助。首先介绍比较经典的算法：全局搜索和三步搜索法。

Science：听音乐真的能止疼，中国科学家揭示背后神经机制
音乐真的能镇痛，并且最新的科学证据已经登上Science。研究来自中科大、安徽医科大学和美国国立卫生研究院等机构，由中国科学家领衔。来看看具体是怎么一回事儿。

主流声纹模型ECAPA-TDNN
声纹识别已有几十年的发展历史，但直到深度学习兴起之后才开始广泛应用，本文主要介绍主流的声纹识别模型Emphasized Channel Attention, Propagation and Aggregation in time delay neural network Based Speaker Verification（ECAPA-TDNN）。

网络传输

WWDC 2022 音视频相关 Session 概览（HLS 相关）丨音视频工程示例
本文主要为大家介绍两部分内容：HLS 插片广告（HLS Interstitials）和HLS 内容转向（HLS Content Steering）。

网络编码赋能视频传输
对于移动应用，90% 的延迟和损失都发生在无线链路中，而尾部的用户连接体验非常糟糕。Codavel 提出了创新的网络编码通信协议（类似擦除码），提供了对延迟、丢包和连接不稳定的适应性，明显提升了尾部用户连接的视频质量。

GCC : Google 的 WebRTC 的拥塞控制算法
在本文中，我们提出了一种新的 RTC 拥塞控制算法，该算法基于估计的主要思想——使用一个 Kalman 滤波器，从发送方到目的地的数据包所经历的端到端单向延迟变化。

图形图像

图像信号处理芯片设计原理——16 滤镜
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文主要介绍图像滤镜。

基于细节增强的多曝光图像融合
本次介绍一篇发表于2017年TIP的基于细节增强的多曝光图像的多尺度融合方法。首先简要介绍09年Mertens提出的Multi-Scale Exposure Fusion方法，然后介绍这篇文章的内容，最后展示实验结果。

综述 | 图像去噪综合比较研究
图像去噪的目标是从受噪声干扰的退化图像中尽可能恢复原始的真实图像，是图像进行后续处理的关键一步。文章介绍了一篇比较经典的多维图像去噪综述文章，非常适合新入门的同学。

浅谈图像分割调优：一个服饰分割项目的记录
服饰分割的主要场景是对模特进行服饰抠图，要求边缘处理相对平滑，扣取召回和准确率比较高，能够覆盖95%以上的场景case。同时需要考虑模型FLOPs以及结构便宜性，便于后期有压缩的需求。

开源

《2022中国开源发展蓝皮书》正式发布
《2022中国开源发展蓝皮书》由中国开源软件推进联盟牵头，联合85 家企业及行业机构、120 多位开源专家和志愿者共同协作编撰完成，旨在全面展现当前中国开源发展的全景图。

XMem：给1万帧视频做目标分割，显存还不到1.4GB！| 已开源
目前已有的视频对象分割方法非常多，但是它们要么处理速度比较慢，要么对GPU要求高，要么精度不够高。而本文提出的方法，可以说是兼顾了以上三方面。不仅能对长视频快速进行对象分割，画面帧数可达到20FPS，同时在普通GPU上就能完成。

10 款更先进的开源命令行工具
作者整理了 10 款开源命令行工具，这些开源项目不仅实现了和 Linux 命令相同的功能，而且它们与时俱进地加入更多新功能，从而在使用方式、性能和展示效果上更胜一筹，下面就让我们一同走进这些让人相见恨晚、爱不释手的开源命令行工具吧。

一大波开源小抄来袭
“小抄”一词有个学名叫做“速查表”（cheatsheet），是用来快速找到你知识点和答案的表格，下面，就是专为程序员准备的「开源小抄」集合，内容包含了 Python、JavaScript、Linux、Rust 等，由于种类众多便于阅读，我将它们分成了：语言、命令和综合三大类。

FFmpeg命令分析-filter_complex
FFmpeg 命令行有两种 filter 用法，普通滤镜和复杂滤镜，本文重点分析复杂滤镜，以 FFmpeg4.4 源码为准。

人工智能

学习机器学习的最佳路径
我们第一天学开车的时候一定不会直接上路，而是要你先学习基本的知识，然后再进行上车模拟。所以我列了一个机器学习入门的知识清单，分别是机器学习的一般流程、十大算法、算法学习的三重境界，以此来开启我们的学习之旅。

总结了 11 种机器学习回归算法
本文将继续修炼回归模型算法，并总结了一些常用的除线性回归模型之外的模型，其中包括一些单模型及集成学习器。

【机器学习】暴力特征工程函数汇总，附代码
近期一些朋友询问我关于如何做特征工程的问题，有没有什么适合初学者的有效操作。最近刚好看到一篇文章汇总了非常多的聚合函数，就摘录在下方，供许多初入竞赛的朋友参考。

北大等提出CT2：无需前置条件的自动着色算法
我们造了一个自动着色的Transformer模型，以color tokens作为辅助，实现了目前最好的着色效果。我们的模型不需要任何前置条件就能生成正确颜色语义和丰富饱和度的图像，所以使用场景更广（例如不受限于检测器可以检测的目标的类别，以及GAN可以生成的图像的类别）。

最全深度学习训练过程可视化工具（附github源码）
本文介绍了多个能将深度学习训练过程进行可视化的工具，帮助大家更好地理解深度学习，非常实用。

CNN的一些可视化方法
对神经网络进行可视化分析不管是在学习上还是实际应用上都有很重要的意义，基于此，本文介绍了3种CNN的可视化方法：可视化中间特征图，可视化卷积核，可视化图像中类激活的热力图。每种方法均附有相关代码详解。

沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性
本文聚焦人工智能领域三位知名华人科学家新发表的论文，介绍了一个用判别模型和生成模型组成的完整的闭环系统，达到更高效更稳定的自主学习。

智能汽车与自动驾驶

SSL-Lanes:用于自动驾驶中运动预测的自监督学习
运动预测任务传统上是基于运动学约束和具有手工规则的道路地图信息，然而这些方法无法捕捉复杂场景中的长期行为以及与地图结构和其他交通代理的交互。在本论文中，作者提出了一个基于自监督学习的运动预测模型，算法已经开源。

一文聊聊自动驾驶感知系统
自动驾驶汽车想要完成出行安排，离不开感知、决策、控制这三大要素，其中感知作为让汽车“认得路”的重要环节，可以让自动驾驶汽车和驾驶员一样，读懂周围的交通要素。

如何设计智能汽车交互？
复杂的技术系统需要构建一个透明性的简单答案，巧妙地向用户解释系统正在做什么或将要做什么，提供一个“技术解释界面”。交互设计的价值便是在于构建这个人认知和理解世界的“界面”。

基于激光雷达的车道线/路沿检测
车道线和路沿的检测在自动驾驶中起到很关键的作用。最近和做高精地图的朋友沟通，激光雷达在构建高精地图中起到非常关键的作用。

基于高精地图的路径规划探索
目前以Tesla为首的高速领航功能让大家更加明确自动驾驶的前进方向和主机厂的迫切需求。而在高速领航功能中，又分为纯视觉方案和高精地图+视觉+雷达的方案。目前国内车企基本采用后者。本文主要讲述基于高精地图下的路径规划。

AR/VR

将达10亿的AR移动生态，不动声色的大厂之争
无论是当前的手机、平板等主流移动终端，还是未来或成为继承者的VR头显、AR眼镜，都存在着大量的对AR/VR内容的需求，更深一层，则是对AR/VR开发平台、工具的需求。

苹果多项AR新专利曝光；迪拜启动大规模元宇宙战略
近日，美国专利商标局正式公布了苹果公司一系列共54项新授予的专利。在这些专利中，有多项与未来的AR自拍、苹果的Face ID和他们的AR Measure应用有关的专利。

VR社交和多人游戏即将崛起，美国调查称70%家庭用VR来玩游戏
据报告显示，49%的受访者表示自己曾经在家庭中尝试过VR，但只有13%的家庭本身有头显，这说明不少人是和朋友或亲戚共享VR设备。受访者中每10人中有7人表示主要用VR头显玩游戏。

推荐阅读

韦伯太空望远镜观测的宇宙新图像，将由一个名为Morpheus的深度学习框架来分析
2022 年 7 月 11 日，美国航空航天局公布了詹姆斯·韦伯太空望远镜（James Webb Space Telescope，JWST）拍摄的第一张全彩图像，这让全世界的人类感到震惊和欣喜。

自动驾驶在干线物流的商业化进展综述
本文从5个方面详述了干线物流，包括自动驾驶在干线物流场景的落地、商业化进展情况、现阶段自动驾驶如何为干线物流场景降本增效、商业化面临的挑战、中美差异。

一文带你全面了解，自动驾驶数据闭环之——大数据管理
尽管自动驾驶汽车所需的数据存储量是巨大的，但挑战并非源于存储阶段，而是传输阶段。鲍曼说，例如，让车辆上路去记录来自摄像机、激光扫描仪和雷达的数据时，每辆车每天能产生80TB的数据。

干货汇总：一文读懂计算机视觉，干货满满记得收藏
计算机视觉（Computer Vision），通常简称CV，是一个通过技术帮助计算机“看到”并“看懂”图像的研究领域，例如使计算机理解照片或视频的内容。这篇文章将对计算机视觉进行整体介绍，本文章共分为六个部分。

AI发展与工业界需求相比，是否供大于求？
人工智能的迅猛发展和工业界的大量需求是否匹配？新模型新算法天天更新，看似解决了很多问题，但在工业上这些好像并不重要？本文作者将对AI进展是否供过于求给出他的解答。

全部评论

作者介绍

LiveVideoStack

相关文章

阅读排行

2周
4周
16周

热门视频

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

/

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

/

「线上分享」AMD面向8K UHD应用解决方案

/

活动推荐

LiveVideoStackCon 2023 深圳站

更多

@2017-2024 LiveVideoStack版权所有. 京ICP备20010033号-1 京公网安备 11010502042092号