音视频技术开发周刊 | 267

视频技术
RenderDemo(1):用 OpenGL 画一个三角形丨音视频工程示例
在 RenderDemo 这个工程示例系列,我们将为大家展示一些渲染相关的 Demo,来向大家介绍如何在 iOS/Android 平台上手一些渲染相关的开发。这里是第一篇:用 OpenGL 画一个三角形。我们分别在 iOS 和 Android 实现了用 OpenGL 画一个三角形的 Demo。


音视频开发之旅(33) -交叉编译android使用的FFmpeg
这篇我们来学习实践ffmpeg的交叉编译,其中会涉及到ffmpeg的版本、NDK的版本、编译脚本的编写、Gradler ABI处理 以及 CMakeLists.txt的针对不同ndk版本脚步的编写。


ffplay 整体框架
虽说ffplay是一个简单的播放器,但是其实内部一点也不简单,其实笔者也不知道说它简单的理由是什么,是因为它只有一个点c文件?


快手质臻影音:视频智能修复及增强技术
快手平台上视频类型繁多,且视频源的画面质量存在较大差异。“面对种类多且质量差异较大的视频,如何让用户获得更清晰的观看体验?


对话美摄科技李磊:走出一条AI与传统视音频技术相结合的美摄特色道路
AI能力与音视频技术能力正在不断融合,加速音视频相关业务大力发展。我们了解到,美摄科技在多平台的视频模板技术方面取得了很好的成果,能够帮助用户在不同使用场景中随意切换。


音视频生产关键指标:采集预览优化丨音视频工业实战
随着相机采集越来越多的与滤镜、美颜、特效等前处理流程结合,关注采集预览的性能变得十分重要。采集预览阶段表示打开相机,但是还没开始进行直播推流或者视频录制的阶段,但这时候一般也开始进行滤镜、美颜、特效前处理了。

 
音频技术
论文推介:情感语音合成中基于信息扰动的跨说话人情感迁移
本文通过信号扰动的方式来解耦音色和情感,而不是传统的在隐层表征中进行音色和情感解耦方法。受干扰的语音由不同的生成器分别用特定的控制因素建模,然后利用Mel解码器产生目标音色的情感语音。


生产艾里光束的新型实用方法可以增强超声波
圣路易斯华盛顿大学(Washington University in St. Louis)的研究人员最近发明了一种产生超声波的技术,这种超声波可以像彩虹一样自弯曲。


车载沉浸式音效
沉浸声的音效让人向往,但在实际应用时,汽车座舱具有复杂的声学特性,为了在车内实现更好的沉浸式声音体验,在设计过程中,通常要考虑的问题有哪些呢?


Lyra V2发布
更快,更好,更多人声Codec

 
开源
自动驾驶开源数据集资源汇总(车道线/交通标志/雷达/BEV)
本文整理了一些自动驾驶方面的开源数据集,包括城市景观图像对数据集、语义分割数据集、BDD100K驾驶视频数据集、交通信号灯检测图像等共20多个资源。


资源分享 | detre:面向DETR系列的目标检测开源框架
在IDEA研究院CVR团队分别开源了DAB-DETR, DN-DETR, DINO后,CVR团队一直计划做一个统一的DETR系列代码框架,支持DETR系列的算法工作,最近CVR团队正式开源detrex,整合重构复现了之前的开源工作并且吸纳了一系列DETR系列算法。


医学图像开源数据集汇总
本文汇总了6种医学图像开源数据集,包括脏器分割数据集、小腿肌肉超声数据集、肿瘤数据集、结直肠腺癌组织学图像数据集、淋巴结切片的组织病理学数据集、腹腔镜图像数据集,一起来看看吧。


OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平
OpenAI 宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。

 
编解码
基于“部分剪支”的CNN加速器的软硬件协同优化方法
该论文通过将DNN等模型中的层分为两组并只对其中一组进行剪支操作,从而在保证较小的精度损失的同时实现压缩率和处理效率间的折中。


滚动引导滤波
本次介绍Rolling Guidance Filter (RGF) 相关内容,该论文发表在2014年ECCV。RGF具有对图像边缘的尺度进行选择的能力,可用于纹理层提取、细节增强、图像风格化等应用场景中。


去方块滤波简介
本文对去方块滤波 (DBF, Deblocking Filter) 进行了介绍。目前H.264和H.265有许多DBF的硬件论文,但是VP9/AV1相关的硬件成果较少。本文首先对DBF的算法进行简述,然后介绍一篇AV1DBF模块的硬件实现论文。

 
图形图像
VoxGRAF:基于稀疏体素的快速三维感知图像合成
对场景进行高分辨率的高保真渲染是计算机视觉和图形学领域的一个长期目标。实现这一目标的主要范式是精心设计一个场景的三维模型,再加上相应的光照模型,使用逼真的相机模型渲染输出高保真图像。


必读!C++图像处理之高效学习方法
学习C++图像处理前首先的明确图像处理是什么,它是如何定义的?它能给我们带来哪些便利?之后根据需求选择合适的编程语言,C++ or python?


小白学CV:图像/视频质量评价
不仅仅在视频监控和网络直播中应用,其他的很多领域也有着广泛的应用。 数字图像和视频在采集、压缩、传输和存储等过程中会发生各种各样的畸变,任何失真都可能导致视觉感知质量的下降。


图像清晰度评价与实现方法
常见的图像清晰度评价一般都是基于梯度的方法,本文将介绍五种简单的评价指标,分别是Brenner梯度法、Tenegrad梯度法、laplace梯度法、方差法、能量梯度法。


Android 图形显示框架
本篇对Android图形显示框架做一个概述,内容主要包含:SurfaceSession创建和销毁(添加/删除窗口),Surface创建和销毁,BufferQueue创建,以及BufferQueue的dequeueBuffer和queueBuffer、acquire和release大致流程梳理。

 
课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

  1. 紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合
  2. 熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础
  3. 课程包含图文、代码、视频,降低学习门槛
  4. 李超精准讲解,及时详细解答

点此「立即订阅」
 

计算机视觉
【CV知识点汇总与解析】|激活函数篇
系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。相信能够帮助初学者快速入门深度学习,帮助求职者全面了解算法知识点。


实战 | 用Python和OpenCV搭建一个老人跌倒智能监测系统 (步骤 + 源码)
老人监测系统是一种智能检测系统,可以检测老人是否躺在床上或是否跌倒在地。本文将使用Python、OpenCV和MediaPipe搭建一个老人跌倒智能监测系统。


基于无监督深度学习的单目深度和自身运动轨迹估计的深度神经模型
在无人驾驶、3D重建和AR三个领域中,对于周围环境物体的深度(Depth)和对自身位置的估计(State Estimation)一直是一个非常棘手而复杂的问题。这篇文章主要提出了一种基于无监督深度学习的单目视觉的深度和自身运动轨迹估计的深度神经模型。


入门必读系列(一)欠拟合与过拟合总结
在本文,将介绍欠拟合与过拟合的概念、特点、产生的原因、解决的方法。在认真阅读本文后,读者将会对欠拟合与过拟合有个全面的认识。


计算机视觉研究院出品:目标检测的细节,你到底知道多少?
现在目标检测发展应该到了一个瓶颈,但是现存很多很多优质的检测框架,尤其是针对于大目标的检测,比如人、汽车和常见动物,但另一方面,小目标检测仍然是现在亟待解决的问题。

 
人工智能
深度学习优化入门:Momentum、RMSProp 和 Adam
在这篇文章中,我们讨论另外一个困扰神经网络训练的问题,病态曲率。


神经网络无法实现可解释 AI ?
美国东北大学体验式人工智能研究所的高级研究科学家 Walid S. Saba 从组合语义的角度出发,提出一个观点:深度学习无法构造一个可逆的组合语义,所以它无法实现可解释AI。


8个常见的机器学习算法的计算复杂度总结
计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。本文为你整理了一些常见的机器学习算法的计算复杂度。


超全!李航《统计学习方法》读书笔记
本文以李航的《统计学习方法》为主,结合西瓜书等其他资料对机器学习知识做一个整理。


使用深度学习构建脑肿瘤分类器
我们将使用 CNN(卷积神经网络)构建脑肿瘤分类器,该分类器因其高精度而广泛用于图像分类领域。我们将使用的编程语言是python。


万字长文,《CUDA C 编程指南》详细导读
在AI算法优化加速过程中,CUDA编程是常用的方式。本文整理总结了CUDA的重点,主要内容来源于NVIDIA的官方文档,结合了另一本书《CUDA并行程序设计 GPU编程指南》的知识。属于一定要收藏的超干货!

 
智能汽车与自动驾驶
最全自动驾驶数据集分享系列一|目标检测数据集(2/3)
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列一,本文是<系列一目标检测数据集>的第二篇,一共分为三篇来介绍。


TJ4DRadSet:自动驾驶4D成像雷达数据集
下一代高分辨率汽车雷达(4D成像雷达)可以提供额外的高程测量值和更密集的点云,在自动驾驶中具有巨大的三维传感潜力,本文介绍了一个名为TJ4DRadSet的数据集,其中包含4D成像雷达数据用于自主驾驶研究。


驾驶员嗜睡分类 - 深度学习
瞌睡检测是一种汽车安全技术,有助于防止驾驶员在驾驶时睡着了造成的事故。目前,方法主要集中在使用深度学习或机器学习技术进行眨眼检测,但是,如果司机戴墨镜怎么办?如果我们同时考虑驾驶员的头部倾斜、打哈欠和其他因素会怎样?是的,这正是本文所做的。


硬核!自动驾驶如何做数据标注?特斯拉EP3 Auto Labeling深度分析
本文就Tesla对自动标注的技术和要求展开来描述,首先是在Vector Space上的标注, 需要对数据做出分析处理,数据标注工具的搭建;一个离线大模型对数据进行标注,车载模型相当于对大模型进行蒸馏;并且拥有强大的数据采集能力;核心技术方面:三维重建与视觉SLAM等算法。


激光雷达SLAM方法汇总 | 自动驾驶和移动机器人领域
本文调查了激光雷达里程计领域的现有工作,还介绍了点云配准方面的现有工作,因为它们可以适用于LiDAR帧对之间的变换估计,这是LiDAR里程计中的关键步骤。


一文带你通俗易懂地理解自动驾驶
从自动驾驶的架构出发往往最能够理解自动驾驶的原理,大众对自动驾驶最浅显易懂的理解就是感知,决策,执行。所有机器人都是这样的架构。

 
AR/VR与元宇宙
VR 对使用者认知和情感的影响
本文展示了 2022 IEEE VR 会议 Emotion and Cognition 主题的两篇论文。第一篇论文研究旁观者对于 VR 使用者的认知产生的影响,第二篇论文研究 VR 的一种特殊应用 Disability Simulation 对减少人们对于残疾者隐性偏见的影响。


涨知识 | 元宇宙需要怎样的算力支撑?
元宇宙被越来越广泛视作互联网未来,是重要数字表现形态与载体。作为构建数字经济重要“底座”,在元宇宙庞大技术体系中,算力在元宇宙中发挥怎样的作用?


Quest Pro体验实感:提升了但不完全可用,Meta的元宇宙挑战才刚开始
日前,Meta发布了首款高端VR一体机Meta Quest Pro,几乎在发布的同时,海外知名博主VRDAVID HEANEY已经对Quet Pro进行了第一次的实机体验,本文整理了他体验Quest Pro后的第一时间感受。

 
推荐阅读
雷军做程序员时写的博客,有点东西!
我一直觉得技术人应该追求长远的价值,做出好的产品,优秀的软件,花足够的时候去打磨一个系统或产品,而不是每天关注在职位或薪资,后者是前者伴随而来的结果,不是目的。以下为雷军的博客节选。


「AI世界」还缺点啥?牛津大学教授:现实世界
无限猴子定理认为,让一只猴子在打字机上随机地按键,当按键时间达到无穷时,几乎必然能够打出任何给定的文字,比如莎士比亚的全套著作。「人工智能(AI)也是如此,」 牛津大学计算机科学教授 Michael Wooldridge 这样说道。


中国汽车芯片,迎激变大时代
过去十余年间,我国在政策推动下一跃成为了全球新能源汽车强国,随着新能源汽车技术水平不断进步,中国汽车芯片市场规模也实现快速增长。

 
还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周
热门视频

HLS性能优化之旅

熊子良/资深研发工程师

贝壳找房联络中心的RTC实践

安海波/语音架构师