WebRTC资源汇总
WebRTC 相关的开源项目、工作招聘、测试工具以及行业内的RTC厂商资源汇总。
Clubhouse:使用空间音频提升对话质量
空间音频是一种新技术:当你只是戴上耳机,它也能重现影院级别的环绕声。对于Clubhouse这样的群组通信app,空间音频不仅能带来很棒的音效,还能使你与他人轻松对话。
iOS AVDemo(11):视频转封装,从 MP4 到 MP4丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第十一篇:iOS 视频转封装 Demo。
Android AVDemo(2):音频编码,采集 PCM 数据编码为 AAC丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第二篇:Android 音频编码 Demo。
音视频开发之旅(七) OpenGL ES 基本概念
这个系列我们一起对OpenGL ES进行重新学习实践,掌握OpenGL ES 3.0,编写迷人的OpenGL ES 3.0的程序。
W3C: 开发专业媒体制作应用 (1)
本文中Christoph Guttandin 介绍了他对行业发展的一些愿望,Sacha Guddoy 则介绍了直播媒体制作中的 WebRTC。
视频编解码芯片设计原理----12 码率控制
本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。
图像信号处理芯片设计原理----05 自动白平衡
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文将介绍色彩恒常性、色温、和自动白平衡方法。
音视频面试题集锦 2022.04
本文是音视频面试题集锦内容的节选,包括:RTMP 消息分优先级的设计有什么好处?什么是 DTS 和 PTS?它们有什么区别?什么是 IDR 帧?它和 I 帧有什么区别?等等。。。
单目视觉里程计的深度在线校正
本文提出了一种用于单目视觉里程计的新型深度在线校正 (DOC) 框架。整个pipeline分两个阶段:首先,深度图和初始位姿是从自监督方式训练的卷积神经网络(CNN)获得。其次,通过在推理阶段梯度更新位姿来最小化光度误差,进一步改进了 CNN 预测的位姿。
关于 Android 渲染你应该了解的知识点
谈到Android的UI绘制,大家可能会想到onMeasure、onLayout、onDraw三大流程。但我们的View到底是如何一步一步显示到屏幕上的?onDraw之后到View显示到屏幕上,具体又做了哪些工作?带着这些问题,我们今天就深入学习一下Android渲染的流程吧。
AI |算法工程师必备的深度学习--CNN:图像分类(下)
算法工程师必备系列更新啦!继上次推出了算法工程师必备的数学基础后,小编继续整理了必要的机器学习知识,全部以干货的内容呈现,哪里不会学哪里,老板再也不用担心你的基础问题!
[基础知识] JPEG 中的信号处理
本文对 JPEG 算法的核心部分进行了讲解,重点讲解色彩空间、YCbCr、色度二次采样、离散余弦变换、量化和无损编码。从数学和信号处理的角度解释了图像压缩算法的发展历程。
一文彻底掌握自动机器学习AutoML:PyCaret
本文中,作者将和大家一起了解 PyCaret 到底是什么,如何安装它,并深入研究使用 PyCaret 构建可解释的机器学习模型,包括集成模型。接下来和小猴子一起加速构建你的机器学习模型吧。
学习图像的算术运算
输入图像可以进行算术运算,例如加法、减法和按位运算(AND、OR、NOT、XOR)。这些操作可以帮助提高输入照片的质量。在本文中,你将了解使用 OpenCV Python 包对图像执行算术和按位运算的步骤。
从梯度下降到 Adam!一文看懂各种神经网络优化算法
在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法?这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳的优化方法。
有哪些深度学习效果不如传统方法的经典案例?
深度学习作为目前最前沿的科技领域之一,一般都引导着科技进步,但是是否存在一些深度学习的效果反而不如传统方法的案例呢?本文汇总了一些该问题下的优质回答,回答均来自知乎。
15个目标检测开源数据集汇总
目标检测应当在这几年当中研究数量以及应用范围最广的一个领域,也持续的受到很多深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集,希望能给大家的学习带来帮助。
在图像处理中应用深度学习技术
深度学习应用凭借其在识别应用中超高的预测准确率,在图像处理领域获得了极大关注,这势必将提升现有图像处理系统的性能并开创新的应用领域。
基于Transformer的人脸识别(附源码)
最近,人们不仅对Transformer的NLP,而且对计算机视觉也越来越感兴趣。我们想知道Transformer是否可以用于人脸识别,以及它是否比cnns更好。
一文读懂自动驾驶汽车感知系统的架构与关键技术
Perception(感知)系统是以多种传感器的数据与高精度地图的信息作为输入,经过一系列的计算及处理,对自动驾驶车的周围环境精确感知的系统。
【语音处理】硬核介绍人体的感知和听觉特性
本文主要介绍语音感知和听觉特性,包括声压、声压强、响度、音调以及音色等声学感受,还包括双耳效应、掩蔽效应、延时效应等常见声学效应。
【深度学习】小白看得懂的Transformer图解
在本文中,我们将研究Transformer模型,理解它的工作原理。我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。
技术解析:一文读懂3D目标检测
目标检测与目标识别不同,不仅要识别图像中目标的类别,同时还要确定目标位置。与2D目标检测不同,3D目标检测是使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测。
5 行代码实现图像分割
图像分割,作为计算机视觉的基础,是图像理解的重要组成部分,也是图像处理的难点之一。那么,如何优雅且体面的图像分割?5行代码、分分钟实现的库——PixelLib,了解一下。
Android 视频编辑解析库 MP4Parser
音视频领域的小白,一不小心遇到很牛叉的需求。各种渠道看到这个库,研究的不够深,简单记录。
AI扣图 | 五一假期拍的照片再不用担心游客太多
五一假期,想必大家都有在景区拍照留恋,但是图片中有很多其他游客或者想把自己P到想要的景区,现在人工智能都可以满足你!
FFmpeg命令分析-vf
主要分析各种 FFmpeg 滤镜命令 vf 在代码里是如何实现的。以 FFmpeg4.2 源码为准。
技术解码 | Web端AR美颜特效性能优化
Web技术在XR领域最多被诟病的缺陷在于其性能瓶颈,我们在实际的开发过程中也遇到了一些性能问题。在本文中将以这些技术为基础探讨如何在Web端的AR应用里进行性能优化,以实现更快的渲染速度、更高的渲染帧率。
W3C: 媒体制作 API (3)
这篇文章主要介绍了 WebCodecs 一个大概实现及其可设置选择的一些参数。来自 WebCodecs 的技术主管 Chris Cunningham 将首先介绍一些 WebCodecs 的 API,并会介绍一些关于视频编码器的设置。
自动驾驶中道路目标检测的极端情况数据集
CODA的挑战性数据集揭示了基于视觉检测器的关键问题。该数据集由 1500 个精心挑选的真实世界驾驶场景组成,每个场景包含四个目标级的极端案例(平均),跨越 30 多个目标类别。
特斯拉与毫末智行自动驾驶方案对比分析
说说汽车界最近比较火的两个方案吧,一个来自于特斯拉,采用纯视觉方案,另一个来自于咱们国内的毫末智行,采用视觉+激光雷达的方案。两个方案里都提到了将多传感器的数据由各自传感器的坐标变换到统一的BEV坐标,再进行特征融合。