LiveVideoStack

音视频技术开发周刊 | 235

超分辨率 FFmpeg 编码 Livekit 机器学习 OpenCV DRM

LiveVideoStack 2022年3月6日

▸ 视频技术

视频超分中的自监督适应方案
本文分享论文『Self-Supervised Adaptation for Video Super-Resolution』，通过采样半监督的方式训练VSR网络，并为知识蒸馏与基于自监督的SR任务的结合开辟了一个有趣的研究方向。

干货：Android 音视频开发学习路线图
作为一个音视频零基础的人来说, 开发一款短视频 SDK 到底需要具备哪些知识呢? 下面就由我为大家介绍一翻(ps:以下学习路径仅代表个人观点)。

FFmpeg 源码分析-转码2
本系列以 FFmpeg4.2 源码为准，本文主要分析 transcode_step() 的内部逻辑，以一条简单的命令开始，ffmpeg -i a.mp4 b.flv。

揭秘视频千倍压缩背后的技术原理之环路滤波
环路滤波的主要功能是去除块效应，设计去块滤波器的主要难点在于对于某一个块边界，是否要进行滤波，以及滤波的强度应该是多少。对块边界进行过度的平滑操作，会导致原有的图像纹理丢失；然而较低强度的平滑，却无法完全去除虚假边界。

▸ 音频技术

iOS AVDemo（2）：音频编码，采集 PCM 数据编码为 AAC丨音视频工程示例
这里是第二篇：iOS 音频编码 Demo。这个 Demo 里包含以下内容：1.实现一个音频采集模块；2.实现一个音频编码模块；3.串联音频采集和编码模块，将采集到的音频数据输入给 AAC 编码模块进行编码和存储；4.详尽的代码注释，帮你理解代码逻辑和原理。

根据采样频率计算音频时长
采样频率是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。采样频率定义了每秒从连续信号中提取并组成离散信号的采样个数，采样频率的倒数是采样周期或者叫作采样时间，它是采样之间的时间间隔。

▸ 编解码

JPEG-XS技术特点及标准化进展
JPEG-XS是一种基于公开标准，并达到视觉无损质量的图像编码技术。其复杂度和延迟低，适用于实时高质量图像或视频压缩，应用场景包括实时视频传输存储和缓冲区、全向视频以及传感器数据压缩等。本文详细介绍了JPEG-XS的应用场景、技术特点、与其他编解码器的对比、标准化进展和专利授权计划。

视频编解码芯片设计原理--03 视频编码芯片架构
本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文介绍视频编码芯片的敏佳架构设计思想和XK265 编解码器的层次结构。

FFmpeg 中的多线程解码
如果在某个视频在编码时，一帧图像分为多个slice进行编码的话，那么在使用ffmpeg解码时调用slice级并行解码就会得到不错的效果。而在实际应用中，大多数h264编码的视频都是一帧只有一个slice，对于这种视频，就算采用了slice级并行，也只有一个线程在进行解码作业。

▸ 开源

FFmpeg 和自由软件社区的更新
谈谈 FFmpeg 社区的变化，以及 FFmpeg 项目中发生的事情。FFmpeg 5.0 发布、CoC 和其他一些东西。

Livekit-开源实时音视频基础设施介绍
Livekit 是今年开源的一个全栈的RTC解决方案，包括各种版本的sdk以及开箱即用服务端。之所以引起我的关注是这个开源项目背后的团队以及运作方式，相比于其他的WebRTC相关的开源项目，Livekit是由全职的团队在做开源，并且拿到了700w$的融资，相比于数据库领域火热的开源商业化，这把火也烧到的RTC 基础设施领域。

一周即可打造专属会议软件！网易会议组件正式开源
近日，网易智企发布”易+”开源计划，将网易智企部分技术进行开源，反哺行业创新。网易智企旗下融合通信云服务专家网易云信打响头炮，正式开源网易会议组件，并将在第二季度开源低延时直播技术。

人脸识别常用开源数据集大全
本文总结整理了10个开源的人脸识别数据集，并附有相关下载链接，希望能给大家带来一些帮助。

▸ 网络传输

毫秒级超低延时，CDN直播的“升级”之路
2月22日，腾讯云携手信通院联合发布《超低延时直播白皮书》（文末附下载），首次系统性地阐释了超低延时直播技术，为行业在超低延时方向的发展提供了新的思路及解法。

LinkedIn 测量实时视频延迟方法
这期电台节目邀请了 LinkedIn 软件工程师 Yurong Jiang ，概述了 LinkedIn 处理视频剪辑和实时视频广播的架构，并解释了如何在整个实时视频工作流程中测量和减少延迟，和主持人 Dror Gill、Mark Donnigan 一起探讨有关LinkedIn测量延迟的相关问题。

▸ 人工智能

真假难辨，AI就能分得清？
常言道，耳听为虚，眼见为实。但随着人工智能技术的发展，眼见可不一定为实。其背后的技术被称作深度伪造技术，简称深伪技术或者深度伪造，是Deep Learning（深度学习）和Fake（伪造）的混成词，一种基于人工智能的人体图像合成技术，该技术的扩散与发展，引起了人们的担忧。

深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解）
入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。

机器学习必知必会10大算法！
现在，机器学习有很多算法。如此多的算法，可能对于初学者来说，是相当不堪重负的。今天，我们将简要介绍 10 种最流行的机器学习算法，这样你就可以适应这个激动人心的机器学习世界了！

AI成野生动物保护神：没有图像识别算法，考拉就会灭绝！
AI可以学习如何识别数千张热成像照片中哪些包含稀有物种；或在数小时的野外音频记录中找出动物的叫声。这些都大大减少了收集重要环保数据所需的体力劳动。

▸ AR/VR

苹果三星微软Meta四大巨头下场，元宇宙硬件大战一触即发！
据零部件行业人士预计，苹果最早将在今年发布面向元宇宙数据市场的虚拟现实（VR）头盔终端。据了解，VR头盔生产的性能测试最近已经完成。

▸ 图像

FCN、Unet、Unet++：医学图像分割网络一览
本文先厘清了语义分割、实例分割和全景分割等定义的区别。在此基础上，进一步分析了FCN、Unet、Unet++等算法在医学图像上的适用情况。

在OpenCV中使用图像像素
像素是计算机视觉中图像的重要属性。它们是表示图像中特定空间中光的颜色强度的数值，是图像中数据的最小单位。由于OpenCV中的图像被读取为像素值的Numpy数组，因此可以使用数组切片操作获取并处理由该区域的像素表示的图像区域。

▸ 智能汽车与自动驾驶

自动驾驶多模态传感器融合的综述
多模态融合是感知自动驾驶系统的一项基本任务，最近引起了许多研究人员的兴趣。然而，由于原始数据噪声大、信息利用率低以及多模态传感器的无对准，达到相当好的性能并非易事。本文对现有的基于多模态自动驾驶感知任务方法进行了文献综述。

▸ 推荐阅读

12种提升视频质量的方法
本篇文章将会讨论确保直播视频质量满足行业标准的重要性，还将探讨那些在设置直播服务时所出现的常见问题，同时提供解决问题的方法，以便用户观看到最佳质量的视频。

探索咪咕视频在冬奥期间的技术创新与应用
最近LiveVideoStack采访了咪咕公司的音视频AI领域资深专家、高级研发总监周效军，在此次与LiveVideoStack的对话中，他分享了咪咕在冬奥直播转播赛事过程中对音视频和AI等技术的创新和应用。

中学生也能看懂的DRM
在本篇文章中，我们将介绍：什么是DRM（数字版权管理）？DRM在通过加密、访问限制技术以及商业规则确保数字资源公平使用的过程中所发挥的重要作用。

全部评论

作者介绍

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

音视频技术开发周刊 | 235

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案