LiveVideoStack » 音视频技术开发周刊 | 249

音视频技术开发周刊 | 249

短视频直播编解码芯片播放器人工智能 FFmpeg QUIC 机器学习逆渲染

LiveVideoStack 2022年6月13日

视频技术

8款测试HLS m3u8视频流的免费在线播放器
本篇文章中，我们列出了一些最流行的免费在线m3u8播放器（用于测试你的HLS视频流），它们包括HLSPlayer.net、Castr.io、Akamai、Bitmovin、THEOPlayer、NexPlayer、JWPlayer，以及我们最喜欢的hls.js demo player。

音视频开发之旅（12） OpenGL ES之纹理
纹理(Texture)是一个2D图片（甚至也有1D和3D的纹理），它可以用来添加物体的细节；把它像贴纸一样贴在什么东西上面，让那个东西看起来像我们贴纸所要表现的东西那样。从而使图形更加真实。

Android AVDemo（7）：视频采集，视频系列来了丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第七篇：Android 视频采集 Demo。

L0结构先验及图像模糊强度感知视频去模糊
本文介绍最新发表在Neurocomputing的工作，采用L0正则化的结构先验以及图像模糊强度感知来进行视频去模糊。

输入1句话，生成1段视频！清华提出CogVideo：最大的文本生成视频模型
“1句话生成视频”，这个最新的文本-视频生成AI，是清华&智源研究院出品的模型CogVideo。CogVideo“一脉相承”于文本-图像生成模型CogView2，这个系列的AI模型只支持中文输入，下面让我们看看这只名叫CogVideo的AI模型究竟是什么来头？

淘宝直播PC客户端的hybrid探索
“hybrid app”，混合开发模式下的应用。目前移动端主要包含两种平台IOS和android，而PC也包含windows和Mac OS，如何兼具“Native App良好交互体验的优势”和“Web App跨平台开发的优势”在当前互联网时代保持高效的业务迭代是一个非常重要的课题。

音频技术

音频评测之专业音质听音评价（二）
专业音质听音评价第二期将为大家介绍一些听音评价的基本概念，以及听音评价过程中包含的重要环节。

声学工程师应知道的150个声学基础知识
和大家分享一下声学工程师应知道的150个声学基础知识。注意，声学工程师和音频工程师可不是同一岗位，前者会更侧重于硬件，后者侧重于软件层面。但是关于声音的一些基础内容还是相同的，可以多多了解！

如何更好的创建语音用户界面！
语音是一款我们可以用来相互交流的强大工具。人机对话启发产品设计师创建语音用户界面(VUI)，这是下一代用户界面，使用户能够使用自然语言与机器进行交互。

苹果获超声波触觉声波新专利，或用于头显等交互设备
近日，美国专利商标局正式授予苹果一项与提供超声波触觉声波的电子设备相关的专利。超声波可以指向用户以提供触觉输出。触觉输出设备可用于多个电子设备的系统，例如头戴式显示器、iMac、iPhone和iPad。

中科大在6G滤波器领域取得重要进展
近日，中国科学技术大学微电子学院左成杰教授研究团队在铌酸锂（LiNbO3）压电薄膜上设计并实现了Q值超过100000的高频（6.5 GHz）微机电系统（MEMS）谐振器，与文献中现有的工作相比，把Q值提升了2个数量级。

编解码

视频编解码芯片设计原理----17 开源编码器IP核
本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文将对VIP Lab的开源视频编解码IP核进行简介。

x264 abr码控
之前一直看代码分析，x264 crf + vbv码控，这次我们一起看一下abr码控，abr码控的公式是参考论文实现的，complex sum有一个衰减系数，固定是0.5，接下来我们对照一些代码看看。

网络传输

QUIC会成为互联网传输的颠覆者吗？
当计算机科学家注意到TCP的限制性使它无法继续支持新的、更加先进的互联网服务时，他们对QUIC的兴趣便与日俱增。作为传输协议，QUIC是替代TCP的最重要“候选人”，它将有可能为互联网数据传输打开新的局面。

QUIC和互联网传输的未来
具体来说，这个有可能替代TCP的协议被人们称为QUIC，人们对QUIC的出现激动不已。但这种激动是否合理，我们将在今后的文章说明。本文我们将来了解发明QUIC的原因以及QUIC的使用人群。

WebRTC 教程 (6)
这篇文章是 WebRTC 教程系列的最后一篇，主要介绍了 WebRTC 可扩展性的一些网络拓扑结构。

大规模测量实时视频延迟
想象一下直播观众想知道他们的直播视频的延迟，或者直播基础设施工程师想捕捉管道的延迟性能，如何系统地大规模测量延迟？

TikTok 如何传输短视频内容？
探索 PC 端的 TikTok 网站是如何构建的，以及后端是如何对应的，是一件值得探索的事情。在这里，使用 dev tools 并以博主 Therock 的主页作为例子，进行短视频内容传输的观察。

开源

收藏 | 医学图像开源数据集汇总
作者整理了一些医学图像的数据集，都是开源的，希望能对大家有用，一起来看看吧。

FFmpeg命令分析-output_ts_offset
本系列主要分析各种 FFmpeg 命令在代码里是如何实现的。以 FFmpeg4.2 源码为准。

工程师如何对待开源——一个老工程师的肺腑之言
本文是笔者作为一个在知名科技企业内从事开源相关工作超过 20 年的工程师，亲身经历或者亲眼目睹很多工程师对待开源软件的优秀实践，也看到了很多 Bad Cases，所以想把自己的一些心得体会写在这里，供工程师进行参考，希望能帮助工程师更好的成长。

DD Course-01: 从0到1，在浏览器里运行 Disco Diffusion (全网最详细教程)
DD 是 2021 年上半年诞生的一个开源项目，是一个年轻的 TTI 开发社区的集体努力的成果。它还是机器学习-文字转图像生成领域的一个新生阶段的实验性应用模型，而非一个成熟的商业产品。

人工智能

【NLP】NLP全路径学习推荐
跟几位BAT老哥聊了下NLP全路径学习的事情，总结出以下内容，包含：学习NLP需要具备哪些基础、NLP全路径各任务学习的项目。

【经验】深度强化学习训练与调参技巧
本文的目的在于帮你更好的用 RL，涵盖了关于 RL 的一般建议（从哪里开始，选择哪种算法，如何评估算法），以及在使用自定义环境或实现 RL 算法时的 Tips 和 Tricks。我们也提供了视频和 slides。

【机器学习基础】各种梯度下降优化算法回顾和总结
以这一篇论文为主线并结合多篇优秀博文，回顾和总结目前主流的优化算法，对于没有深入了解过的算法，正好借这个机会学习一下。

深入理解LightGBM
LightGBM提出的主要原因就是为了解决GBDT在海量数据遇到的问题，让GBDT可以更好更快地用于工业实践。

手把手教你设计实现一个深度学习框架（附代码实现）
本文首先从深度学习的流程开始分析，对神经网络中的关键组件抽象，确定基本框架；然后再对框架里各个组件进行代码实现；最后基于这个框架实现了一个 MNIST 分类的示例，并与 Tensorflow 做了简单的对比验证。

CVPR 2022 | 逆渲染中的⾼效间接光照建模
从图像中恢复三维场景的⼏何、材质和光照，也称为逆渲染，⼀直是计算机视觉和图形学领域⻓期研究的问题。近年来，随着VR和AR应⽤的⻜速发展，从现实世界中轻松获取3D内容的需求也在与⽇俱增。

OpenCV4 新特性 - 图像无缝克隆函数演示
OpenCV3.x的图像计算模块多了新算法API-无缝克隆(Seamless Cloning)，主要是针对图像编辑，局部修改等应用场景实现迁移对象与原图像场景的无缝克隆。

图像

图像信号处理芯片设计原理----10 Gamma矫正
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文主要对于ISP流水线中的Gamma校正模块进行简要介绍。

文本生成图像这么火，你需要了解这些技术的演变
目前多模态任务成为行业热点，本文梳理了较为优秀的多模态文本图像模型：DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点，及其迭代关系。

移动端渲染原理浅析
计算机或手机的渲染是一个非常复杂的过程，本文介绍了渲染相关的一些基础知识，并结合 iOS 和安卓的技术框架介绍了移动端渲染原理，最后详细的解析了 iOS 中的离屏渲染以及圆角优化的一些方法。

如何使用OpenCV实现图像均衡？
我们已经练习了很多图像处理——操作图像（精确地说是图像矩阵）。为此，我们探索了图像的均衡方法，以便在一定程度上增强对比度，以使被处理的图像看起来比原始图像更好，这种技术称为直方图均衡化。

图片中多个二维码选择的实现
买早餐的时候会遇到，支付宝和微信的二维码贴在一起，然后扫码的时候两个二维码一起被识别出来的情况。之前的处理可能是：APP内部判断是自己的Scheme时，自动跳转；后来发现变成了识别到多个二维码时，弹出二维码选择页，用户选择具体二维码后，再跳转。

数字图像处理：灰度化
你有没有想过图像编辑软件中的方法是如何改变图像外观的？或者你是否正在寻找一种可用于灰度图像的简单方法？本文将重点介绍数字图像处理的基础知识，并介绍一种 Python 中可用于对图像进行灰度化的方法。

智能汽车与自动驾驶

综述：基于深度强化学习的自动驾驶算法
这是 21 年的一篇综述文章，可以算得上是最前沿的自动驾驶技术综述。这几年随着深度表征学习的发展，强化学习领域也得到了加强。本文会对目前最先进的自动驾驶 DRL 算法进行汇总和分类。

如何用逆强化学习在城市道路自动驾驶
本文介绍基于学习的规划，逆强化学习（IRL）如何在密集的城市交通中驾驶汽车。规划器DriveIRL生成一组不同的轨迹提议，用一个轻量级且可解释的安全滤波器对这些轨迹进行过滤，然后一个学习模型对每个剩余轨迹进行评分。最后自动驾驶车的低级控制器跟踪最佳轨迹。

一文解析智能座舱的关键技术
在汽车向着智能化、网联化和多功能化发展的今天，座舱的智能交互、操作方便性成为消费者关注的重点，智能座舱正在成为汽车厂商争夺的高点。本文分析了智能座舱的关键技术，以及其正在面临的技术瓶颈，最后预测智能座舱技术的未来发展趋势。

StopNet：为城市自动驾驶的可扩展轨迹预测和占有预测方法
本文介绍了一种运动预测（行为预测）方法——StopNet，在不牺牲准确性的情况下满足密集城市环境自动驾驶的延迟要求。全场景的稀疏输入表征，允许StopNet扩展到数百个带可靠延迟道路智体的预测轨迹。

揭开ADAS感知摄像头 - 分辨率和帧率的神秘面纱
本文介绍了汽车摄像头系统的分辨率（以 Mpixel 为单位）和帧速率 (fps) 选择的见解，重点是单目前置摄像头，当然也可以用于后/侧摄像头选择参考。

AR/VR

锐评 | VR不“香”？所以罗永浩创业选择AR
3月21日罗永浩发文称，自己要做的是AR，不是VR；6月7日罗永浩在跟网友互动时，强调“自己不做VR”，言外之意是他只做AR。罗胖子一直强调做AR，那么问题来了，AR有什么魔力能够击败VR、MR呢？这就是此次锐评，明哥要跟诸位探讨的主题。

推荐阅读

像大脑一样，纳米磁体网络可用于执行类似 AI 的计算处理，可降低能耗
目前，全球每 3.5 个月人工智能的能源成本就会翻一番，这对于人工智能的发展会逐渐成为一个巨大的限制。这种由伦敦帝国理工学院研究人员领导的团队开发的新方法，使用像大脑中的神经元一样相互作用的微小纳米磁体，来执行人工智能任务。该方法可以降低人工智能的能源成本。

速读 OSI合作的《2021全球开源趋势报告》
最近OpenLogic和OSI，联合发布了《The 2022 State of Open Source Report》，调研了全球2660个调研者，分布世界各地的企业用户，让我们花5分钟看看全球开源用户的使用趋势。

文本生成图像这么火，你需要了解这些技术的演变
目前多模态任务成为行业热点，本文梳理了较为优秀的多模态文本图像模型：DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点，及其迭代关系。

如何打造一款可靠的智能驾驶计算平台？
计算平台之于智能汽车，好比大脑之于人体，是智能驾驶架构中至关重要的一环。智能驾驶的决策规划依赖硬件+软件的协作，需要一个强劲的“大脑”来接收传感器的信号，处理信息，然后输出执行。计算平台不仅是车辆智能的执行主体，更是车辆功能安全的重要保障。

汽车显示器和智能表面触摸HMI
消费者现在生活在两个世界中——物理世界和数字世界。他们希望他们的汽车能够理解这种双重现实，并像他们的手机和其他智能设备一样无缝运行。这种对连接性的偏好是汽车内饰、触摸屏和驱动互联体验的基础技术发生重大变革的关键因素之一。

2022年视频业务基准报告
Vidyard发布了“2022年视频业务基准报告”。尽管2021年企业才开始恢复正常业务，但视频的使用量仍在继续增长。

全部评论

作者介绍

LiveVideoStack

相关文章

阅读排行

2周
4周
16周

热门视频

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

/

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

/

「线上分享」AMD面向8K UHD应用解决方案

/

活动推荐

LiveVideoStackCon 2023 深圳站

更多

@2017-2024 LiveVideoStack版权所有. 京ICP备20010033号-1 京公网安备 11010502042092号