B站开源自研动漫超分辨率模型,助力动漫UGC视频高清化

LiveVideoStack 2022年1月27日
作者:刘璟 郑龙
人类对于视频画质的升级是一个永无止尽的过程。从马赛克到高清画质,从720P到4K,视频平台正在不断提升画质,但目前各大视频平台的超高清内容还并不是很多,其关键在于超高清视频的制作难度远超普通视频制作,对设备以及后期技术的要求,为视频内容贡献者带来了很大的阻碍。
4K/8K内容缺乏始终是超高清视频产业发展的痛点,完善渠道、拍摄制作水平、技术等方面的不足是关键。随着软硬件能力的提升,4K的消费能力大幅提高,为了应对这种情况,需要提高4K的生产能力。除了新拍4K以外,超分4K是一个降低成本很好的途径。最近,B站在上线8K画质的同时,还面向UP主提供了4K超分功能,并为各位UP主直接提供画质升级的功能。
AI超分辨率技术是图像修复技术领域的一个子集方向。动漫视频的产出过程中往往带有一系列数字信号处理的过程,其中不乏原盘带有锯齿、晕轮、色块、不符合预期的噪声、作画分辨率过低后期放大导致的线条模糊等情况出现,动漫压制组往往需要对源进行下采样,在母带分辨率下对不同片段进行参数分析,并串联一系列滤镜进行手工修复,这造成了很大的人力成本。
在对大规模高质量二次元画风数据进行质量降低得到模拟的、需修复的原盘数据后,AI得以通过学习从低质图复原原图的逆过程来进行图像修复。当输出图像分辨率大于输入图像分辨率时,该技术被称作AI超分辨率技术,经过该技术处理后的图像可以在指定分辨率实现高清化。
图片
B站自研的动漫超分模型训练先行对动漫帧进行切块处理,使用图像质量打分模型对候选块进行打分过滤,得到一个百万级的高质量动漫图像块训练集。然后使用多阶段降质算法,将高清图像块降采样得到低质图像,让AI模型学习、优化从低质图像到高质图像的重建过程,训练完毕后即可对真实的二次元低质图像进行高清化处理,B站将开源推理阶段的模型参数与推理代码。
这种动漫图像超分模型被B站称为:Real-CUGAN,全称为Real Cascaded-U-Net-style Generative Adversarial Networks(真实的、级联U-Net风格的生成对抗网络),是一个使用了与Waifu2x相同的动漫模型结构,但是因为使用了新的训练数据与训练方法,导致形成了不同的参数和推理方式的模型。目前,B站已经将该技术开源。
将Real-CUGAN与目前广为流行的、针对动漫有特别优化的,开源模型Waifu2x(使用最新版CUNet-Noise3模式,下同)与Real-ESRGAN(使用最新动漫特别优化版RRDB_Anime6B,下同)进行对比,可以看到Real-CUGAN在速度和兼容性等方面都有一定的提升。
速度:Real-CUGAN、Waifu2x均约为Real-ESRGAN的2.2倍速度(V100上PyTorch推理速度约为6.3fps);约为通用型Real-ESRGAN模型的8.4倍速度。
原理:Real-CUGAN采用与Waifu2x-CUNet相同的模型结构;Real-CUGAN的高清私有训练集块数量高达百万级,Waifu2x与Real-ESRGAN均为私有库,量级与质量未知;Real-CUGAN额外在频域上进行监督训练,Real-ESRGAN使用谱归一化U-Net鉴别器结构生成对抗训练。
兼容性:Waifu2x拥有最大的受众群体,有大量Windows上的APP应用,支持VapourSynth,享受N卡CUDA加速,也可通过NCNN模型使用A卡加速;Real-CUGAN与Waifu2x模型结构相同,可通过替换参数文件与现有APP完美兼容,也可通过开源的Windows应用使用;而引入Real-ESRGAN的Windows应用目前并不多。
功能性:Waifu2x支持不同降噪程度的1倍与2倍分辨率修复;Real-CUGAN目前支持2倍、3倍、4倍分辨率修复(未来将支持调整修复程度与任意倍率分辨率修复);Real-ESRGAN动漫优化模型只支持4倍分辨率修复。
效果:我们使用一些具有典型性的难样本进行测试与主观性对比。
如下图所示:左上为输入,右上为Waifu2x,左下为Real-ESRGAN,右下为Real-CUGAN。
case1:纹理挑战型(测试图来自《侦探已死》第一集10分20秒)
图片
通过对比可知:Waifu2x只有降噪,没有对线条的优化,锐利度最低;Real-ESRGAN纹理保留性最差,阴影处涂抹干净了;Real-CUGAN综合处理得最好。
case2:线条挑战型(测试图来自《东之伊甸》第四集7分30秒)
图片
通过对比可知:Waifu2x只有去块与降噪,没有对线条的优化,锐利度最低;Real-ESRGAN对于较粗、较虚化的线条进行了错误处理,红框中的嘴部线条中间虚两边粗;Real-CUGAN线条锐利,处理正确。
case3:极致渣清型(测试图来自Real-ESRGAN官方测试样例)
图片
通过对比可知:Waifu2x对jpeg压缩噪声未能处理干净,产生了部分更差的效果,反而使得画面变脏;Real-ESRGAN使画风发生了改变,无中生有产生杂乱线条,左下线条、右耳边缘处理异常,且出现偏色问题;Real-CUGAN表现最好。
未来,B站将针对不同品类适配不同的超分算法,并且使用窄带高清算法降低卡顿率提高流畅度、辅助客观画质评测加主观评测系统保障视频质量。
目前B站的OGV国创剧《镇魂街第二季》 (https://www.bilibili.com/bangumi/play/ss5626)已经上线了动漫超分4K清晰度,部分UP主也能体验到超分功能。
为了方便更多的创作者,B站将提供超分工具供用户下载使用,并且同时在Github上开源了超分算法:
https://github.com/bilibili/ailab/tree/main/Real-CUGAN
本次开源面向了不同群体:包括Python(PyTorch)玩家、VapourSynth专业视频压制玩家和Waifu2x-Caffe玩家、爱好者等。
网盘下载模型参数、Waifu2x-Caffe模型参数和Windows可执行程序:
百度网盘
https://pan.baidu.com/s/10NbgnusDucllKiE0sgBWvQ
提取码 ds2a
SVIP不限速
和彩云
https://caiyun.139.com/m/i?015CHcKp82h15
提取码 1ONM
手机号验证码登录,不限速无需客户端
谷歌盘
https://drive.google.com/drive/folders/1UFgpV14uEAcgYvVw0fJuajzy1k7JIz6H
后续B站将对该仓库进行持续更新,其中包括:
  • 将模型进一步轻量化,提高推理速度,降低显存占用需求

  • 可调整的增强锐度,降噪强度,去块、去模糊强度

  • 一步超到任意指定分辨率

  • 优化纹理保留,削减模型处理痕迹

  • 积极收集issue与用户意见,对模型进行持续优化改进

B站开源的动漫超分模型将助力更多的二次元UGC用户付出更少成本,更加便捷地制作出更高清高质的视频,同时有助于4K、8K高清视频的普及与推广。从推理速度、修复效果、处理痕迹等角度看,该模型将能够通用化,并达到先进水平。
 
还可输入800
全部评论
作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周