一切为了高清——金山云魔镜平台助推5G高清应用

AI 5G
LiveVideoStack 2020年6月30日

大家好,我是来自金山云视频云团队的蔡媛,很高兴可以在LiveVideoStackCon2020首届线上峰会与大家见面,本次我分享的主题是:一切为了高清——金山云魔镜平台助推5G高清应用。在5G时代,超高清视频直播点播业务飞速发展,你是否也面临这样一些问题,比如AI超分或者美颜会不会有bad case?局部的暗场和色彩增强的效果如何?磨皮去噪是否丢失了细节?金山云魔镜平台就是为了解决以上问题而诞生的,其目的是建立符合用户”感知愉悦度”的评价体系,深度解析算法对主观画质的影响。


01
PART
金山云视频云介绍


本次的内容将从以下几个方面进行介绍:首先介绍金山云视频云的整体情况;其次分析视频行业的痛点;再次重点介绍金山云魔镜平台是如何解决视频图像质量的痛点以及其中的核心技术难点;最后分享魔镜平台的客户案例。



1.1 金山云视频云简介


金山云创立于2012年,是中国前三的互联网云服务厂商,于2020年5月在美国纳斯达克成功上市,业务遍布全球及多个国家和地区。成立八年以来,金山云始终坚持以客户为中心的服务理念,拥有120多个行业解决方案,服务于243个头部客户,为客户提供安全、可靠、稳定、高品质的云计算服务。


金山云视频云拥有六大核心技术,包括视频编解码技术、图像处理技术、质量评价体系、人工智能、边缘计算、网络传输技术。在六大技术的基础上构建了五个产品,分别是金山云魔镜、AV1、KSC265、人脸修复、超分。又在五大产品的基础上构建八大行业解决方案,包括直播行业解决方案、点播解决方案、云游戏、评价体系、集智高清、KIE、智能审核以及VR,这些方案为图中九大行业进行服务。


1.2 金山云视频云优势介绍


金山云视频云的优势体现在:一是构建在金山云庞大的云计算和云存储基础上进行服务,所以拥有大规模的缓存系统,流量调度系统以及各种编解码转码系统;满足互联网各种视频应用业务场景的需求,为客户提供完整的解决方案;并且有大数据平台可以帮助客户进行实时的大数据分析。二是在视频垂直细分领域有强大的经验技术积累的基础,比如金山云视频云在存储、CDN、视频编解码和人工智能方面都有非常强的技术储备;曾荣获2018年亚太CDN年会“最佳创新奖”,并且多次获得MSU编码大赛冠军;而且基于AI的云转码“集智高清”可以为客户节省58%以上码率,属于行业领先的水平。



02
PART
视频行业痛点


2.1 视频行业的痛点


视频行业实际上处于一个高速发展的阶段,用户的痛点也在不断发生变化。视频行业的痛点主要体现在:首先客户终端发生了变化,即从电视到手提电脑到Pad到手机,而且手机终端的应用也有极大的丰富。


其次视频的高清体验不断提升,分辨率从1K到4K到8K超高清、立体声从单声道、双声道到立体声道、帧率从10fps到30fps到60fps,都有很大提升,所以随着视频行业的发展趋势,在带宽、网络极大丰富的背景下,高清相比码率的需求会增加。同时视频内容发生变更,PGC、UGC、云游戏的出现,当手机娱乐达到一个瓶颈时,会螺旋式地向大屏方向发展,包括pad、8k超高清电视等。netflix,google stadium 就是很好的例子。


Netflix是美国最大的流媒体播放服务商和美国最受欢迎的视频网站,电视会员群体发展非常良性,而google stadium则在大屏上具备了比手机端更加非凡的效果。


2.2 量化主观质量的难点


在5G时代,视频高清发展不断提升的大背景下,如何不断地提升高清体验,如何衡量包括超分、修复、增强等这些视频质量效果是量化主观质量的难点。


我们从线上爬取了14万的数据,并筛选了1000个视频,每个视频时长在五秒钟左右。在1000个视频里进行随机地编码和缩放失真,生产了2000段噪声数据,并对这2000段噪声数据进行标注,总计有15万次标注。


通过VMAF、PSNR数值得出VMAF、PSNR的SROCC值并不高,这反映出虽然拥有客观评价指标,但客观评价指标实际上很难量化主观观看的效果。这仅是编码失真的衡量上就体现出这样的难点,那么AI增强以及修复等增强的效果可能更难去衡量。


2.3 提升视频高清体验的关键点


如何不断地提升视频高清体验,关键点是需要有一个明确的可量化的质量目标。回看南辕北辙的故事总结出目标的重要性,做任何事情,在行动之前需要明确一个正确的目标,这是做成一件事情的前提。因此提高视频高清体验也需要一个明确可量化的主要目标,这样才能支持高清路线迭代地向前发展。



2.4 视频主观画质可量化指标的难点


建立视频主观画质可量化指标主要从以下四个方面进行分析:


首先是视频的筛选,如何从海量视频里挑选具备代表性的视频和内容的覆盖面广度是比较关键的问题,因为不同的视频测试集,最终得出的测试结果完全不一样,那么测试序列该如何筛选呢?


其次是评测维度的制定,哪些评测维度是有必要衡量的,用几分制?全参考和无参考的模式也不相同。


再次是评测质量,因为评测需要多人的评测才能得出一个平均分数,那么多少人的评测才能既保证评测的精度又不浪费人力成本?同时还要考虑评测的结果是否需要筛选,数据如何分析的问题。


最后是数据映射,不同时期,不同情景下的评测分数,如何将这些不同时期的数据进行数据映射这也是其中的难点。以上四点是我们认为的评测中的难点。


03
PART
金山云魔镜


3.1 金山云魔镜的作用


上图部分介绍了金山云魔镜平台是如何解决上述问题的。一是平台提升了评测效率和质量,魔镜平台是以在线平台的方式提供图像和视频评测服务,不需要下载;评测的任务是通过流式管理,大大提升了评测的效率,并且可以通过平台监控主观评测的质量。


二是平台提供专业的评测方式,支持全参考模式、无参考模式和OAA模式这三种评测模式;支持自定义评测维度,并为客户提供客观评价指标的自动化计算。


三是平台的背后还有评测专家的支持,帮助客户进行合理的视频筛选以及评测维度的制定,而且提供专业的评测报告和数据分析。


最后所有的这些平台功能和专家团队的支持,实际上都是帮助客户提升图像和视频产品的主观质量,提升客户产品的感知愉悦度。


3.1.1 视频筛选


在细节解读方面,首先是视频筛选,传统的基于内容的筛选实际上存在比较大的缺陷,比如传统的分类包括篮球、足球、综艺等分类,但这只是筛选的其中一个维度,还需要对特征质量包括色彩、亮度、噪声、抖动等特征进行筛选,但这些特征是连续的、非离散的,没办法通过穷举的方式得出合适的筛选集,需要通过筛选的算法达到这样的效果。


魔镜平台在数据筛选方面有以下几个步骤:首先将海量的数据集经过数据过滤,再通过均衡算法进行筛选。均衡算法里包括特征均衡、质量均衡、内容均衡。特征均衡主要包括亮度、色彩、边缘等特征;质量均衡包括噪声、模糊、抖动数据集的均衡;内容均衡包括运动的动态、静态、远景、近景。综合这些均衡算法可以得出一个综合的考量的数据集。

下面两张图是筛选前后的一个对比,在筛选前的原始数据分布是极度不均匀的,其呈现的特点就是中间大两头小。经过均衡筛选后的数据集,在各维度的分布上都更加的均衡。


3.1.2 测频维度


数据集筛选之后就要开始制定评测维度,评测维度有哪些?每个维度如何设定分数,分数如何描述和量化以及维度之间是不是具有相关性,这些对一次评测的成败有比较关键的影响。


对视频质量而言,存在多种多样的场景,比如在采集和压缩中带来的噪声,拍摄中的暗场和过曝,或对焦失准造成的模糊,还有色彩问题、动作卡顿、磨皮造成的细节丢失,或者AI增强、暗场增强造成的违和感、过锐,美颜和超分造成的形变和异常。这些场景对于评测维度的制定有很大的相关性,和客户的场景也有很大关联性。


场景分析之后需要确定评测的方式,魔镜平台提供三种评测模式:


专家模式也是全参考的评测模式,就是full reference,指的是两个视频进行对比时,其内容一样但质量不同,比较适合10到15个人快速查看结果。


用户模式也叫无参考模式,就是no reference,针对一个视频进行打分,比较适合真正模拟用户的实际体验。通过用户实际体验结果结合下图分析,随着评测人数的增加,SROCC分数是不断提升的,但人数到达55人之后,SROCC分数提升的幅度会越来越小,因此锁定用户模式的人数是在50到100人。


细粒度模式也叫OAA模式,即挑选一类的视频,用于小差别的PK对比,人数在20到50人之间。评测的时候客户可以根据自己的实际情况选择评测模式。


在评测分制之前要注意一些评测细节,包括观看终端、分辨率的要求、观看距离、视频播放次数、图片观看时间,这些都有相应的要求。


评测维度有两种维度:整体维度和局部维度。


整体维度包括整体主观效果、模糊、色彩、亮度、细节处理等。以整体主观为例,给评测员呈现的不是1到5分,而是具体的描述,比如难以忍受、令人不悦、普通、令人舒适、赏心悦目,这些描述对用户标注的指引性作用非常强,比如对舞蹈的描述是无可挑剔还是赏心悦目,这两个选择是经过较多的讨论才确定的,认为赏心悦目是更符合用户的选择习惯并且能更明确视频质量的一个质量指标。


对于局部维度关注较多的是人脸,包括模糊、肤色、明暗、细节纹理、噪声这类维度。以模糊为例,是显著、轻微还是没有。局部围度还可以是头发、唇色等,这个可以基于用户场景来确定。


实验论证方面会给各个维度进行整体打分,分析维度之间的相关性以及各维度对整体打分的影响。下表中主观画质和模糊、噪声、色彩的关联度非常高,但与亮度的关联性较低,那么对于这个数据集的用户来说,其算法可以重点关注模糊、噪声、色彩,可以降低对亮度的关注点。


分析结束后需要对标注者情况进行分析,如标注者对视频评测分数的离散程度如何,对每一个标注者进行一对一的交流,并发放问卷以反馈更细粒度的问题,可以了解到影响用户体验的具体地方。


3.1.3 测评质量保障


金山云魔镜平台从平台上保证整个评测质量的正确性,拥有整套的评测流程。首先会对评测者信息进行统计,包括基本信息、岗位、设备、爱好等等,再对其进行教学,以保证其操作符合平台的引导。


接着进入考试,考试的题目是专家评测提供的测试题库,之后才能进入评测任务。在评测过程中会随机加入验证的题目以监控整个评测的有效性。


最后平台上有一些埋点的分析用以分析评测者的行为,保证整个评测的有效性。


3.1.4 测评结果分析


当整个评测完成之后会自动生成评测报告与合格性报告,评测报告里会包括评测者的分析:有效性判定、评测者信息分析;评测数据分析:评测分布、评测置信度、类型分析;评测维度分析:维度相关性、主客观相关性;合格性分析:图标绘制、界面显示。


3.1.5 数据映射


因为评测可能是在不同时期以及不同场景下评测的结果,不同时期人们对高清的定义是不一样的,所以不同时期不同场景下的评测分数是不同的,那么如何将数据进行映射呢?


上图左侧是两个不同时期的测试集,分别是Koniq、KADID。我们在当前的数据集上训练的模型,在对方的数据集上表现出的srocc和plcc是比较低的,但如果把两个数据集一起进行训练,在两个数据集上srocc和plcc表现的都比较好。如果使用数据映射之后再一起训练,srocc和plcc将有四五个点的提升,这是更上一个台阶的提升。上图的右边是对进行数据运算的算法的分析。


3.2 魔镜平台功能


魔镜平台是一个为了方便评测人员和评测任务管理员的平台,其提供的功能主要包括:项目及评测任务管理、支持图片、视频在线评测、自定义主观评测标准、支持同时多人主观评测、集成客观质量评价算法以及自动生成专业评测报告。


3.2.1 测评模式


金山云魔镜在平台上提供了三种评测模式:


一是专家模式(全参考模式),这种模式比较容易看出细微的差别,适合专家进行评测。


二是用户模式(无参考模式),符合用户最终使用场景,直接评判主观效果,必须有大数据保证消除误差。


三是精细对比模式(OAA模式),用于模拟用户场景的同时兼顾细粒度对比,且可以克服场景有略微区别的难题。


3.2.2 自动生成专业测评报告


评测平台会自动生成专业评测报告,评测报告包括各个维度的评分、评测员的分析、Badcase的展现等,以及各个维度优势、劣势的对比,主观评测和客观分数的拟合程度也会呈现在整个评测报告中。


3.2.3 魔镜平台适用场景


魔镜平台主要适用于三个场景:


场景一适用于算法团队的内部算法迭代。算法迭代之后如何评测评估效果?首先需要制定精准的测试集和测试维度;其次生成对比评测任务,把旧版本和新版本的效果在平台上进行对比评测,最后产生评测报告。


场景二适合于用户实际观看体验的评估。这需要拉取产品线上的视频数据和图片数据,并确定评测维度,再生成无参考评测任务进行评测,最后产出评测报告。


场景三适用于竞品对比分析。比如对比抖音和快手两个竞品的视频质量水平,需要先爬取竞品不同类别的视频作为测试集,再生成OAA评测方式的评测任务,对比不同竞品的效果,最后产出测评报告。


3.2.4 测评服务


除了平台之外,我们还提供了评测服务。评测服务有三个方案:


方案一是只使用魔镜平台的模型效果对比,和内部主观评测以及开源客观评价指标计算。


方案二在方案一的基础上加入了第三方人工评测服务。


方案三在第三方人工评测服务的基础上加入了专家咨询,可以向客户提供更深入的画质咨询服务。


金山云魔镜平台的愿景是以魔镜平台做一个抛砖引玉的点,可以寻求更多的合作,以共同打造完善的画质评价体系。该画质评价体系是符合国人审美的,可以用于不同终端的评价体系。此外,我们也希望可以借助金山云魔镜平台连接学术界,把更精准的工业界需求传递给学术界,推动技术的发展。最后希望可以有明确可度量的评测分数以促进高清技术的进步和应用。


04
PART
成功案例


这部分我将分享一些魔镜平台的成功案例,魔镜平台的客户落地效果,反应都非常得不错,主要以两个亮点突出的案例进行分享。


4.1 案例一:小米KIE


案例一是小米,我们为小米MIUI图像增强的支持提供了基于AI超分技术,通过超分技术可以大幅度提升画质,并且可以部署在手机端。在对接小米优化调试的整个过程,我们花了3个月时间迭代更新5个版本,确定600张图片作为测试样本。通过优化,整体评分从3.78分提升到了4.21分,整个调优过程都是在魔镜平台进行。


该项目成功在小米新手机的发布会上作为功能亮点进行宣传,并且在MIUI10上正式落地。


4.2 案例二:CCTV集智高清


客户案例二是央视,央视在世界杯和春晚上的带宽是非常高的,其直播业务也非常重要,而央视的一个痛点是需要非常高的带宽,所以其直播时存在带宽高以及画质存在模糊、噪声和色彩饱和度不足的问题。


针对这些痛点,我们为客户提供了集智高清的解决方案。该方案一方面为客户降低带宽,另一方面提升画质。降低带宽主要是应用了图像预处理、视频分类、感知编码、Per-tile等编码技术,大幅度降低码率;并采用云转码方案,提升卡顿率和首屏时间等指标。画质提升主要利用AI技术进行去噪、去模糊以及色彩增强;又挑选163个测试视频,经过两个月的优化,使主观评分达到3.64分。


在整个调优过程,魔镜平台整个的优化效果确认上都是非常重要的,并且给予整个调优效率上高效的支持。


4.3 合作伙伴


我们合作伙伴主要在学术界和工业界两个部分,学术界方面主要是和香港城市大学进行学术上的交流和合作,以及对算法上的迭代进行合作和交流。工业界方面主要是和Intel在画质以及编解码上进行比较深入的合作。此外,魔镜平台对SVT-AV1的主观画质给予支持,共同进行主观画质的评测和评定。


希望有更多的朋友可以使用魔镜平台(https://kqoe.ksyun.com/),并且同我们一起在主观画质评测这个话题上,能更进一步的进行交流合作。
还可输入800
全部评论
作者介绍

蔡媛

金山云

高级技术总监

文章

粉丝

视频

阅读排行
热门视频

SRS实用手册-一剪定乾坤(10)

杨成立/RTC服务器团队负责人

WebRTC视频数据流程分析

许建林/《WebRTC Native开发实战》书籍作者