LiveVideoStack » 标准常有，VVC不常有

标准常有，VVC不常有

VVC 5G 视频编解码开源

LiveVideoStack 2020年12月8日

作为第一个有中国企业参与制定的视频编解码标准，VVC （Versatile Video Coding）自定稿以来就热议不断。与5G 交叠的时间线，让人们对 VVC 的未来应用充满了想象；顶着各种“第一”的头衔，也使它成为国内各大厂商的PR利器（但本篇无广，请放心浏览）。“得到认可”对于中国的互联网公司来说，总是超乎寻常的重要。

又或许，标准常有，VVC 不常有。

以下内容由LiveVideoStack与李翔和朱斌的采访整理而成。

“我叫李翔，来自腾讯多媒体实验室，目前主要负责多媒体相关标准工作。我是2017年底加入腾讯的，加入腾讯的第一个工作就是新一代视频编解码VVC的研发制定，这也是我们的一个重点项目，直到今年7月份 VVC 第一版制定完成。后面也应该会继续在这个方面工作，主要是在多媒体各个领域开发新的技术，进一步满足用户的需要，提升用户体验。”

LiveVideoStack：您之前在高通是吗？

李翔：对，我之前在美国高通，也是做视频编解码标准相关的工作。现在负责的范围更宽一些，视频编解码还是重点，因为这也是腾讯业务应用量非常大的一方面。当然也有其他跟多媒体业务相关的标准工作，包括系统、传输以及媒体AI。

LiveVideoStack：您刚到腾讯多媒体实验室就开始负责VVC这个项目，主要负责它的哪些方面能具体说一下吗？

李翔：具体就是这个标准的研发制定。我们负责研发、开发新的技术，将新技术贡献给标准，同时也把一些新的技术引入腾讯。

LiveVideoStack：也就是说这个项目是刚刚开始就在您的手里是吗？

李翔：对的。在这个团队建立之前，其实腾讯这边并没有做多媒体标准的团队。以腾讯的相关业务量来看，包括业务出海的需要，高层觉得这是非常必要的事情，因此组建了这个团队，开始做相关的工作。

LiveVideoStack：您的团队现在有多少人？

李翔：VVC这边六、七个人。

LiveVideoStack：都在美国吗？

李翔：有的同事在美国这边，也有国内的，也有韩国的、法国的，分散得还挺开的。

LiveVideoStack：大家都是远程办公吗？

李翔：由于疫情，多数目前在家办公。

LiveVideoStack：最后一个关于您个人的小问题，有关人员的招募，是您到了之后才一点一点把这个团队组建起来的吗？

李翔：是我们实验室的联合负责人刘杉博士把我和另外一个同事先招进来的，然后逐渐人员才多起来的。

我叫朱斌，是2018年底加入腾讯多媒体实验室的，主要负责视频编解码产品的开发和优化，最近主要负责的项目就是VVC，另外我们还负责其他Codec的编解码项目，包括不同的软件、硬件以及跟不同的部门进行合作。

LiveVideoStack：您之前也一直从事视频编解码方面的业务吗？

朱斌：基本上是，我可能做得稍微杂一点，编解码和计算机视觉都做过一些，之前在苹果和英特尔工作，基本跟编解码也有一些关系。

LiveVideoStack：您做编解码优化的主要方向是什么？

朱斌：第一个，我们要符合标准。因为这个编解码毕竟是一个市场，肯定要跟其他的生态环境都能匹配，包括不同的硬件，操作系统等，都需要匹配。同时，编解码这里边有很多算法以及你怎么去优化，这部分可能用到刚才你说的神经网络、AI，跟这些技术可能都有结合。所以编解码并不只有一个单纯的方向，其实涉及的领域还是挺多的。

LiveVideoStack：您是有一个自己的团队吗？还是说两位老师是在一块儿的？

朱斌：我们都是在多媒体实验室，我们各自有各自的团队，现在我们都在做VVC的相关工作，我和李翔博士团队也有一些共同开发的交流，包括开源的player我们两个团队都有一些贡献，大家各自贡献自己的长处。

LiveVideoStack：在开源这个部分，你们两位是怎么分配的？

朱斌：代码这些都是我们两个团队共同有一些贡献，我们没有什么具体的分工，但可能各个团队有各自的长处，我们团队可能产品的经验相对多一点，所以在优化上相对来说我们经验比较丰富；李翔他们团队对标准很熟，我们基本上是互相借鉴，大家共同推动这个标准。

LiveVideoStack：您一开始接到VVC这个任务的时候，对VVC的了解是什么样的？现在您眼中的VVC性能如何？这期间认知转变的过程，可以跟我们分享一下吗？

朱斌：我一开始做VVC的时候，这个标准还没有制定完成，包括李翔来的时候，这个标准也刚开始，我们基本上是一边摸索一边优化，然后提出一些新的建议。

当然这个标准跟前一代的标准也有一种迭代关系，不是完全凭空产生的，基本上也是基于以前的压缩标准进行的优化，加了一些更适合硬件的、或者是针对现在的市场以及以后的发展，包括8K、5G，做了很多的优化，比如降低码率、提升质量等等。对我们来说，有很多挑战，但以前很多经验还是可以拿来借用的，这是一方面。

在开发过程中，因为标准也在改变，定稿之前做了很多不同的版本。我们这边做优化实现的时候，也要跟着版本不停迭代改动，这部分挑战比较大，之前有些做的东西不见得能在标准里采纳。为了跟标准保持同步，我们这边的开发和优化要一直跟进，可能有些东西在产品里并没有用上，但我觉得这也是学习的过程。

对以后的发展，我觉得VVC毕竟也是一个世界标准，各个国家的专家都在里边投入了很多，以后大家对带宽和压缩率的要求越来越高，包括高分辨率、360度的视频，我觉得还是有很好的市场前景的。但毕竟标准才刚刚制定完成，所以有一段时间大家需要去接纳、认识、熟悉，但是从以往的经验来看，我们觉得VVC应该会是非常成功的标准。

LiveVideoStack：您刚刚提到有关挑战的问题，可以请老师具体分享一个技术上的挑战吗？

朱斌：这个标准都是针对几年后的市场做的，所以肯定在复杂度上比现在的标准要复杂几十倍，甚至复杂几百倍都有可能，这个挑战就是如何在现有硬件资源的基础上很快地跟标准兼容，能够提出比较优化的算法，同时能够尽快地跟市场兼容，我觉得这个是比较大的挑战。

LiveVideoStack：您这边的应对策略是什么？

朱斌：首先我们要根据以往的经验，判断哪些工具或者标准里的东西是对我们帮助最大的，那么我们就会优先优化那些部分。当然中间还涉及很多各种不同的编码工具和算法，我们当然也是根据不同的市场和需求会有一些取舍，基本上就是这样的策略。但这不是一两天的工作，视频压缩的标准可能是五年、十年不断优化和完善的过程，所以我觉得我们还有很多的工作要做。

LiveVideoStack：谢谢朱斌博士。李翔博士您是如何客观看待VVC的性能、亮点、改进空间以及未来愿景的？

李翔：我想先回顾一下之前的视频编解码标准。

最早的是H.120；第一个大规模用的是H.261，是视频通话的标准。我们现在说的VVC，其实又叫H.266，从H.261到H.266，基本上是六代。目前市场上用的比较多的H.264，还有H.265，也就是HEVC。现在到H.266（VVC），自H.264以来，每一代标准比上一代的性能基本都提高了50%，换句话说就是带宽成本降低50%。从H.264到H.265是十年，从H.265到H.266是八年，迭代周期很长。

为什么会这么长时间？刚才朱斌博士也介绍了，这个涉及到很多技术，技术积累也非常困难，每一代标准相对于前一代标准，在业内肯定是划时代的突破，因为50%是非常困难的事情。这些性能是从哪儿叠加出来的？目前，并没有一个编码工具能一下子提高20%-30%的性能。现在很多都是1%或者2%慢慢积累起来的，这也是每一代要积累这么长时间的原因。

刚刚你问到VVC的性能，它也是在主观质量不变的条件下可以降低码率50%。客观的说，性能还是相当不错的。

另外一个亮点，从VVC的名称来看，中文直译是多功能视频编码，这个多功能体现在什么地方？有很多应用。之前H.264/AVC、H.265/HEVC，在第一版里并没有照顾到这么多应用，但现在的视频需求越来越广。

2003年H.264基本完成时，那时候主要的应用是高清视频，720p和1080p，还有DVD大小的视频。

2012年左右完成H.265（HEVC），主要应用已经不只是高清，已经开始看4K的视频了，还有立体3D视频。当时电影《阿凡达》让3D热了一下，后来也逐渐沉寂下去了。到H.266/VVC，则照顾到了很多应用，HDR、4K乃至8K，包括朱斌博士提到的360度的视频编码、VR头显、屏幕编码这些都照顾到了。我想，照顾到了这么多应用，这个前景应该还是非常不错的。

另一方面，因为现在的主流，或者说目前市场上90% 应用的还是H.264或者H.265，这个也是现实。但我们也可以看到现在的趋势，从2015年到现在，全网高清的1080p的占比已经增加了1倍到2倍，但是超高清4K乃至以上的增长了5倍，其他分辨率的视频则降了很多。可以看到，未来的趋势肯定是4K乃至8K，因为VR这种虚拟现实的应用对分辨率的要求非常高，一般在8K以下是不能满足用户需求的，所以肯定是8K以上。

H.264、H.265对8K的支持是非常困难的，简单的说就是需要的带宽太多了，难以支撑。现有的无论是卫星频道，还是地面广播的有线电视，或者是直接用WiFi，这个都是难以支撑的。在这种情况下，目前没有其他可选的，那就只能是VVC了，而且VVC也是目前为止提供压缩比最高的，我相信将来这也是一个很正常的市场选择。

LiveVideoStack：您说的将来是多远的将来？

李翔：刚才提到每一代视频标准，基本十年是一个周期。朱斌博士也提到，一个标准刚制定完成的过程中，因为有迭代周期，覆盖的市场也差不多是八年到十年的过程，从商用到被下一代标准取代，差不多也是这个时间，可能还会再长一点。大概就是从现在开始两三年到未来十年的量级。

我们也在大力投入，希望减少中间的过程，我这边主要是做标准制定，朱斌博士这边是产品化，把它真正落地。我们现在合在一起，也是希望能加速这个进程。包括你提到的Player，为什么要开源？因为这个的优化也是非常困难的，我们开源了以后大家都能用，可以促进大家对它的接受程度，也可以让大家尽快试起来，如果大家都觉得好，就可以马上试起来，也能达到我们想让大家早日用上的目标。

LiveVideoStack：刚刚老师们都说的是VVC有多好，我们肯定是要拥抱新的标准，但其实对于技术人员来说，每推出一个新技术，肯定都有一定的权衡，我们想了解的VVC的trade-off，取了什么舍了什么？

李翔：主要就是朱斌博士刚刚提到的复杂度高，这个表现在很多方面。一方面是直接的运算复杂度高，当然我们可以有各种的优化方法，有很多经验可以加以提高。但是如果从算法本身的复杂度来说，那就是高。trade-off就是用复杂度换了压缩性；

另一方面，多功能编码照顾各种场景，这也是为什么不可能一个编码工具一下就能提高很多的原因，有的工具这个场景适合，有的工具那个场景适合。

举个简单例子，视频压缩里有运动估计和运动补偿，基本原理非常简单。我们知道视频其实是一系列的静止图片连在一起，你连着放，通过人眼的视觉暂留就能看到它是活动的，基本是每秒钟24-30帧以上。这么多帧连在一起，每一帧的变化很小，这个也非常直观。那么一个简单的压缩方式就是用前一帧预测后一帧，告诉后一帧哪些地方动了，只压缩动的部分，其他的部分不用额外压缩，这就是运动补偿的基本原理，想法非常直观。

运动有很多种，最简单的是物理平动，从这边移到那边，只需要两个参数，横向运动和纵向运动。复杂的运动会包括旋转、缩放，需要额外的参数。此外，正常拍摄近大远小，从近处跑到远处，物理本身没变，但看起来就变了，也涉及缩放。这些都可以用仿射变换来描述。基于仿射变换的运动补偿对旋转和缩放的效果比较好，但复杂度也相应高得多。在一段视频中，如果真的有仿射运动，效果好，复杂度花得值当。但如果不是仿射运动，只是平动，还保持这个复杂度就比较浪费了。

从这个例子可以看到，我们要打磨产品，要针对各个场景进行优化，不同的场景有不同的策略。总体上，是用相当大的复杂度来换压缩比。前面介绍了压缩比的提高都是一两个百分比逐渐往上叠加的。换句话说，新标准有很多新的编码工具。可以想象要从这么多的编码工具进行比较选择，然后找到针对某一部分最好的工具将导致什么样的复杂度增加。这也导致实际中必须要根据不同场景进行优化。

LiveVideoStack：我们一直想用新的标准去改善现状，拿网络传输标准来说，Dash是更好的标准，有更多的优点，但如果你不想错过苹果的一整个生态系统，就还是要扩展HLS。如何在这种情况下去拥抱新标准？

李翔：感觉这个并不矛盾。因为新的标准、旧的标准，其实编码器和解码器可以共存，需要这个就用这个，需要那个就用那个，并不必须得是排他。

LiveVideoStack：像腾讯这样的大厂，可以兼容更多的标准，想用哪个标准就去用，有这个资本。但有的公司不想一下子把所有的标准囊括进来，他们没有那么多的时间和精力做这件事。

朱斌：可能也是根据不同的公司，有它自己面向的市场，因为腾讯面向的市场比较多，所以基本上各种各样的标准我们都要支持，但有一些小公司没有那么多的人力、财力支持这么多标准，那我觉得它就应该专注于它面向的市场，是实时、非实时，还是面向移动端，还是PC端，这个选择都是不一样的。我们也很难给出这种建议，但是我觉得每个厂商和公司，应该会根据它的客户需求和市场作出最好的选择吧。

LiveVideoStack：您如何看待编码器越来越多，选择却越来越少的困境呢？

朱斌：首先我觉得选择越来越多对客户是好事情，用户的选择会更多，各个标准之间有一些共存性，当然也有一些竞争性。我觉得竞争在市场上是好事情，会推动更好的标准、更好的优化，各个公司也会为了节省更多的带宽投入人力、研究、科研开发，这个我觉得是良性竞争。

LiveVideoStack：有的技术标准专家会觉得，一个编码器统一整个市场的时代是肯定不可能存在的，所以在未来，每个厂商，无论是小公司大公司，可能都需要支持更多的编解码器。对于整个生态来说，是照顾到了像腾讯这样的大公司，但腾讯的体量是非常大的，稍微比腾讯体量小一点的，可能就照顾不到。而且我看到我们腾讯多媒体实验室里提到了，要建立起一个生态，才能让大家拥抱VVC，所以我在想这个生态到底要怎么建立？

李翔：这个我补充几点吧。现在的H.265虽然平均码率比H.264要低50%，但是不是我们非要这50% 的高性能不可呢？刚才也提到，从2015年到2020年的统计占比，低分辨率视频确实是占比非常低，但是你直接说它没有也不行，它的基数还是非常大的。

2020年，全网视频流量占比是120多EB/月，什么概念？EB可能大家一般用不到，是10的18次方。一个GB是10的9次方，全网视频流量是120×109 GB，低分辨率的还能占10% 以上，这也是非常可观的量，这个份额还是非常大的。

另一方面，低码率的视频可以节省带宽，但单个应用所需的绝对带宽数值可能已经不高了。比如一个应用如果已经是256Kb/秒的量级，降低到128Kb/秒，是降了50%，但对这个应用的影响有那么大吗？或者说用户真的关注吗？如果对用户影响不大，一些低成本的设备，比如说很早期的手机，还可以继续使用早期的标准。

这也是市场多元化的原因，大家关注的点不一样，用户不一样，所以需求不一样，针对不同的需求，应用不同的标准。即使把VVC做成硬件编码器，那芯片的面积肯定还是比H.264大，成本要高。这种情况下有多个编码器，可以更好的满足不同用户的需求。

你提到的生态也是非常重要的，并不是一个小的厂商或者大的厂商的问题，主要是软件编码器和硬件编码器，中间还有一些FPA这样的解决方案。

硬件编码器的成本非常高，传统上是低功耗，广电系统，包括机顶盒，这些开发成本非常高，厂商不愿意支持成本高的编解码器，如果量上不去，成本拿不回来。但如果支持10个编码器，量都上去了，这也可以，要照顾到各个应用，如果每个应用量都非常大，这个是有可能的。

刚才说到的生态建设，硬件厂商关注的是：一笔的投入这么大，能卖多少？卖得越多，平均成本越低，这个很好理解，量才是他们关注的。对于我们软件厂商来说，尤其是我们这种视频服务提供商，比如腾讯视频等会占较大流量的应用，相对终端设备的成本，我们更关注带宽的费用。所以这个生态也是针对各个厂商不同的市场，是大家合在一起的。

为什么大家用这个标准？无论是一个标准还是多个标准，标准内部还是互联互通的。换句话说，A厂商压缩的，可以用B厂商的解码器进行解码，一个硬件厂商生产的这个，只要基于这个标准，什么厂商编码出来的都可以解，那这个生态就比较好，大家都可以参与。

怕就怕在，一个厂商以很大的成本做了一个编解码器，市场份额非常小。很快市场又要用另一个不兼容的编解码器。这种情况厂商的成本就会非常高，这个生态就不够健康。

回到刚才说的，包括Player的开发，可能小的厂商不愿意试错，因为成本还是挺大的。我们现在把编码器开源了，大家都可以用，当然这里头还有一些专利问题，这不是我们一家厂商能解决的。但我们希望降低大家使用新一代标准的成本，把整个生态做得更好，给大家用。

LiveVideoStack：谢谢李翔博士。刚刚我们可能是在比较宏大的语境下进行讨论，下面的问题轻松一点，咱们想了解一下两位老师在疫情期间工作的节奏，或者是与分布在世界各地的专家们合作的故事。

朱斌：对我们软件开发来说，疫情的影响并不是特别大，美国这边的工程师基本很多时候都习惯于在家上班，硅谷这边的公司平常的工作也是比较灵活的。我们这个团队在国内也有人员，疫情主要带来的问题，可能是我们的压力更大了，大家对于网上视频的需求越来越大，这就增加了公司对网络视频的重视，给我们带来更多的期望和要求，这个相对来说是疫情给我们带来的变化。

对个人来说，不能去公司，运动的机会就少了，基本都在家坐着，大家要注意一下生活中怎样锻炼身体，可能最近大家的体重都有点增长吧。其他的也没什么。

LiveVideoStack：这个视频的量上去之后，遇到了哪些难点，大家是怎么解决的？

朱斌：举个例子，我们团队不光做VVC，我们还会支持最近的腾讯会议，由于疫情，最近的量非常大，等于说我们团队在疫情期间要支持的产品就更多了，大家要兼顾很多不同的产品线，工作量可能比平常要大。熬夜是常态，已经不是什么很惊奇的事情了。

李翔：刚才朱斌博士说的已经是常态了。我们1月份去布鲁塞尔开标准会，开完会回来疫情就严重了。美国3月份封城，在家工作，到现在也8个月了。在家工作这8个月，感觉更累了。

以标准会议为例，我们三个月开一次会，每次大概12-14天，世界各地的专家聚集在一个地方去开，一般这个标准会议的强度也非常大，通常是早8点、9点到晚上12点左右，有时候会开到第二天早上。

之前的痛苦是路上要花时间，一般单程也需要一两天在路上，到了当地再倒时差，所以开头几天大家基本上状态不太好。在线会议的好处是不用倒时差了，坏处是大家分散在世界各地，要协调开会时间，导致夜里要开标准会，而白天还要继续当地的工作。在疫情之前出差开会，虽然睡得比较晚，但至少在会议当地的作息还是有昼夜的分别的。

LiveVideoStack：感觉就是上下班的时间节省用来工作了。

李翔：然后还要额外再多加一些时间，这个是之前没有遇到的。其他同学也都是类似这样，在家工作的基本假设就是一直在线，这个要求更高。大家知道，腾讯实时的聊天系统，包括微信、企业微信这些东西，好处就是你想找别人的时候非常快，坏处就是别人想找你的时候也是非常得快。

LiveVideoStack：现在我们常说新标准、新领域、新应用，基于这个概念，想请两位老师根据你们的经验讲讲基于VVC会出现什么样的新创？

李翔：我认为这个确实是很难的问题，新技术、新领域、新标准、新应用，这个我非常认可。每代标准制定过程中，都是从需求开始的，预计未来五年到十年有什么样的需求，我们会列出来，这也是VVC叫多功能编码器的原因，需求照顾面非常广。

最直观的是之前不容易被标准支持的，比如8K、VR这种比较困难，因为带宽比较大，必须压缩比比较高，才能实际应用。至于其他衍生出来的，坦白说现在预测还很困难。一方面，要更贴近市场，我们要跟用户站在一起，用户有什么新的需求，我们充分发掘，加以技术，把它真正做出来，让它变成现实，是所谓的新标准，新应用吧。

朱斌：我们这个编解码其实是一个比较核心的技术，我觉得可以应用的范围非常多，包括现在的短视频，以后可能是VR直播，利用VVC标准优势降低带宽，以后的带宽如果降下来，云游戏可能会更容易支持，各种各样的生态会在上面建立起来，这个也是标准带来的好处，可能推动更多的应用和Start-up想一些新的idea，给客户带来更多意想不到的应用吧，这就是标准带来的好处。

LiveVideoStack：刚刚提到8K，有人会认为8K这个东西比较适合在户外，或者在一些大型的活动当中适用，进入家庭是很困难的，咱们想了解一下VVC和8K之间会有怎样的可能？

朱斌：4K在之前也有人有同样的评价，说4K不可能进入家庭，但是现在超市里卖的电视机都支持4K了，我觉得首先这个跟大家的经济水平有关，包括以前的房间也没那么大，所以大家觉得房间都放不下这个东西，怎么可能看4K。现在这个已经不是问题了，这种预测首先我不做评判了，适不适合室内，我觉得。

李翔：刚才提到VR戴头盔显示，不需要大屏幕，是一类应用。至于家庭的应用，可以想象如果整个一面墙都是屏幕，用户想去看什么地方的风景，在客厅就可以看到，好像屏幕墙就是落地飘窗，外头就是实际的场景，鸟语花香，家家都有无敌海景房，这个听起来也很吸引人。

LiveVideoStack：之前有streamingmedia的专家分析了亚洲市场的OTT平台，大家都先后开始采用AV1，那么“AV1之后就是VVC”这算是一个新的展望吗？

李翔：如果是机顶盒这类的话，主要看电视台，看信号源这边。包括OTT的服务商，如果服务商觉得VVC更有利，可能会用VVC，如果觉得AV1更有利，就用AV1的标准。AV1比H.265、HEVC好20%-25%，VVC比AV1再好20%-25%，大概是这么一个粗略的说法，还是要区别的，就看额外带宽的节省，看大家是不是觉得需要上。如果觉得好，那就上，如果觉得不好，那就不上，这可能也是各个厂家自己的决策。

LiveVideoStack：时间也差不多了，最后想请两位老师预测一下未来五年内拥有最高市场份额的编解码器。

朱斌：我觉得这个首先也跟不同的国家和不同的地域有关，另外就是跟国家本身基础设施的建设有关系，假如说是重新开始的基础建设，可能愿意接受最新的技术。但如果已经花了很多精力投入到现有标准的支持，可能他们就不想那么快更新换代，这是有可能的。所以我觉得在五年内，还是很多标准要共存，但哪个份额大，我觉得还很难说。

LiveVideoStack：我们国家是什么样的状况？

朱斌：首先我们国家还有自己的标准，AVS，如果国家推AVS，有可能AVS是最受欢迎的，我们实验室也参与了AVS。

李翔：对，这个国家肯定会有一些考量，包括2022年冬奥会用AVS做直播，既然用AVS，我们跟用户站在一起，有这个需求我们就上。

编辑：Coco Liang