AV1和开放媒体联盟(AOM)的发展、成果与未来

AV1
LiveVideoStack 2021年6月8日

Alliance for Open Media(开放媒体联盟)是由亚马逊、思科、谷歌、英特尔、微软、Mozilla以及Netflix等互联网公司成立。该联盟旨在通过制定全新、开放、免版权费的视频编码标准和视频格式,为下一代多媒体体验创造新的机遇。AV1是开放媒体联盟Alliance for Open Media (AOM) 开发的第一代视频编码标准。本次分享,我们邀请到了AOM的通信和会员发展副总裁——Matt Frost先生,他向我们分享了开放媒体联盟的产生,成立六年来所取得的成就及开放媒体联盟在下一代视频编解码器方面所做的进展。


文 / Matt Frost

整理 / LiveVideoStack


大家好,我是Matt Frost。是开放媒体联盟,即AOM的通信和会员发展副总裁。同时我也是谷歌开源媒体技术团队的领导人之一,我们的团队致力于开发下一代的免版税的开源数字媒体技术。欢迎大家参加开放媒体联盟第一次中国会议。


我不确定在座的各位是否都熟悉开放媒体联盟的历史,因此,首先我想告诉大家为什么谷歌对开发免版税的开源视频编解码器感兴趣。然后我会谈谈其中的经历如何催生了开放媒体联盟、开放媒体联盟成立六年来所取得的成就、开放媒体联盟在下一代视频编解码器方面的进展。最后我想分享为什么我们特别举办一场面向中国观众的会议,以及为什么希望激励你们加入我们的工作。


正如我所提到的,我先简要谈谈是什么促使谷歌开始开发视频编解码器。


#1. 开源编解码技术的背景


十多年前,谷歌推出了两个项目,旨在改善互联网的媒体体验。


谷歌首先启动的第一个项目是WebM,该项目旨在开发免版税的开源视频编解码技术。随后不久启动了WebRTC项目,为视频会议等应用程序推出了开源免版税的IP通信栈。谷歌对这些领域感兴趣有几个原因:


首先,谷歌是一家业务与互联网紧密相连的公司,因此我们希望确保互联网的继续发展和繁荣。


互联网建立在开放的免版税的技术上,允许任何用户无需支付版税就可以建立网站。起始时,网络上充斥着文本和静态图片,现在网络体验更加丰富,有视频、音频和新兴媒体类型。谷歌希望确保创新者能够使用免费的尖端媒体技术,从而创造新的基于IP的媒体体验。但是让视频技术成为互联网体验的核心不仅是一个理论问题。


2010年,谷歌有许多团队在做视频服务方面的工作,如YouTube和安卓等平台。他们对互联网的新媒体体验卓有远见。然而,他们感觉受到了限制,因为当时所使用的技术是由广播电视行业为广播电视的用例而设计的,这些技术是根据广播电视行业的时间表开发,以10年为周期,匹配机顶盒和电视更新率,这个周期与互联网创新的快速步伐并不同步。


经常有人问我,为什么谷歌和其他开放媒体联盟的大公司会员关心开发免费的开源技术。人们可以理解为什么小型初创企业可能想要使用开源编解码器,但为什么许多开放媒体联盟的大公司会员也会关心开源技术。


大多数人应该都有过类似的痛苦经历:知道采用新的编解码器会有许多挑战,要整合新技术并确保所有重要的设备都支持它,我们要面临技术障碍。但是,业务条款也可能成为应用的障碍。无论是授权方就授权条款讨价还价的漫长等待,还是开发商必须获得多个许可的授权要求。在这两种情况下,大小公司都无法使用新技术。而使用开源免版税的技术,我们可以事先知道条款,那拿到授权就简单明了了。这意味着开发团队可以快速地使用新技术,而不必因为要与授权方就授权条款和版税而苦苦搏斗,等待数年。


当然,成本是一个重要因素。对于那些发行了上亿份APP却还没赚到钱的创业公司来说,使用免版税的尖端技术显然非常重要。但成本也是大型公司需要考虑的问题。举个例子,一家手机制造商想要为预算非常有限的用户打造具有媒体功能的设备,这是谷歌一直特别关注的很现实的情况。制造商面临的问题是必须支持多代收取昂贵的版税的媒体技术,比如视频编解码器、音频编解码器、高端视频和音频增强技术,这使它几乎不可能为绝大多数全球市场生产高性能而且价格合理的设备。


另外,如今几乎所有的手机仍然支持H.264,这是一项20年前引入的有版税技术,很可能在未来至少10年内仍将在手机上使用。


为了确保设备之间的兼容性和现有内容的回放,我们需要在设备中添加新格式,但很少删除。如果只是将一代昂贵的技术叠加在另一代上,那就是在无情地推高设备的成本。让那些买不起昂贵设备的用户无法获得最好的体验,或是迫使他们支付这些他们无法承担的设备费用,这是个值得解决的问题。


#2. 开放媒体联盟


以上因素促使谷歌努力开发免版税的编解码技术。


当我们推出第二代编解码技术——VP9的编解码技术,在与合作伙伴讨论项目时,发现越来越多的公司已经开始使用开源技术。这些公司对传统编解码技术的授权难而感到越来越沮丧。在讨论时,发现这些公司有着共同的原则,都将使用相同的媒体技术,都希望新技术开发出来后能尽快投入使用,我们可以共同努力创造新技术,同时仍然积极竞争开发使用这些技术的最佳产品和服务,以及,由于都是业务不断增长,为丰富的媒体体验创造设备和服务的公司,所以可以通过销售产品,而不是通过向新的编解码器收取高额专利使用费来赚钱。


2015年,参与这些对话的公司一起成立了开放媒体联盟。会员名单上包括一群表面上看起来不太可能出现在一起的竞争对手——谷歌和微软、Amazon和网飞以及英特尔、AMD和ARM。


该联盟遵循了激励谷歌前进的共同原则。


#3. AOM联盟原则


我们正在开发免版税的技术,它是开源的。并且致力于快速提升技术以跟上互联网视频世界的创新步伐。通过组成联盟,这些公司可以改善我们的开发过程,可以采用现有标准机构的一些最佳方法以确保推出的编解码技术能够获得广泛的社区反馈,并且发布了经过严格审查的比特流标准规范,增加额外的专利审查程序,为正在制作的免版税编解码技术提供更大的信心。


通过开放媒体联盟,我们可以多增加一个审查程序,增加每个会员的专利审查流程。因此,谷歌等会员公司仍然使用他们自己内部和外部的法律和技术专家,来审查新的编解码器工具;而开放媒体联盟则使用联盟自己的律师和技术专家来进行第二轮专利审查。这是开放媒体联盟和传统标准机构之间的另一个巨大区别:我们把专利审查程序放在首位。


我们尽力吸引那些拥有丰富专利组合的公司来提供尽可能多的视频技术知识产权。努力确保公司正在使用的技术或受到开放媒体联盟会员的专利保护,或是开发工作中新创建的技术,或是公共领域的技术。这与其他标准机构的流程形成了鲜明对比。在其他标准机构的流程中,参与者主动将其专利技术纳入新标准,这样即使他们没有提高编码效率也可以获得版税。


经常有人问开放媒体联盟对会员公司的期望是什么,开放媒体联盟会员公司的义务是什么。实际上联盟对每个会员公司只有两项明确规定的义务:


第一,对我们开发的每一项技术都承诺免版税专利许可。这是为了确保开发过程结束时,每个会员公司都免费授权技术,没有会员公司试图改变主意收取版税。但有人感到困惑,这是否意味着他们放弃了收取任何专利费用的权力。答案是否定的。虽然开放媒体联盟会员不能对其用于开放媒体联盟制定的标准范畴内的编解码技术的相关专利收取费用,但同样的专利应用于付费标准是可以在付费标准范畴内收取专利费用的。


举例来说,如果开放媒体联盟的某个会员公司拥有一项用于AV1和HEVC两种标准的专利,会员不得对使用AV1的收取专利费用,但是开放媒体联盟的规则并没有禁止会员对于HEVC或任何收取版税的未来标准收取专利费用。当然也有一些开放媒体联盟会员拥有对各种MPEG标准至关重要的专利,虽然他们必须为AV1免费授权这些专利,但仍然可以对其用于MPEG标准中的专利收取费用。


开放媒体联盟会员的第二项义务是缴纳年费。正如之前提到的,开放媒体联盟聘请了律师来确保正在开发一项免版税的技术。事实上,所收取的所有会员费都用于聘请帮助评估专利的律师。


就这两项,会员有义务不收取任何开放媒体联盟所制定的标准的版税,并支付会费。


话虽如此,我们欢迎拥有许多有效视频专利的会员公司,欢迎拥有渴望开发新工具的大型编解码器团队的公司加入联盟成为会员,欢迎工程师们——不一定非得是算法专家来参加联盟的工作组会议参与讨论。


我们希望会员公司使用AV1以及将来的AV2,但不要求。


#4. 开放媒体联盟的成果


自2015年以来,开放媒体联盟取得了很多成就,会员也不断增加。



目前有47名开放媒体联盟会员。更重要的是,不断有全球领军企业加入,比如苹果、三星和脸书,还有中国的领军企业阿里巴巴、华为、爱奇艺、OPPO和腾讯等。





会员名单不仅反映了全球技术领军会员的深度,还显示了重要使用类型的广度。会员中包括开发关键流媒体服务的公司、实时通信领域的领军企业以及芯片和设备硬件开发的领军企业。这些不同的技术领先企业确保我们正在开发的技术,考虑了整个视频生态系统各个角落的输入。


在发展开放媒体联盟视频生态系统的过程中,这些不同的有影响力的会员也发挥着至关重要的作用。制定新标准只是挑战的一半,而让这个新标准应用到复杂的视频生态系统中是另一半。即使是最好的新视频标准,也只有在可以应用到所有创建和使用视频的工具和设备上时才有用。


对于开发商和制造商来说,使用新的视频编解码器是一场既费时又费钱的博弈,但是由于刚才列举的所有视频领域的领先企业的参与,开发商和制造商有信心,将会因为支持开放媒体联盟的媒体标准而得到回报。他们明了开源标准的授权条款,使用需求从何而来,因此可以迅速行动起来支持这些标准。


在成立开放媒体联盟以来的6年里,我们成功地招揽了很多领域的会员公司。但更重要的是兑现了新技术开发的承诺。


2018年完成了AV1视频编解码器比特流标准,并相比HEVC有了显著的性能提升。


从上图中可以看到,制造商们很快在产品线中添加了AV1支持,赋能开放媒体联盟的会员公司和其他非会员公司来提供基于AV1的新服务。


此外,我们在一些重要终端上进行了快速推广,使这些终端上的服务可以使用AV1。爱奇艺、脸书、网飞、Vimeo和YouTube都先期通过利用个人电脑浏览器和安卓手机上的软件解码器来使用AV1。


而且,随着越来越多完整的AV1硬件被应用到客厅设备和移动电话上,新的设备类型能够搭载AV1流,并具有比以前更高,更节能的性能。可以看到,YouTube在2020年型号的电视上支持AV1后,就能够立刻利用AV1的硬件编解码器来提供AV1的流服务。


AV1也迅速被应用到视频会议应用程序中,这是在AV1的应用方面的一个非常令人兴奋的事情。思科最近宣布,在网讯上添加AV1支持;谷歌的视频聊天应用程序Duo也在使用AV1。实时通信服务在技术上要求很高,需要实时编码,而且曾非常依赖硬件加速。这充分说明了AV1软件的改进速度,以及使用AV1改善视频会议体验的能力。


我们与Duo合作尤其引人注目,通过AV1,可以用低于60kb/s的速度实现真正良好的视频聊天体验,每秒60千比特,我们可以花一分钟来想想这件事是多么有意义。也就是说以拨号调制解调器的连接速度可以进行的视频会议,凸显了新压缩技术的力量,它确实有能力去改善人们的生活。


与我们推出VP9时的情况类似,HEVC也有类似的情况,就是AV1的推出催生市场关注这些新技术如何使新的高端体验成为可能。我们可以看到AV1是如何催生8K视频的故事,这当然是真的。YouTube支持8K视频,而这些8K视频仅在AV1中可用。


让我们来看看YouTube上一次添加新编解码器支持时发生的事情。它在2013年添加了VP9视频编解码技术的支持。


当时,许多合作伙伴都专注于研究VP9来实现4K或高帧率高清视频的能力。我认为至今许多流媒体服务都犯了一个错误,那就是只为高清视频引入新的编解码器而忽略了它们在标准分辨率和低分辨率中的作用。有一个一直都很明显的事实,那就是改进后的视频编解码技术能给那些宽带条件最差的人带来最大的体验提升。


在全球,几乎每个观看VP9格式视频的用户在YouTube上花费的时间都比观看H.264格式视频的用户多。但是,正如从上面这张地图中所看到的,在新兴市场,如巴西、印度尼西亚和北非的观看时间大增。因为视频开始速度更快,流媒体更流畅。而且比以前流媒体的分辨率更高。


现在,在互联网连接非常发达的地区如北美、西欧和亚洲部分地区,人们已经获得了很好的YouTube体验,新编解码技术让这个已经很好的体验更上一层楼,这些用户也在持续增加他们的观看时间。YouTube在尽力改善这些用户的体验的同时也降低了自己的流媒体成本。


所以,当开始推出AV1时,我们的计划是沿用VP9走过的路,通过AV1在新兴市场提高分辨率和流畅播放,同时在网络连接更好的地区制作高分辨率视频并降低流媒体成本。


我们意识到,AV1这样优秀的编解码技术几乎可以做任何事情。可以在改善用户体验的同时降低YouTube的成本。这也是在继续开发下一代视频编解码技术时,谷歌团队在YouTube和其他制作团队中拥有非常热情的合作伙伴的原因之一。


#5. 下一个时代:AV2


这激发谷歌团队研究AV2,也是今天与你们讨论的主要原因之一。尽管目前仍处于AV1应用的早期,但我们已经在努力开发下一代视频编解码技术AV2了。


经常有人问,刚刚才发布了一代新的编解码技术,真的这么快就需要开发下一代了吗。我还和一些人讨论过,他们认为随着网络技术的改进(带宽的提升),最终将解决所有的视频流问题,而网络速度将会提高到不再需要进一步压缩的地步。


过去一年,全世界的经历表明人们在工作、社交和娱乐中对视频的依赖程度是多么高,所以我们还有很长的路要走。可以看到流媒体视频和视频会议的使用量都在飞速增长。这使互联网的容量开始紧张。去年夏天,欧洲监管机构曾一度要求YouTube、网飞和其他流媒体服务降低分辨率以减轻互联网的压力。视频压缩的改进提供了一种快速提高网络吞吐量而无需构建昂贵的物理容量的方法。


大家应该都认识到了视频会议体验还有很长的路要走。


即使是在家里或办公室有着良好网络连接的人,也经常发现自己参加线上会议时,视频或者音频会死机、质量下降甚至完全退出会议。新冠病毒改变了人们的行为模式,在工作和个人交流中更加依赖视频会议。而这种改变不会消失,即使在新冠肺炎结束之后,也会有更多的人每周在家工作一两天,与合作伙伴的通话也将更多的通过视频会议进行。越来越多的人会上网,通过视频聊天应用与亲朋好友保持联系。即使家里有着可靠、高速的网络连接,但由于老式无线路由器、无线哑点以及多名家庭会员用自己的高分辨率视频设备,同时播放教育或娱乐视频,以及拨打工作会议和使用社交媒体视频聊天,都会造成家庭网络压力。


因此我们仍有许多工作要做,去创造下一代视频压缩技术确保跟上视频应用的快速增长。这就是此次来到这里分享的原因。


#6. AOM在中国


我们为所做的工作感到骄傲:建立了一个蓬勃发展的联盟,创建了AV1,并得到了很多终端的支持。但是,脸书、网飞和YouTube等公司支持AV1或加入开放媒体联盟的消息在中国的影响并不像在世界其他地方那么大。


因此,谷歌团队希望与尽可能多的中国视频技术社区成员直接对话,让大家了解我们通过AV1取得的巨大进步。显然,大家不需要成为开放媒体联盟的会员才能使用AV1。更重要的是,在继续研究下一代媒体技术的时候,我们的团队正在寻找合作者。AV2要想获得成功,必须比上一代编解码器有显著的进步。这是一个艰巨的任务。


我们虽然有了一个良好的开端,但仍有许多工作要做,无论是在开发新的视频体验方面,包括抖音短视频和哔哩哔哩用户制作的新内容,还是在视频研发投资方面,中国都在视频研究和技术领域扮演着全球领先的角色。这就是我们需要中国公司或研究人员不管以任何形式来提供帮助的原因。你们可以向开放媒体联盟提供在全球尚不常见的可能来自中国的崭新的用例需求。


谷歌欢迎为AV2开发下一代视频编码工具而满怀兴奋的合作者。经验让我们知道,最好的想法可能来自于两个或更多的公司之间的合作或者一家公司和学术研究人员之间的合作。


因此,谷歌邀请大家都加入到开放媒体联盟中来,无论是通过使用AV1或是通过加入开放媒体联盟来表示支持,还是帮助设计和部署下一代视频和其他媒体技术。希望你们能与我们一起迎接这一挑战。



还可输入800
全部评论
作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周
热门视频

WebRTC视频数据流程分析

许建林/《WebRTC Native开发实战》书籍作者