LiveVideoStackCon 2021 上海站参会感悟

音视频技术

LiveVideoStack 2021年6月25日

后疫情时代音视频行业思考LVSCon2021SH

作者：小花不睡觉

作为一个参与了3次LVSCon大会的从业者（2020年因疫情原因，遗憾未能参与），对于本次在上海举办的LVSCon，感受到了与以往完全不一样的氛围。

最直接的，就是疫情带给社会整体的影响，引发整个行业的趋势变化与快速迭代。与往届LVSCon典型的不同，整个会场最频繁被提及的话题就是火热的RTC、低延时及其相关技术。

本次的LVSCon大会，较以往的CDN流媒体直播、编解码、链路传输、部分webRTC场景探索与实践等，大篇幅跳进到实时语音、实时会议、低延时、RTC等火热关键词。与此同时，与会的参与者，也从零散的企业及个人输出，开始有了头部企业的组团式抢夺阵地趋势。

下面就以个人体验的角度，从行业的发展，场景的变化，技术的趋势，行业的人才状况，以及对于未来的展望这几个方面，对这个趋势与变化的思考，谈一下自己的观点，以作为与会观察的小结。

行业发展

经历过疫情的考验后，常态化防控的社会也影响了音视频行业。传统的CDN点直播、互动连麦等娱乐场景，在本次LVSCon上出现的比例有所减少。而大幅增加的是实时音视频，RTC等场景。

如LVS创始人包研所言，几乎所有行业内企业都在加大对RTC产品的资源投入。是集体大跃进，还是行业未来可期？相信各家企业自有判定。可以肯定的是，对整个行业，大量投入意味着行业的某些领域将会有快速的进展和迭代。

行业发展趋势

通过对LVSCon的观察，行业服务提供商有明显头部集中化的趋势。

头部企业从人才，到产品，进而标准等方面，均动作频频，并引领行业。典型如LAS标准的推出，快手对OnVideo的收购，百度对YY的并购，华为云的强势进入等等。当然，其它参与的企业也不会甘于落后，无论是解决方案，行业标准，乃至国标规范，都不缺它们的身影。

相对来说，中小厂商的声量就明显小了许多。部分厂商甚至已经趋于边缘化，甚至消声匿迹。比较明显的是，曾经处于音视频传输链条关键环节的CDN服务商，要么势微；要么扩大为全链路服务，两极分化严重。

并且，在版权、内容方面的布局，头部企业们也都是砸下重金，将整个游戏规则难度进一步提高。

在头部企业跑马圈地的同时，行业也开始有新的角色进入，如OV等传统移动设备终端厂商，也开始试水。从通用云服务到音视频云服务，给自己的巨量终端提供更好的服务体验的同时，也意图能有更进一步的商业拓展。

开源项目的期待

对于开源项目作品，行业内还是有比较大的期待的。目前，从基础方案，算法，以及工程化项目。包括LVSCon的讲师们内的从业者们，都提供了不少的开源项目。

既有像FFMPEG这样的老牌神级项目，也有SRS这样持续迭代的知名项目，还有新晋崛起的PION/ION这样的新兴项目，也包括一些体量较小的个人开源项目。从最基础的音视频处理，到解决传统的分发链路问题，到低迟时的实时音视频场景。都是从业者比较好的学习参考目标，也是新人进入这个行业里比较方便的一个入口。

但是，大家也意识到，目前整个行业里的优秀的开源项目并不是特别多。主要原因是由于音视频这个行业的特点，技术栈不仅要求有深度，还要有广度。所以对新人也不是特别友好。新入行的同学，要么从单点突破，逐步成长为某个技术领域大神；要么从工程化角度介入，成为方案/架构的尖兵。

我也非常期待后续有更多、更有价值的项目能涌现出来，促进整个开源生态的持续发展。

场景变化

传统与新兴交替

音视频行业的应用场景，从传统的点播，视频会议等传统场景开始，到火热一时的娱乐秀场直播、体育赛事直播、电商带货直播、视频连麦等，以及年初昙花一现的类clubhouse语聊产品。经历了数代产品和技术的更迭，在很多场景上已经是有非常成熟的技术和方案。

一场疫情让zoom异军突起，腾讯也借势强力发展腾讯会议产品。把整个全新的实时音视频会议场景全面推广，普及到了普罗大众。

场景的变化，也给技术带来了变化。实时音视频技术的关键，webRTC技术，语音处理技术，低延时传输等技术，也借此机会真正进行实现了一次技术大跃进。

AI的落地应用

当然，业界也并不止步于此。实时音视频场景的广泛应用的同时，也促进了AI技术在音视频行业的大量落地。前几年只闻其声，不见其落地的AI技术，在实时音视频产品上的各个技术点，也都有了明确的工程化落地方案。这个方面值得业内各方重点关注。无论是在效率的提升，还是在质量的提高上，都是可期的利好结论。

同时，在大会的交流中，也得到了额外的信息。在内容创作及管理方面，AI技术也有了长足的进步，形成了具体的产研方案，有望大幅提升内容管理平台的效率。

技术趋势

编解码

编解码技术作为行业源头，向来是LVSCon上被讨论最多的话题之一。

以RTC为代表的实时音视频火热，也引发了编解码部分的迭代更新。对于LVSCon的分享内容，会上有业内同仁也感叹：“编解码都听腻了，终于有些新东西来讲了”。从以往的AVC、HEVC以及VP8/VP9，到AV1的定稿；以及被各位讲师频繁提及的低延时编码、ROI/JND窄带高清、SVC分层编码等技术，也让大家对编解码部分这个LVSCon topic重头戏也有了更多新的期待。

同时，基于实时音视频会议产品的快速发展，以及年初类clubhouse产品的一时狂热。音频这个独自演进的技术点，也借势大踏步发展了起来。除了传统的音频降噪、抑制之外，AI技术也被引入了进来。

当我在会上听到3Kbps的高质量语音时，完全不敢相信这是真实做到的技术。

链路/传输

在链路和传输方面，本次大会提出的云边协同概念，比较吸引我。可以很明显看出，众多的与会从业者，都对云端与边缘的相辅相成有相当的兴趣。

这其中，核心的调度技术细节，在腾讯云的三张网的诠释下，以及华为专家的调度精讲中，得到了非常细致的描绘。

不过，这其中有太多部分超出了我目前的认知之外，还需要进一步去消化学习。在此就不多说了。

行业人才

人才，是永远逃不过的话题。尤其是音视频行业的人才，还有一些比较明显的差异性。这就决定了行业人才的特殊性。

既要细分专业型

特点：每个细分技术点的栈都很深，需要很长时间的钻研。

又要多领域综合型

特点：每个场景都是多个细分技术点的整合，需要平衡技术创新、用户体验与成本控制。

就个人的观察来看，目前音视频行业的人才状况，呈现出几个特征。

人才头部集中

从人才质量上看。各家头部大厂基本招揽全了行业内大神，几乎垄断了行业的顶尖人才，已经形成了较强的人才团队壁垒。

从人数上也有可见的优势。各家头部大厂动不动上百人的音视频团队，轻松碾压其它小厂。

凭借人才质量和规模的压倒性优势，人才聚集效应会越来越明显。也将进一步导致产品、技术的头部集中化。

人才梯次断层

同时，除了顶尖人才被各大厂招揽一空的问题。行业内一个较为明显的现象是，人才的梯次断层现象也较为严重。

从历次大会的与会者来看，平均年龄都比较高。livevideostack有相应的数据支撑显示，一半以上的与会者都有至少7年以上工作年限，10年以上经历的也占据了20%以上。

而5年以下工作经历的从业者明显较少。更不用说工作1~3年的新入从业者。

排除行业进入门槛的因素，可以认为这是一个较明显的信号。

人才培养体系缺失

造成人才梯次断层的原因，个人认为是缺少相应的系统化培养体系。不仅是企业内部，社会化培训也同样稀少。

这就需要各家笼络了顶尖人才的大厂们，在完成商业产品的同时，也能分出一些时间，帮助培养行业的人才。一如LVS的定期线上分享，或如大师兄经常在ffmpeg讨论群里跟群友讨论问题一样，帮助更多的新人成长，完成行业人才的持续储备。

当然，这也是一个不错的商业机会。LVS的创始人包研也看到了这样的机会。相信会在不久的将来，会给我们带来有意思的新产品。

未来展望

谈到对于音视频行业的未来发展，也有几个浅显的认知，提出来供大家一起探讨。

音视频技术基础设施

在本次的LVSCon大会上，不同的专家学者及从业者，不约而同的都点出了一个关键概念：“音视频将成为未来的基础设施之一”，像水电一样，成为社会生活中必不可少的组成部分。基于这个基础设施，未来将会衍生出无数的行业场景和想像空间。

也正是基于此，各家头部厂商明显加速了在行业的布局。目前的基础设施建设方，有一直深耕行业的腾讯云，阿里云，声网，即构，七牛等一众IAAS/PAAS服务商；也有新晋杀入的重量级云服务商华为云。从本次大会腾讯与阿里的大声量传播，以及华为的强势入局的态势来看，其它如百度、字节、快手这样的头部玩家会不会也选择大力切入这个基础建设赛道？我们拭目以待。

行业趋于头部集中化

从各大头部企业加速发力这个行业的态势来看，行业整体有明显的头部集中化的趋势。

相比之前以CDN服务商和硬件设备商为代表的传统音视频直播行业，在经过疫情影响带动的实时音视频爆发之后，以腾讯和阿里为代表的实时音视频云服务商，带着云原生的理念，裹挟着大量的资本和完善的云服务基础设施，开始抢占行业话语权。新晋入场的华为云也明显意图在音视频云原生服务市场分一杯羹。后续还有百度/YY，快手，字节跳动等资本大鳄都在虎视眈眈。具体表现不仅是在资本层面的大力投入，同时对顶尖团队，人才的招揽储纳也是动作频频。

这些现象，个人观点，对于整个行业来说，短期一定是有利于行业的快速成长，有利于部分技术的快速突破。中长期来看，还是要以场景化的产品拓展为基准，在新基建，新能源汽车等基础行业持续创造爆点，匹配国家和社会和整体走势，甚至有可能在某些领域占领世界范围内的行业高地。

激烈的竞争即将到来

群雄逐鹿纷争起。

各家头部厂商的进场速度，也预示着在不久的将来，各家将在这个领域内，有比较激烈的竞争。激烈竞争带来的下一个话题，永远是绕不开的同质化服务的成本控制。在可见的未来，无论是从行业源头的编解码技术上提供优化手段，还是在云端和边缘协同的传输链路上下功夫。在行业场景成熟稳定期，成本控制即是存亡的关键。一部分中小服务商，也许会走入被头部厂商兼并收购的结局（YY之于百度？）；当然也可能会诞生一些专门提供成本控制服务的创业型企业。

整个行业内可能会出现老大老二打架，却打死了老三老四的局面。最终，就可能形成头部企业做大，中部企业分食，创新企业补充的行业格局。

对于未来的思考

在过去的一年，第一个场景爆发点是飞速发展的实时音视频会议领域。常态化的疫情因素，既引导了zoom和腾讯会议等实时音视频产品的强势崛起，为行业打下了一个坚实的榜样；也有昙花一现的类clubhouse实时语聊产品，给行业提供了多样的产品思路可能性。

那么，下一个爆点会在哪里？会是OnVideo与剪映一样，解决无数普通UP主痛点的内容创作平台产品？还是完全基于云端AI的场景多样化生态的内容生产服务？或者是庞大而完备的知识素材内容库？不得而知。

个人的浅见，当音视频基础设施完善后，快速便捷的内容创作领域将成为下一个爆发式增长点。从整个内容的生产周期看，素材查找 /审鉴/个性化AI自动生产/易用的媒资管理等，凡是能提高创作生产效率的领域，都有机会形成一个巨大的蛋糕。在激烈的竞争中，也可能通过内容创作多样化生态中的差异化，或者某些微小的创新手段，成为决定服务质量的杀手锏。

关于LVS

非常感谢有LVS这样一个专业的行业社区平台，能聚合行业精英，一起交流与探讨，撮合产学相融，促进行业整体发展。为零散的音视频行业带来了积极有效的社区组织。

一定意义上讲，LVS已经成为国内音视频行业变化的风向标，引领者。

期待LVS未来在国际化上更进一步，将更多的点联结起来。

2021上海LVS音视频大会观感和思考

作者：潇湘落木

问题背景：

其实音视频这个领域非常的窄，很长一段时间都没有属于自己专一和垂直的社区。最近几年，随着国外的FFmpeg和WebRTC的普及，国内SRS和LVS在这个领域也变得越来越活跃。从2017年LVS组织第一次线下大型活动到现在已经五个年头了，感谢LVS提供的平台和机会，让大家每年有一两次线下面对面交流机会，也感谢这个时代对音视频技术的持续推动。

我大概第三次参加LVS，每次参加的体验都有所变化，下面是一篇杂文写写在现场的所见所得，仅供参考。

现场见闻：

谈谈参展商和讲师

本次大会，腾讯，阿里和华为大厂都悉数到场，特别是阿里有淘系技术和视频云专场，腾讯有腾讯会议和腾讯云专场。较之以前的大会，含金量有所提升。特别是华为已经持续了十几年在积累相关技术，每年这块研发费用大概在20亿美金左右，腾讯今年也提出了全真互联网概念即由实时RTC通信网+IM即时消息通信网络+流媒体分发网络组成，这些提法让人眼前一亮，也让相关从业人员对音视频的层次感有了明确认知。阿里的音视频业务主要在淘系电商直播，视频云以及钉钉的视频会议进行落地。可以看得出，大厂纷纷加码音视频技术，显示了大厂对音视频技术趋势和红利即将释放的敏锐判断。

现场体验

第一天没开空调实在太热，第二天有所改善，两天的课程听下来比较累，因为会议中间没啥空隙，需要不断转场。我主要听的还是编解码和RTC传输网络这块，整体听下来还是非常不错。现场的志愿者和参展商提供的小礼物也挺好玩，感谢这些志愿者背后的默默付出。

谈谈门票和人员

首先门票是越来越高了，现在门票已经上涨到三千元附近，这一波疫情持续放大了线上音视频的相关需求，热度水涨船高，导致参会人员越来越多。主办方说这是目前规模最大的一次线下集会，下半年还有计划会欧洲和美国举行，小编也在此期待LVS能把海外大厂的经验带入国内，国内有实力的团队走出去分享。其次对于想在音视频领域深耕的人员还是非常值得来的，可能别人的一个点子或者一个落地方案会给你目前产品和技术有所启发，最后建议音视频刚入门的同学可以前期先听听线上社区分享再来，做一些前期准备工作，因为需要一定的音视频基础来听讲。

观感思考：

RTC+X依然是当红辣子鸡

疫情加速了各项线下业务线上化，会场分享最多的还是RTC实时视频传输和编解码方面的经验，其中宋利老师把C的概念从communication拓展到compute、connection等概念，这种理解还是非常新颖的观点。因为实时通讯的确需要更大的算力来解决编解码所需的计算消耗问题，需要更大的带宽解决人和人、人和物以及未来拓展的物与物链接问题。实时和低延时音视频技术最后会全面沉淀到公有云基础设施层，被各种应用集成，加速各行各业的数字化线上转型。音频社交、远程医疗、沉浸式体验和工业互联网为RTC提供了更为广阔的应用场景。

低延时之外还需要什么

本次大会能捕捉到一个明确的信号，就是各个云服务厂商以及视频会议厂商还是把进一步降低延时作为自己的目标，疫情之前大家觉得能把端到端延时降低到400ms都是一个非常不错的指标，但是疫情之后新的业态如AR、VR 以及6dof的出现以及一些5G等技术的普及，让大家延时降低到100ms越来越成为可能和紧迫。本次大会能看到一些落地案例在超低延时方面的优化，所以我们会看到大家在追求低延时通信的路上越走越远，未来端到端延时只有更低没有最低，估计再过几年几十毫秒的延时会成为标配。

只要做好低延时就可以了，答案显然是否定的，除了要继续在质量、成本以及延时的三角区域里追求最优解，还要让实时通信有身临其境感，线上的体验要进一步优化。如果不能把线下那种肢体面部更丰富的语言信息以及更多维度的还原线下体验，那就会抑制大家应用RTC的场景和需求，这块也是要在解决了低延时通信要考虑的问题。

5G到底能为音视频通信带来什么

2020年可以算是5G的元年，这一年国内正式商用，基础铺设工作全面开展。热度在今年逐渐降低，因为5G暂时没有出现特别让人兴奋的应用场景。但是这能说明5G就不重要了吗？或者能简单的认为5G时代的到来会让一切低延时、广连接的问题都可以自然得到解决？答案显然没有这么简单。来自虎牙的分享者大概分享了下面几个我们对5G认识的误区，说实话这些误区我自己有过类似看法，需要引起注意：

1. 5G解决的是空口延时（大概就是从设备端到5G基站这块的延时），显然空口延时只是传输延时的一部分，像音视频领域的编码延时，骨干核心网的传输延时以及路由器的处理排队延时，这些是没办法通过5G进行解决的。最后我们关心的端到端的低延时，其中空口延时能占多少，即使优化了其它延时的解决依然需要考虑。

2. 网络带宽足够，链路空载的延时和实际大并发业务落地上传的带载延时还是两个概念，带宽对音视频传输延时还是有决定性作用，带宽非常有限，即使再牛逼的QOS算法也体现不出来核心优势。

3. 理论延时和实际延时同样是两个概念，许多是理想情况的实验室测试数据，跟实际落地差异还比较大，而且宣传语的应用场景肯定比音视频这种需要大带宽的场景还是不一致。

4. 即使享受了5G eMBB带来的空口延时优势，但是使用APP不是在公司WIFI就是在家里WIFi,只有在户外没有WIFi情况下我们才会用5G移动流量。随着WIFi6技术的到来，5G产生的空口延时效益将迅速被追平。所以5G对大部分消费者和应用来说，带来的效益和红利没有想象那么高。

5. 未来5G产生收益应该更多的ToB业务，比如车载娱乐应用以及工业互联网领域，一些远程医疗和边缘计算可能会有比较大的收益。5G对消费者的影响可能在户外直播和虚拟现实AR上。

6. 未来端上网络理想情况应该是WiFi完成室内通信，户外城市等场景使用5G，在野外等人迹罕至的场景可能还要依赖马斯克的天际同步卫星来提供联网功能。

说了这么多，就是启发我们正视5G理论值和实际工程化的差异，关注端到端的整体延时解决，根据其特点找到5G适合落地的业务场景尽早的把实时音视频延时推到10毫秒时代。

编解码技术的新突破口-AI

了解编解码技术的同学基本都清楚，目前的编码技术框架大概从30年前就确定下来了。以H.261/H.264/H.265技术为代表，编码的核心都是从人的视觉生物特征入手解决大量的空间和时间冗余，要经过预测、变换、量化和熵编码等过程。这一传统编码方案同样适用于后来的VP9/AV1以及国内的AVS编码框架，在可预见的范围内，这些还是主流的编码框架和技术。随着新一代编码技术H.266和AV1发布，已经显示出传统编码方案复杂性以及对计算量的迅速提升，要向继续向后面演进已经越来越难。

前几年就能听到一些高校老师和大厂音视频实验室分享利用AI技术来突破传统编码框架的想法。这些内容以前听得还是比较朦胧，分享出来能落地的案例也几乎没有。但是本次大会能听到这个趋势越来越明确化，特别是在帧内编码和基于深度学习的Lyra语音编码器的开源和发布，利用AI技术来进行端到端编解码可能要成为下一代编码技术的主流，五到十年之内应该会取得比较大的突破，希望大家关注并留意这一重大技术趋势。

做好音视频产品和服务的关键-细节

音视频技术落地到产品或者服务中，大厂之所以比一般中小公司更有竞争力或者体验更好，除了更大的资金和人力投入之外，其实技术路线并没有非常大的差别。通过分享基本得知大厂在场景分类和核心指标上做的非常好，从编码-传输-解码整条链路上细节把控得很优秀，能够端到端的进行优化，并利用质量评价体系实现了业务闭环，通过对大数据的分析进一步优化了用户体验，并且这种优势随着数据的积累和实际场景的锤炼会变得越来越大。

音视频的人才和门槛

SRS作者谈到项目初衷之一的时候，说本来就是想让零基础的开发者快速入门搭建起音视频的学习环境，但是没想到随着音视频技术的快速演进已经也变得越来越复杂。不可否认的是音视频技术的开发门槛到现在依然存在而且初学者在找这块的专业资料时少的可怜，一般有积累的大厂全靠内部带和口口相传，如果完全从一个陌生开发领域切换过来更是云里雾里感觉，因为要学的东西非常多，我也是有过类似经历。其次就算入门，无论是搞传输还是编解码又发现，这个领域深如海，需要大量的数学、网络通信和协议规范要学习。AI目前还在强攻这个领域，后面估计一般的开发者还要学习深度学习等知识。

针对这块，一方面LVS会推出一款产品加快人才的合理流动和泛化，其次华为给出的建议也非常不错，产业界需要和大学实验室相结合培养，总之这个领域需要的人才越来越多，但是有经验的人才供给还是太少。对于想进入这行的还是要趁早，但是也要做好长期打算，三五年甚至十几年的学习周期是非常必要的。

一个 RTC 开发者在 LVS 音视频技术大会的见闻与思考

作者：于吉太

大家好，我是泰一。

周五、周六这两天，我在上海参加了LVS (LiveVideoStackCon) 音视频技术大会。这是我第三次参加 LVS 举办的音视频技术大会，第一次是在 2017 年，第二次是在 2019 年。

先来张照片，证明我去过~

这一次大会让我耳目一新的是：会场出现了很多穿着橙色 T 恤的志愿者。和 2017 年在望京的首次活动相比，LVS 的组织能力和影响力真的是有了长足的提升！

PS：如果你想了解 LiveVideoStack，可以关注它的公众号。

LiveVideoStackLiveVideoStack直播技术社区官方账号，分享音视频直播相关技术干货，产品研究与行业趋势。929篇原创内容

公众号

两天的大会，全程一场紧接着一场的听下来，不知道其他参会者感觉如何，反正我是挺累的。当然，不能白累，收获是必须的。下面我就分享下自己在 LVS 音视频技术大会的一些收获。

进入正题。

0x01. RTC+X

RTC+X 这个概念是宋立老师提出来的。RTC 就是Real Time Communication，中文译为实时通信。关于 RTC 中的 'C'，大家都是很默契的默认为 communication，但是这个 'C' 其实还可以有很多种解释。

比如 compute，计算。

RTC 的服务器其实一直在向更接近用户的边缘去扩展，而且 RTC 的 QoS 是非常消耗算力的，再结合近几年很火的名词边缘计算，那么这个 'C' 解释为 compute 真的是非常合适。

比如 conference，会议。

做 RTC 的直播服务，我个人认为其实是比较容易的，但是做 RTC 视频会议，难度就增加了几个量级。

举个例子，一场 1 万人的直播，如果某个用户挂掉，是完全不会影响直播的进行的，但是一场 1 万人的会议，如果某个用户（也许是领导）挂掉，那么这场会议可能就无法继续进行下去。

仅仅就这一个问题，就大大提升了 RTC 做会议的难度。因此 'C' 解释为 conference，也非常能代表 RTC 的门槛和难度。

比如 connection，连接。

这个就比较好理解了，WebRTC 的开发者应该都知道 PeerConnection，它是两个使用了 RTC 实时通信技术的终端（Peer）之间的一条通信的链路。

所以，RTC 中的 'C' 竟有如此多的扩展，确实让人眼前一亮。

0x02. 全真互联网

全真互联网是腾讯云提出的。在这个概念下，整个音视频通信网络被划分为三张网，分别是实时通信网络，即时通信网络以及流媒体分发网络。

这样的划分，让我觉得音视频通信网络有了层次感，一些方向也更加清晰。关于 “全真” 这两个字，我个人的理解是：如果有一天你在网络上和朋友交流就像两个人坐在一起面对面交流，那么这就达到了音视频通信的 “全真”。

0x03. 时延

时延应该是这两天会议中讲到最多的一个词儿了，毕竟 RTC 实时通信的主要目标之一就是最大程度的降低时延，说得再通俗一点就是：尽可能地逼近面对面交流。

关于时延，也有很多人叫延时或者延迟、迟延，到底叫啥，相信很多人都云里雾里，其实都可以的。上一段官方教材对时延的定义：

时延（delay 或 latency）是指数据（一个报文或分组，甚至比特）从网络（或链路）的一端传送到另一端所需的时间。时延是个很重要的性能指标，它有时也称为延迟或迟延。

计算机网络(第7版) 谢希仁电子工业出版社

这次 LVS 让我对时延的认识更加清晰了一些。我了解了一些不同类别的时延，比如处理时延、传播时延、排队时延、发送时延。

也了解到一个新词：空口时延。它其实就是 5G 所说的低延时，不过它并不是整个互联网的时延，而是手机到基站的无线空口时延。

因此，对于 RTC 来讲，要解决的时延问题应该是端到端时延。要解决这个问题，就要知道对时延影响最大的因素是什么，这两天的会议基本给出了答案：带宽，也就是网络吞吐量。

我思考了一下，带宽对于时延的影响确实是很大的。在 RTC 中，无论是音频的 NetEQ，还是视频的 CC(Congestion Control) 流控算法，它们的目标都是一致的：最大化利用网络带宽的同时保证最低的时延。

再比如一些编码技术：Simulcast、SVC(Scalable Video Coding)、LTR(Long Term Reference)。仔细一想，它们的主要目标也是尽可能地提升音视频数据在网络传输中的自适应能力，其实就是尽可能地降低时延。

作为互联网的固有属性，不只是时延，还会有丢包、乱序、重复。不过，在我看来，时延才是影响实时音视频通信场景下的用户体验的关键问题，因为用户对时延的容忍度已经越来越低了。

0x04. 鸿沟与矛盾

有的时候，单纯的某一个技术，是没法从根本上解决某些问题的，比如再牛逼的拥塞控制算法可能也没法解决时延的问题。

这两天的 LVS 大会，华为云的黄挺老师和圆桌论坛的包括阿里云、腾讯云、华为云在内的几位大佬都谈到了 “鸿沟” 这个词儿，令我印象深刻。

这个鸿沟大概是指快速发展的视频业务与互联网基础设施（Infrastructure）之间的鸿沟。其实就是生产力与生产关系之间的矛盾，比如视频的生产能力和消费能力远远大于了网络的承载能力，这就是一个具体的矛盾。

基础设施是指为社会生产和居民生活提供公共服务的物质工程设施，它是社会赖以生存发展的一般物质条件。

百度百科

基础设施，大家可能平常不会过多关注，但是它的确无处不在。就像人人都知道打开水龙头可以接水，但是没有人会关心水从哪里来的。

比如，公路、大桥、电网、光缆，这些是我们生存和生活的基础设施。同样，遍布全球的 IDC(Internet Data Center) 节点、无处不在的云端算力，就是视频云的基础设施。

这次大会，我也学到了一个新词 IaaS (
Infrastructure-as-a-service)，即基础设施服务。因此我想，现在需要的可能不是单纯的某一种技术，而是一套成熟的、高可用性 SLA (Service Level Agreement) 的音视频系统或者服务，去弥补视频业务和基础设施之间的鸿沟，去解决包括时延在内的诸多音视频痛点。

0x05. 音视频人才

说到底，“鸿沟” 的问题本质上还是 “人才” 的问题。在流媒体/音视频领域工作四年半，我大概是了解这个行业的一大痛点的：门槛高，圈子小，所以招人难；大多数团队人才梯度不均衡，老人太老，新人太新，所以是一种青黄不接的气象。

就像 LVS 的创始人包研老师讲得那样：要加强学校和企业音视频实验室的合作，培养人才。

有人，才能有音视频的未来。

0x06. 视频云

第一次听到视频云这个词，是在入职阿里的时候，随后发现，原来各家做云的大厂，也都是有自己的视频云业务。

PS：我个人感觉，视频云这个词儿听起来很酷，有没有？

这一次在 LVS 的圆桌论坛，听到了一些能真正去推动视频行业发展的大佬对于未来十年视频云发展的预测。

其中，阿里云的毕玄和华为云的陆振宇老师的观点，我深以为然：

内容视频化

二十年前，拍一张高质量的照片，不是一件容易的事情，但是现在我们随手拿出自己的手机，就能拍一张让朋友圈称赞的照片。

同样，现在，做一个高质量的视频，对于大多数人来讲，不是一件容易的事情，但是也许十年以后，人人都可以制作出精美的视频。

PS：据说，人类处理视觉信息的速度比文本信息快 6 万倍。

交互线上化

二十年前，人们靠电话进行语音交流，靠手机短信进行文字交流，但是现在我们可以用微信视频交流，用钉钉进行线上会议，线上协同办公，交互场景更加丰富。

同样，也许现在交互的体验并不是特别让人满意，比如画质低、画面卡顿、延迟、声音不清晰等诸多线上的交互问题存在。但是也许十年以后，随着音视频基础设施的完善，服务质量的提升，人与人之间的交流，会更倾向于线上化，在线上也可以有非常逼真、流畅的体验。

实时音视频技术会成为各行各业的最基础的设施。

如今，在根技术上还有很多制约音视频技术发展的因素。比如 30 多年前的 TCP/IP 协议，要求 1500 字节的最大网络包，而一个视频的关键帧要远远超过这个值。因此，音视频技术要找到适合自己的网络模型，比如 overlay 网络或者专网。

实时音视频技术的另一个问题是诸多的协议。比如 rtp/rtcp、quic、srt、webrtc 协议栈，这些协议也许在未来会被云服务包装成各种产品，用户根据自己的业务场景选择使用哪一种协议，一切将变得简单。

总之，这两位大佬的的观点可谓高屋建瓴，我个人受益颇多。相信未来视频将无处不在，Video Everywhere！

到这里，对在 LVS 的一些见闻的介绍就结束了。最后，分享一段话给大家：

计算机是工科，工科不能泛泛而谈。实打实的用代码将功能实现出来，去解决具体问题，是最根本的。

但做技术的瓶颈，绝不是具体的语言，框架，API 接口，这些东西。

这些东西会过时，但是，蕴含在这些东西背后的原理，机制，思考方式，和解决问题的思路，是不会过时的，是真正可以积累的经验。

全部评论

作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站

LiveVideoStackCon 2021 上海站参会感悟

后疫情时代音视频行业思考LVSCon2021SH

行业发展

行业发展趋势

开源项目的期待

场景变化

传统与新兴交替

AI的落地应用

技术趋势

编解码

链路/传输

行业人才

人才头部集中

人才梯次断层

人才培养体系缺失

未来展望

音视频技术基础设施

行业趋于头部集中化

激烈的竞争即将到来

对于未来的思考

关于LVS

2021上海LVS音视频大会观感和思考

一个 RTC 开发者在 LVS 音视频技术大会的见闻与思考

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案

LiveVideoStackCon 2021 上海站 参会感悟

后疫情时代音视频行业思考LVSCon2021SH

行业发展

行业发展趋势

开源项目的期待

场景变化

传统与新兴交替

AI的落地应用

技术趋势

编解码

链路/传输

行业人才

人才头部集中

人才梯次断层

人才培养体系缺失

未来展望

音视频技术基础设施

行业趋于头部集中化

激烈的竞争即将到来

对于未来的思考

关于LVS

2021上海LVS音视频大会观感和思考

一个 RTC 开发者在 LVS 音视频技术大会的见闻与思考

LiveVideoStack

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案

LiveVideoStackCon 2021 上海站参会感悟