快手硬核ToB第一枪:视频能力对外开放,自研芯片首次曝光
明敏 鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
就在今天,快手正式对外官宣了自研芯片的进展:
云端智能视频处理SoC芯片已经流片成功,并正在进行线上内测。
关键是,随着这一波造芯成果而来的,还不只一个大动作。
更确切地说,快手这把是直接在业务上开启了完全不同以往的尝试:
做了11年ToC产品的快手,现在正式推出视频云服务StreamLake,宣告进军云服务市场。
快手ToB第一枪:StreamLake
要说清楚这事儿,咱们得先来看看快手这个StreamLake究竟是怎么一回事。
StreamLake可以说是一套覆盖底层基础设施到上层场景解决方案的“视频操作系统”。
其能力主要体现在Video和AI两个方面。
其中,Video侧重视频制作、传输、分发在内的全链路视频能力。
AI侧重智能视频创作、智能视频内容理解、数字人等技术领域。
与许多云服务商相似的是,快手视频云服务的雏形,最早也诞生于自家业务之中。
对于快手而言,从2015年的千万级日活跃用户数到2022年第一季度日活接近3.5亿,期间面对的是内部业务的爆炸式增长。
因此,快手的技术中台化进程也开始得很早。
所谓中台化,简单来说就是在各个不同业务之间,搭建共享共用的基础设施、底层算法和应用服务。
而当这些通用技术不断迭代升级,通用基础设施不断积累拓展,并逐渐被打磨出更高的应用效率,一个“云产品”的雏形实际上便已经形成。
具备了这样的技术基础之后,随即两个合作案例,进一步催化了快手的ToB业务。
第一个合作案例来自学界。疫情期间,高校对线上教学平台的需求全面爆发,与快手渊源颇深的清华亦在其列。
量子位了解到,疫情之初,清华便邀请快手与其在线教育平台“学堂在线”达成合作,以满足老师和学生们的线上教学需求。
这可以说是快手直播技术能力的第一次对外完整输出,效果颇为显著:
直播技术团队自研的实时音视频通信系统、智能调度系统,可以让师生在同等网络条件下,更流畅地观看直播,这些技术的应用,为清华的网络课程创造了更好的体验。
第二个合作案例,则是知乎。
2020年,知乎开始加速媒介升级,强化社区中图文与视频的融合。
据该合作项目负责人介绍,当时,知乎处于媒介升级初期,关注到平台上的用户对视频质量和体验有更高的诉求。
知乎在寻求外部合作伙伴的过程中,基于对快手音视频技术的了解和认可,主动联系了快手有关技术部门。双方经过多轮技术研讨,最终确定围绕视频架构升级和体验优化展开深度合作:
快手输出了一套完整的点播云解决方案,通过媒体处理服务、融合CDN、播放器等产品,结合热度触发、多码率自适应等策略,逐步帮助知乎解决了用户体验提升和云服务成本优化等需求。除此之外,针对知乎在媒介升级中不同阶段的痛点,快手还提供了专业的技术咨询服务。
更通俗一点说,快手这一套组合拳,能在保证视频画质的基础之上,让视频播放更流畅,视频文件更小、存储成本更低。
通过这两个案例的打磨,一方面,快手对外提供服务的产品能力、工具和体系都更加完善。
更重要的一方面是,一个全新的商业模式正在逐步被验证。
快手高级副总裁、StreamLake负责人于冰透露,尽管市面上已有不少视频云产品,但传统模式下,行业始终存在一个根本性的矛盾:
客户视频码率越高,带宽用量越大,云服务商营收往往越高。
如果升级了视频压缩技术,客户会获益:一方面是C端的用户体验更流畅,另一方面带宽成本也会大幅降低。然而厂商的营收却会受很大的影响。
这样一来,视频云厂商也就缺乏足够的动力,为客户提供更先进的视频压缩和传输技术。
但对于快手而言,其自身就是国内头部视频平台之一,追求用户体验提升和带宽成本优化本来就是收益极高的一件事,因此自然有非常强的动力去做打磨视频压缩技术。
实际上,为此快手已经引入了大量行业顶尖人才,并已经在实践中掌握了行业领先的视频压缩技术。
比如,在新一代视频压缩国际标准H.266/VVC的制定中,快手有数十件技术提案获得采纳。
而在与知乎探索出一套双赢的合作模式之后,快手开始加速自身核心技术能力的对外开放,希望将新的商业模式推向全行业。
于是,StreamLake应运而生。
StreamLake能做什么?
说了这么多,StreamLake到底有何不同之处?
前文提到,StreamLake主要提供的是全链路视频能力和覆盖视频创作全流程的AI能力。
这些技术能力的核心价值被快手总结为4个E,分别是创新(enabling)、体验(experience)、弹性(elastic)、经济成本(economic)。
第一个E为创新(enabling),意在帮助企业从0到1快速构建视频业务,或快速实现业务创新。
从如上架构中可以看出,StreamLake-Video中的点播云、直播云、媒体处理、音视频SDK、移动端组件库等产品,可以构建出一个完整的“端云一体”方案,一站式让行业客户快速搭建视频业务。
第二个E是体验(experience)。
在这方面,快手叠加了超分辨率、视频插帧、SDR转HDR、3D环绕声、去噪、去模糊等一系列智能算法,能结合源片特征,实现视觉和听觉的全方位修复增强。
还能实现毛孔级的4/8K观感、60/120帧、全景声立体音效、高动态对比度、宽色域等效果。
具体到数字指标方面,StreamLake的硬解覆盖率达到95%以上,首屏时间控制在200ms,带宽利用率超过90%。
值得一提的是,通常只有行业头部平台才能实现“零首屏”体验,快手同样把这样的能力向行业用户开放。
第三个E是弹性(elastic),实际上也是弹性规模(elastic scale)。
这一点对于快手而言,已经有过多次验证。
比如快手曾赞助春晚抢红包活动。几亿人同时观看同一条视频,还要完成抢红包的动作,同时在线人数高达2250万人。
这对于带宽的要求非常高。
据于冰透露,快手的带宽量级已达100T级别,存储量达到EB级别。每天处理视频量达几千万条,视频播放量达到几百亿。
因此,弹性规模对于快手而言,是一种“天生”的能力,也将成为StreamLake的一种优势。
第四个E是经济成本、成本最优(economic)。
上云是大势所趋,但成本也必须考虑。
海量高质量视频的传输分发,对于带宽、存储都有极大消耗,这背后都需要大量资金投入。
在这方面,StreamLake拿出了多项自研技术,以进一步降低成本。
比如相同画质下,相?开源的X265方案,StreamLake?研H.265可以实现30%-40%压缩率的提升,KVC可以实现50%-60%压缩率的提升。
通过StreamLake CDN+PCDN 解决方案,在多云融合架构上,各类体验指标持平的情况下,带宽成本可以节约30%以上。
另外,正如开头所言,快手为了进一步提升视频压缩率,甚至还自研起了芯片。
于冰透露,为此,快手还专门请到了视频硬件方面的顶级算法专家来组建研发团队。
以上4个E的价值也在StreamLake的AI技术能力模块得到体现。
快手上,每天有海量的视频内容诞生,每个视频在平台上需要经历内容创作、理解、分发三个环节,在帮助创作者更加便捷、智能化地进行视频内容创作,以及结构化管理海量视频内容上,AI都发挥着不可替代的作用。
在提升视频创作效率、构建视频内容结构化系统、进行业务赋能和营收赋能等方面,快手提供了丰富的产品服务。
快手的AI美颜功能、海量魔表特效、一键成片的智能视频创作功能,是最为大众所熟知的能力,同样能够帮助行业在视频化转型升级过程中提升视频生产的效果和效率。
通过最新发布的“文案成片”功能,用户只需提供一段文本内容,即可实现从纯文字内容到视频内容的自动化智能创作。这一功能的背后,是亿级别的优质版权素材和一套成体系的AI智能创作技术,包括跨模态图文匹配、全局一致性建模、智能配音、配乐等技术。
快手技术副总裁、快手AI技术及主站技术负责人王仲远对此的希望是,通过技术迭代打通视频创作和文字创作之间的鸿沟,降低普通用户进行视频创作的门槛,帮助更多用户更好、更快地制作视频。
快手还基于亿级视频作为训练样本,构建了百亿级多模态内容理解大模型 Pluto(Pretrained Large-scale Unified Transformers for video understanding),简称快手K7大模型。这个大模型能够智能地将百亿级视频压缩到一个数百维的向量表征(Embedding)隐式空间中,能够进行高效的视频相似度计算,从而为数百个业务场景进行赋能。
在显式的类目标签体系上,快手构建了百万级的标签体系,同时通过跨模态兴趣标签与智能检索,可以实现更细分垂类的内容覆盖,以实现标签体系与媒资管理、推荐系统的协同合作。
除了底层技术的积累,在应用和服务层面,StreamLake还推出了一个特色业务——数字虚拟人。
依据应用场景可划分为3类:
- 传播型,包括虚拟偶像、虚拟代言人,主要提供新颖的营销玩法;
- 服务型,包括虚拟人客服、虚拟主播等,可以进行播报、卖货、培训等工作;
- 虚拟化身则是通过算法一键拥有数字分身。
在这方面,快手此前也有多方面尝试。
比如从几年前开始,A站虚拟人动捕技术就是由快手提供。
今年最高检推出的虚拟检察官,也是由快手联合制作。在视频中,虚拟人完成了最高人民检察院2022年工作报告解读,时长大约5分钟。
王仲远介绍,此次面向行业合作伙伴,快手正式发布了视频AI的三大类解决方案:智能视频创作,智能视频理解,数字人及XR,希望通过这三大能力板块,加速行业的视频数字化转型。
快手ToB,为什么是现在?
用于冰的话说,“快手准备好了,这是做To B业务的前提。”
更主要的是,视频行业如今正站在一个增长的窗口期,并且正在迎接新一轮的技术革新。
所以快手此刻进军ToB,由外及内,大致可归结为三方面原因。
其一,视频数字化已经是行业的大趋势。
在王仲远看来,如今视频、直播已经逐渐成为了行业基础设施一般的存在。
就像需要电力一样,各个行业也越来越依赖于视频化的表达方式。
于冰也提到,随着5G技术的发展,用户的手机屏幕、电视屏幕都在变大。这种趋势之下,对于用户而言,4K乃至8K的视频将逐渐常态化。
但对于视频行业中的玩家们而言,这样的技术升级背后,意味着视频码率(单位时间内视频的数据量)将提升5-10倍之多,对应的成本之高也就不难想见。
这种情况下,借助视频云服务把成本控制下来的需求,也将愈发旺盛。
据IDC发布的《中国视频云市场跟踪(2021下半年)》报告显示,2021下半年中国视频云市场规模达到50.4亿美元,同比增长32.7%,预计2026年市场规模达到364亿美元。
但对于企业自己而言,从0开始构建一个视频系统的难度不可小觑。
且不说技术搭建的难度,单从需要投入的人力、时间、金钱来看,就足以令人望而却步。
而这些能力正是快手当下已经具备的,并且已经完成中台化,可以外放给更多行业。
这也就体现了快手进军ToB的第二方面原因——自身技术有底气对外开放。
到今年为止,快手技术已经有了11年的积累沉淀,并且长期经受海量数据考验。
据了解,目前快手平台每天要承载3.46亿整体日活量,每日上传的视频数有数千万个。
在视频汇聚和分发的背后,是多达3000余项AI服务的支撑,每天调用次数超过4500亿次。
这背后,当然离不开在技术研发上的投入与布局。
2021年,快手在研发上的投入达到了150亿元。
其技术团队在国际顶会、赛事上也多次斩获大奖。如在INTERSPEECH 2021 Speech Enhancement Challenge for Video Conferencing语音增强比赛中,快手曾斩获双项第一。
此次StreamLake平台,还实现了从底层到顶层99%自研自建。
正如前面所提到的,快手也逐渐意识到了技术的“普适性”。
因此在过去几年里,他们开始尝试性和一些企业合作,来验证ToB的可能性。
经过知乎、多多视频等多家标杆客户的验证后,快手最终确定,自家技术是可以帮助到不同行业的,故而有了此次StreamLake的推出。
实际上,这一动作与其“专注、专业、极致、可靠”的技术理念不谋而合。
由此引出了快手进军ToB的第三层动因。
普惠平等,是快手在ToC方面一直坚持的事情。
王仲远表示,快手的技术如今可以适配10万款手机机型。让高端旗舰、普通机型的用户,都能感受到AI的能力。
现在推出StreamLake,是这一理念推及到ToB侧的体现。
快手提出,要把互联网视频“重工业”转变成“轻工业”。
也就是将行业技术门槛、成本门槛都进一步降低。
让互联网、传统行业,都能快速接入Video和AI方面技术,缩短视频数字化转型的周期,减少成本支出。
与此同时,快手还提供有专家顾问天团。
即便行业客户没有建设自己的视频团队,也能帮助其搭建起视频化任务。
针对自建了音视频团队的客户,快手表示也将遵循开放共享的原则,进行更为深入的探讨合作,包括代码级、文档级的技术共享。
总而言之,让快手的技术从内部流淌到各个行业,是StreamLake的品牌理念,也是其名字的来源——
核心能力如涓涓细流,下游场景如大江大河。集技术汇聚、分发于一体,故而称为“StreamLake”(溪流湖)。
“慢棋”非慢
在这个时间节点宣告进军视频云赛道,快手面临的质疑其实并不少。
最大的质疑声音,就是StreamLake这一手棋,快手是不是下慢了。
但正如前文所言,这招“慢棋”,其实也下在了一个不错的时间窗口之上:
一方面,视频云领域竞争激烈,但客户需求仍未被很好地满足。
另一方面,4K/8K技术变革已然为视频行业带来新的挑战和增长契机。
而快手此番宣布入局ToB赛道,既有芯片又有数字人,但更深远的价值或许才刚刚释出冰山一角。
为什么这么说?
对内,正如快手的技术负责人们所言,迈出To B这一步,意味着快手的技术往后可以在外部得到进一步的验证,给技术人员们带来更直接的市场反馈,有利于推进创新。
而对外,对于这样一个规模日益扩大的市场,降低技术门槛已成众望。
快手的入局,既给市场带来了一整套成熟的、经过市场验证的技术方案,亦带来了一种全新的商业可能。
如此,市场的选择更加多样化,行业降本增效也就越“卷”越有看头了。
当视频时代的互联网正在成为“重工业”的时候,客户们迫切需要降低视频化投入成本,或者说以更低的投入支撑更好的体验,而这,恰恰是StreamLake可以撬动的机会。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态