繁华之下,危机已现——中文虚拟歌姬,虚拟主播和人声的偶像战争
Death is like the winter chill.
No door can keep it from us.
And summer yet may bloom again.
The ice be upon us.
死亡,即如侵髓之霜
紧闭门扉,亦不可挡
纵使盛夏,再起芬芳
吾等亦难逃冰雪之殇。
(题图与定场诗全部来自战锤3全面战争的正式宣传片,版权归原作者所有,此处只是引用)
我知道,很多人不相信虚拟主播(vtuber)是VOCALOID甚至是整个虚拟歌姬界的敌人,我可以尊重他们现在的考量,但是在现实当中的目的上,这两个技术方案却可以说是殊途同归。我将这两种技术路线现在的战斗比喻成特斯拉和爱迪生的直流电交流电战争。两种技术在对应同一种目的的时候,可以说是竞争关系。但是当电学继续发展的时候,这两种技术很快就出现了分野。直流电去完成了一部分需求,交流电完成了另外一个部分。并且随着科学技术的发展,两架互相在一部分领取取代了对方的使用范围,但是在一定程度上都取得了技术上的发展进步,造福于人类。
但是现在,vtuber正在直接冲击VOCALOID的基础,真实偶像,虚拟主播和虚拟歌姬正在一片战场奋力拼杀,作为胜算最少的阵营,VOCALOID及其盟友情况危险。
1:虚拟歌姬,到底是什么东西
现阶段的虚拟歌姬发展方向是将声音合成软件的音库创造形象,进行拟人化,为此赋予一部分虚拟人格设定,将之打造成虚拟歌姬进行运营。整个业界围绕这个思路开发出了很多运营方式,例如说将虚拟歌姬打造成偶像,通过授权和周边进行赚钱(上海禾念)。或者说将声库虚拟形象进一步扩展,卖更广义上的周边和授权。并且通过提供高质量的音乐作品完成宣传工作和部分收入(北京福托)。
这样的方式很成功,改变了依靠声库售卖赚钱还随时可能被盗版破解的憋屈方式(毕竟声库就像是工具起子,等到全世界人人都有一把起子的时候,你不仅发现市场上没有几个人买起子,还要随时面临其他造起子,捡起子卖的人竞争。)至少说你可以用同样一个IP对一个人收好几次钱回来。
但是这样的方式产生了一个问题。
你现在将声音合成软件的声库打造成了虚拟偶像,但是你的声音总归是限制在声学和计算机软件技术的限制之下。在现有的技术之下,声音可以变得比较像,也可以完成一部分人声做不到的东西,但是这东西真的像是人声吗?
根据现在最普遍大众对于声音合成软件作品的接受程度,这种方式的拟真还是太差。
如果用工具的方式形容的话,声音合成软件就是一台机床加上各种各样的刀头。而人声就类似于老师傅手工。一个老师傅,一间房子,一整套眼花缭乱一样的工具组,到时候使用的时候,机床通过预定的设定和传感器完成里面东西的雕刻,老师傅使用工具一锤子一錾雕刻出来。虽然说两者都完成了雕刻东西的任务,但是对于机床来说,它的传感器还不够,很多东西也太粗糙,做出来的东西虽然有这样的样子,但是充满了毛刺毛边,还有大大小小因为各种各样精度原因导致的坑坑洼洼。甚至有一部分复杂结构因为机床的精度不高,还是三轴机床等原因干脆敷衍处理。相对于老师傅一錾子一錾子雕刻出来的东西来说简直就是天壤之别。一部分富有经验的机床工人可以通过对某一部分参数的细微控制达到与人声相似的地步,但是差距就是差距,弄得再好的机床作品也没办法把所有毛边去掉。大家在某些情况下会使用机床作品勉强用用,但是如果愿意的话还是喜欢人工的东西。
这不是什么情感和信仰的问题,这是技术问题,声音合成技术就是比不上人声,就算是对于虚拟歌姬的狂热粉丝现在也要承认这个技术差距。
2:在Vtuber搅局之前,虚拟歌姬和人声到底占领的是什么市场?
我们画一张图,横轴为声音的模拟程度,越往左代表越接近人声,在这个点的因变量代表达到这种接受程度的人数。
这张图的面积你可以理解为中国所有的音乐听众,我不会排除特殊情况,例如说最右边的声音,笔者老家公交车需要考核到某一个站是不是准点,还需要通过一个程序播放出来,但是如果将所有的连续句录出来那工程太大了,而这样的声音提醒你还要说正点晚点,晚点几分钟,总要换几个字,那么实际效果就变成了“大~站~考~核~正~点~到~达~火~车~站”这样的,完全使用单个字音拼接,相同停顿,没有抑扬顿挫,与其说这是说话,不如说这是播放指定字音。
谷歌娘就是类似这样的方式,不过互联网大公司聪明一点,他们会在两个字音当中添加标准过渡,或者通过人工标注的方式添加特殊语气。但是随着声音的发展,想要通过这样的方式完成一个完整的音库,你要干的事儿绝对是天量级的,特别是字与字之间组合千变万化甚至毫无头绪的中文来说,你要是工业上提醒还能用这样的方法给公交车搞大站考核还能行。让他们说话甚至唱歌……
咱们还是直接请人完整录音吧……
从最右边往左走,我们很快就能看到utau,VOCALOID这些技术了。CV VCV CVVC VCCV录音方案啊,使用技术什么的我们先不用讨论,基本上现在主流的声音模拟要做的就是这些事情:
1:录制尽可能少的必要声音采样样本。
2:通过计算机技术以这些采样样本作为基础,将整个声音系统拼凑出来。
现在的声音模拟技术很难拼接元音和辅音之间的链接,所以说在录制元音和辅音之外需要录入大量的链接和延长作为补充,再通过计算机技术将这些链接和延长采样,加上基础的元音辅音拼接起来。
具体的这些CVVC,VCV,VCCV,CV这些就是具体录音方案,根据现实情况进行使用。拼接的效果就是想办法在一句当中出现尽可能少的节点,链接点越少,通过计算机技术处理的越合适,听起来就越加舒服。
相对于VOCALOID进步一点地就是后来者synthetic V 这个技术使用人工智能,具体技术细节我也讨论不成(你叫一个地理人研究语言学和声音合成技术,疯了吗?)但是通过人工智能,他们做得到的就是我刚才提到的那两点。采集的声源越来越少,拼接的效果越来越好。基础在计算机技术和声音技术的发展上。计算机基础好了,才能允许更少的采样和更多的接点,声音技术好了,哪些采集节点就可以省略掉减少成本,同时发掘声源做不到的声音而不失真(例如说技术发展了,VOCALOID引擎牙膏管踩爆了,用洛天依谁都可以轻轻松松弄个青藏高原乐呵乐呵,一雪《尘降》之耻。)
好,我们再往左看看有什么。
再往左的高影响力显然就已经陷入了人声的范畴,距离虚拟歌姬近一点的叫虚拟主播,远一点的就是人声(也就是这个条子的最左边)。先说人声。
人声大家都喜欢,最左边的显然就是国家队,例如廖昌永龚琳娜这些实力派,往右移一点点的就属于一般的歌手,或者说对于自己的演唱有点不自信的歌手。这些歌手需要一些声音处理软件进行微调,将他们唱偏的一点声音调回去一点点。再往右就是实力不济的唱见,他们严重依赖录音棚和声音处理软件。这三条线虽然说有所分割,但是距离不会太远,毕竟声音处理软件地目的可是微调而不是炫技。
使用处理软件的目的是为了叫他们更加接近人声。
那么问题来了,在人声和高品质虚拟歌姬软件当中有什么呢?在以前,这个问题的答案是更高品质的虚拟歌姬。但是虚拟歌姬依靠宣传和品牌过日子,技术反倒不是决定性因素。因此很多声音合成软件来了又走,生了又死,这片地区白茫茫成了空白
一部分偏向右边的投入VOCALOID等怀抱,一部分偏向左边的投入人声去听唱见去了。
3:点vtuber,科技树要怎么点?
我们说每一样技术或者产品的产生都需要大量前置的技术支持。没有国家能够在前置技术缺乏的基础上直接去点后面的点去干成事情的。
例如说美国激光技术发展不如中国,归根到底,激光晶体美国长期突破不足 反倒是中国在这方面点出了大量的科技树,再加上高温超导体等技术,这才使得激光技术上中国的积累反倒还超过美国。
Vtuber也是点科技树的产物。支撑vtuber需要4个技术:live2D(计算机图像渲染等),声音处理(计算机声音处理),直播(互联网通信技术)和面部捕捉技术(图像识别和分析)
其实在近二十年互联网和计算机集成电路发展浪潮当中,前三个都已经在计算机技术的帮助下点出来了。但是第四个技术却一直遭遇了瓶颈。以前有一个笑话,让计算机识别图片文件名中的鸟只需要一个人五分钟,而让计算机识别图片当中的鸟需要一整个团队和20年。图像识别是一个老大难问题 在算力不够的情况下尤其如此,所以说虽然vtuber需要的前置科技一一点出来了,但是2018-19年,vtuber这才大发展起来。
人工智能的成熟点掉了最后一个科技。
Vtuber是一款不需要真人形象的偶像,着使得一部分声音好但是外在形态不怎么好的人能够有机会套一层皮去完成自己的声音梦想,或者说我们连声音好都不用了,声音上有什么问题直接通过计算机技术修正,玩的好了老变少或者男变女都能行!这项技术大大降低了这场声音战争的门槛,通过声音的一部分修正 无数vtuber通过演唱的方式进入音乐圈子,在人声和VOCALOID弄出了一个中间区域。由于计算机技术的发展,你可以所从牙牙学语的三岁小孩到耄耋之年的老者几乎是一网打尽。
Vtuber就这么站了起来。
4:vtuber弹出一条红绳,VOCALOID就看到一条红线
Vtuber的声音其实说穿了就是人声,计算机处理的人声那也是人声。既然是人声,vtuber在刚才那个人声的基础上能做的其实就是“搭一个阳台”,就是说在人声右边有一个稍微宽一点的条条,这个条是一部分处理的比较严重甚至变声的vtuber。
那么vtuber是怎么赢的?
Vtuber改变的主要是人声-vtuber阵营(这个阵营在实现方式和技术上的对手就是泛VOCALOID阵营)在形象上的劣势。
会唱歌的人有千千万。有好看的皮囊的人也有千千万。但是将这两个因素综合在一起,这个人数就显得小了。更多的人可以说是两者有其一。在实际当中的展示上,影视剧可以照顾流量明星采用真实形象(或者说是换头形象)加上配音的方式修复这些流量明星的问题。但是这是影视剧,卖皮囊的。放在音乐这边主要卖点就是声音,谁要是按照前者去卖的话还不如直接让演唱者去发布专辑,何必多此一举?
所以说在实际当中,要做到互动采用的就是虚拟主播的形式:live2D加面部捕捉完成动作互动,直播完成视频输出,组成虚拟形象满足粉丝对于形象的幻想,再用经过计算机处理的真实人声填充。好了,虚拟主播完成了,现在可以出发献(lao)唱(qian)了。
虚拟主播威胁VOCALOID的方法其实也很简单:很多人可能喜欢一部分人的声音,但是对于他们的形象有一些问题,使得他们不适合出场,以真实的面目示人,真实的形象可能会毁掉粉丝根据声音对他们的美好幻想,在vtuber出现之前,这时候就有了两个选择:
1:放弃人声,以牺牲音质作为代价拥抱泛VOCALOID
2:忍受形象上的不足,坚持原样或者寻找更合适的歌手。
两个方案来说,第一个方案其实更加可行,毕竟对于一般人来说好的的形象才是更好的选择,所以说VOCALOID能够在vtuber出现之前成为了一群人的避难所,他们需要的是一个美好的幻想。而成功给真实人声套皮,这导致了下图的右移。
战场右移,对于VOCALOID阵营来说,就是一个绝对的噩耗。
5:vtuber吃的不是身躯,吃的是根基。
也许有人会反驳我说中文VOCALOID并没有感觉到这种来自vtuber的压力,你在虚空立靶子,我说vtuber的确没有直接对VOCALOID发起宣战,到现在为止,两家表面上合作关系还是有的。
那么问题出现在哪里了?
堤坝设计和建设上有一个概念叫做坝趾冲刷,还有一个类似的概念叫做堤趾冲刷,这两种冲刷在原理上是类似的。为了叙述方便,我主要说一下坝趾冲刷这个原理。
坝趾冲刷产生的原因其实很简单,在水流顺着大坝前部顺流而下的时候,高差带来的动能使得水能够对大坝底部与基座连接的地方产生巨大的冲击,久而久之,这一块位置的坚硬基岩将会在水流长时间冲击下碎裂,碎裂导致水流能够继续冲击基岩的深处,导致大坝前段基岩松动,大坝背后的水压推动大坝前倾,最后整体垮塌造成悲剧。
对于这种问题,水坝在设计上一般在底部会设计一个特殊的坡道,使得水流改变方向,就像是龙吐水一样从坝底腾空而起,消耗动能拉出一道优美的弧线,使得水滴在空气当中碎裂,以小液滴的方式飘落下来或者落在更远的地方。
现在vtuber的冲击其实就类似于水坝背后的水,而水坝本身就是现在支持VOCALOID的各类仁人志士,而底下的基础是VOCALOID的潜在支持者。Vtuber没有能力摧毁大坝,但是他们能通过摧毁大坝的基础,通过将潜在的,对VOCALOID感兴趣的人吸引到vtuber冲刷基础。随着我们这些人的逐渐离开,我们的同志越来越少,敌人的战士却越来越多,最后使得大坝根基不稳,在巨大的水压之下土崩瓦解。
所以我一直在说,vtuber危险就危险在他们争夺是我们未来的诸位同仁和战士,失去战士和后援,雄伟的大坝只能是无根浮萍,在互联网大潮的冲击之下只能垮塌了事。想要保住VOCALOID的未来,利用科学技术从vtuber争夺生存空间必须提上整个圈子的日程了。
总结
面对vtuber的全面战争,现在VOCALOID或者和VOCALOID相似的声音引擎陷入了一种尴尬的境地:如果坚持自己的偶像发展路线,那么面对人力充足,态度激进,快速扩张的vtuber几乎可以说是以己之短攻敌所长。只能在互联网大潮之下逐步被敌人所淘汰。而如果将自己抽出偶像化的路线,那么惨淡的财报将会吓跑每一个试图进场开发新声源的公司。
那么面对这种情况,我所建议的策略就是需要做到两点事情:
第一个,技术进步是圈子能够继续发展的技术基础,技术越好的引擎更能在发展的基础上从vtuber头上争夺生存空间,有了更好的引擎技术,我们才能做出成本更低廉的引擎和声库,吸引更多的人使用这款软件。而相对之下,引擎歌姬的形象应该放在一个次要的位置上,我们应当容忍一部分音源抛弃旧有的老旧引擎从而去选择技术更新,效果更好的引擎。
vtuber使用人工智能和种种算法完成了面部捕捉的廉价化,那么各类声音合成软件也可以通过这些武器和科技完成对于声音的进一步打磨,从而达到更低成本做到更好的品质。在能够做到与人声以假乱真之前声音合成软件暂时还谈不上会有自身的特色。
第二个,从狂热的偶像战争当中脱身,将VOCALOID或者类似VOCALOID相关的引擎重新定义,声音合成软件应当被看作是一套工具系统,而各个音源就是作用效果不同的工具。B站VU区应当是一个中国音乐试验场,应当承担起一部分培养新人,容纳新风格的责任。沉浸在过去古风盛世当中是没办法继续前进的。
中文V家应当在思想和文化实践上做出一点改变了。