上篇内容包括情感语音的定义以及情感合成实现所运用到的一些技术,下篇重点探讨情感合成的数据问题,应用场景以及技术展望。

情感合成数据

数据是另外一个制约系统整体表现力的因素,而在情感合成数据方面则面临着很多的问题。比如需要数据有情感表现力,所谓情感表现力是指在听到一段声音后,能够明显感知到说话人是高兴的、生气的、还是忧伤的,这是现阶段希望能够解决的一个问题。还有就是情感控制,说话人情感表现的程度,有的比较轻微,有的是比较强烈,这时候就需要对数据做选择。前景网络如果情感过于强烈,并且波动范围很大的话,对于建模的要求就会非常高。所以在数据层面,对情感的控制有一个度量是必要的。
其次就是数据的规模。理论上,对于神经网络来说,数据规模越大,则整体效果越好,当然这是一个理想的情况。而在实践中,一旦对情感表现力和情感控制方面要求严格,往往只能采用同一个人的不同情感声音数据,那么数据规模本身就会受到一定限制,因此数据规模也是制约情感合成技术发展的一个关键点。
情感合成应用场景

随着情感合成技术的发展,除了应用到有声读物,另一主要应用就是语音助手,近年来随着NLP技术的发展,语音助手开始逐渐走进大家的生活中,帮助人们完成一些简单的工作。虚拟形象近年来发展得也比较好,例如虚拟主持人、虚拟歌手、虚拟的形象,能够具有一定的情感表现能力。
除此之外,抖音、快手等UGC创作平台,其中不乏有意思的故事、视频,但部分内容配音需要找一些专业的人员录制,很多内容创作者并没有这个条件。有许多创作者开始将语音合成(成本更低)结合到内容创作中,让内容变得更加生动、有趣。那么更进一步,例如游戏和影视动画等领域,在具有一定情感表达能力后,对于一些非实时的产品,情感合成类技术也将有一席之地。
技术展望

但在实现这么多场景的应用之前,情感合成技术还有待提高。例如一本小说,小说里的角色众多,如果每个人用不同的声音去表现,每个人又都有其自己的感情,那这本小说就可以通过听的方式表现的活灵活现,这也就要求NLP具有更高的角色分析能力。还有涉及到语音合成的挑战:不同说话人之间的情感迁移,把别人的情感和非情感的差异,在一个没有情感数据的声音上进行呈现,是否能够实现。
而且若想实现有深度的交互背后也还需要大量的技术力量支撑。未来应用在心灵电台等场景,是极具社会意义的事情。另外就是声音和形象的组合,如果能够加上有情感的声音以及有表现力的表情,就可以应用到影视、动画等这些高难度的场景了。
可以说,情感合成领域仍有非常多可以想象创新的空间,前景广阔,未来可期。
文章部分素材来源:LiveVideoStack