你的男朋友请来海绵宝宝送你三八祝福?不,是使用了搜狗输入法

你知道吗?微信这款应用已经上线9年了。作为月活亿万级玩家,微信无疑是用户基础最广的社交平台。但是,由于微信本身的语音发送功能比较薄弱,千篇一律的声音语调让聊天缺乏趣味性,很容易让用户产生审美疲劳。

语音到底应该怎样做才能更有意思呢?作为国民级输入法,搜狗输入法在2019年5月首创了”语音变声”功能,率先给出了答案。变声对于大家来说并不陌生,很多配音演员都可以变换多个声音,让人觉得声咖果然都是”怪物”而搜狗输入法语音变声让成为大众都能玩儿起来的东西,让声音在社交中多了一个新的玩法。

图片包含 屏幕截图 描述已自动生成

事实上,在过去25年来,人类从未停止过对变声技术的研究。以谷歌为代表的众多科技公司和国内外其他研究机构一直在进行变声技术的研发,但仅仅只是停留在研究层面,还无法达到稳定状态,难以实现最终的应用落地。

例如,谷歌最新版本的人工智能语音合成系统Tacotron 2,合成的声音几乎与真人发出的声音完全一样,但它只能实现”文本转语音”的语音合成功能;加拿大的”琴鸟”(Lyrebird)公司,利用语音模仿算法,可以模仿任何人的语音,还能在声音中加入”感情”因素,让它更生动逼真自然,但这也只是语音合成技术,只是将文字信息转化为语音信息,然后播放出来。

而目之所及,柯南所使用的”变声领结”,需要的不是合成,而是语音到语音的新技术,这其中面临的种种技术难题,把人类阻拦了25年。

尖端技术领域新版图:语音变声(Voice conversion)

目前,在语音研究领域,语音变声包括多项内容。首先是机器对声音的处理,例如美化或者夸张;其次是一对一的变声,即将特定声音A转换成特定声音B;在一对一的基础之上,再进行一对多的变声——当到达这一阶段,柯南的变声领结便可以实现了,但是,此时的变声领结仍然是柯南的专属,它仍然无法处理柯南之外的其他人的声音。

搜狗语音变声技术,是可以将任何人的声音转换成特定人的声音(Any-to-One),这是变声领域难度系数最高的研究。众所周知,识别一个人的声音容易,但识别所有人的声音极难,因为每一个人的声音和语言都不尽相同。

所以,搜狗输入法”变声”功能是首次将上述的语音变声能力落实到可以实际体验的产品中,同时也开拓出了一个技术新领域。

它不仅可以将任何人的音色转换成特定人音色,而且语速、停顿、情感等说话习惯均可被转换为超高逼真度的指定角色声音,这种”语音到语音”的技术,从实用度到技术难度上来说,都是最高等级的。在”变声”这个好玩功能背后,搜狗又一次为语音行业在技术领域的扩展了版图。

搜狗取得重大技术突破

值得称赞的是,搜狗在取得了技术突破之后,并没有藏起武林秘籍,而是选择将之坦诚相告。他们从未掩饰,之所以取得如此开创性的成就,是源于搜狗在语音表征学习和风格迁移领域的突破性进展。

你的男朋友请来海绵宝宝送你三八祝福?不,是使用了搜狗输入法插图(1)

ICLR主席,法国巴黎大学的荣誉教授Herve Glotin曾这样表达:表征学习是机器学习的根本。通过表征学习,机器可以更好地进行语音的识别,而加上风格迁移的支持,机器可以识别出语言中的风格和内容,二者整合在一起,可以将一个人说话的音色和另一个人说话的韵律以及内容融合,最终完美呈现出来。

应用前景广阔,语音变声大有可为

搜狗输入法实现的这个变声功能,也拥有撬动多个行业的潜力。首先在用户层面,变声功能可以围绕搜狗输入法形成”语音表情包”,丰富聊天内容,而这很有可能形成全新的流行文化,为社交环境增加全新的”调味料”;在行业层面,搜狗语音变声技术可以服务于不同场景的音频内容制作,使生产效率得到大幅提升,未来在线教育、景点导游、电商广告等场景的音频制作,都可以使用搜狗,从而大大优化用户的使用体验。

搜狗语音目前看上去或许只是一个社交聊天的新玩法,但不会停留于此,它真正的应用场景十分广阔,说不定某些行业要被”革命”了!

 

为您推荐

联系我们

联系我们

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部