2018-07-14539
只需要你的几段话,机器就能克隆出你的声音,这样的事情你相信吗?
这种似乎只有在过去电影和科幻作品里才会出现的情节,最近在极客之选(微信号 GeekChoice)发现的这个名叫 Lyrebird 的网站成为现实,并且明白无误地呈现在我们面前。
视频/Lyrebird
Lyrebird 取自一种生活在澳洲的特殊鸟类——琴鸟,它最大的特点是能模仿周围的声音,只要听到声音信号,它都可以很自然模拟出来。事实上 Lyrebird 网站做的就是类似的事情。
打开网站,主页上清晰的写着「我们创造世界上最真实的人造声音」(We create the most realistic artificial voices in the world),看起来有点让人疑惑,不过下方写着这样三条注释,表明网站的目的:
既然是创造声音的网站,那么它到底能有多像?这就引起了我们的强烈好奇,虽然在网站 DEMO 部分,我们听到了官方合成的足以以假乱真的特朗普以及奥巴马的声音(文章开头视频部分),但那和我们以前见到的 AI 视频作假都更像是展示技术而已,究竟能否模拟出坐在电脑前的你我呢?
带着这个问题,我们又看到官方一个名为「CREATE YOUR OWN VOCAL AVATAR」的功能,上面写道只要录制 1 分钟,就能创造出属于每个人的声音,这就让我们迫不及待想要试试看这扇新世界大门背后的秘密。好在这个功能并没有使用门槛,官方只要求使用前先注册,就能免费使用。
怀着半信半疑又满心期待的心情,我开启了特别的录音之旅。Lyrebird 官方要求每个人必须至少录制 1 分钟,即 30 段英文,这些英文是来自官方素材库中的随机句子,或长或短,但都不算太难。
点击「Start recording」,对着麦克风念出句子,点击上传,接着出现下一个句子,点击「Start recording」...... 如此往复,完成 30 句就算采集成功。值得注意的是,每一句话录制过程中,如果你感觉不满意,都可以选择重新录制。
经过几分钟的录制,30 句话上传完毕,这时会弹出一个窗口,上面告诉大家,录制的材料越多最终呈现的声音效果越好,30 句话的英语实际上是 1 分钟的素材,最好能够录制 5 分钟,也就是 150 句话,效果会更好。当然,其实 30 句话也符合标准,点击「创造我的声音」,见证奇迹的时刻就要到了。
Lyrebird 网站会在云端利用 AI 技术进行分析和合成,大概一分钟左右,我们终于看到官网出现了一个新的对话框。而这就是最终我们的「声音制造器」。
在对话框输入任意句子或单词,你就能听到被机器制造出来的声音,听起来和我本人的声音的确非常接近,即便是稍长一点的句子,它也能发出很正常的声音,给人一种更专业的感觉,不过也并非全无缺点,至少我发现了两个目前还不完美的方面:
第一,声音表现出来的尽管非常还原本人,但能听到其中夹杂的细微电流声,尝试多次都会这样,仔细听其实和真人的声音会有差别;
第二,由于用英语录制素材,输出的也是英语句子,所以整体虽然在英语上可圈可点,但当让它说出中文句子时,表现的并不好。
尽管如此,Lyrebird 仍然让我们感到惊讶,在创造自己声音这件事情上,至少并不如我们想象的那么困难。实际上,它目前的效果已经比去年好了不少,就在上个月,Bloomberg 记者 Ashlee Vance 就用机器合成的句子跟家里人打电话并问好,他的母亲甚至很难分清楚究竟是不是真的。
在让人惊叹的技术背后,Lyrebird 所关注的领域自然也引发不少人的担忧,究竟这些能被用来做些什么?如何不被滥用?更进一步会变成什么?
在 Lyrebird,我们看到了创始团队设想的几个场景,包括聊天机器人、电子书、智能客服、视频游戏、以及文章辅助。这些场景实际上已经有声音存在,但 Lyrebird 希望做到的是,通过更真实的声音,能帮助大家更好融入这些场景,同时也能节省下很多人力资源。
至于如何不被滥用,Lyrebird 联合创始人 Jose Sotelo 在接受 Bloomberg 采访时谈到,他们希望这个技术能帮助那些发声困难的人,通过官方 API 接口,为他们打造出自己克隆出的更真实声音,而不再是过去那种机器发出的声音。一个例子是 Ice Bucket Challenge 创始人 Pat Quinn,他患有 ALS(肌萎缩侧索硬化),但在使用 Lyrebird 之后,他也可以通过「自己的」声音进行演讲和交流。
而关于 Lyrebird 的未来,我们不妨再回想一下今年五月,Google I/O 大会上,Google Assistant 带来的令人惊讶的现场演示环节。当机器已经能够模拟出真实的人类声音之后,如果还能表现出人类说话时断断续续、略带思考的顿挫节奏,达到以假乱真的程度,是否就会更进一步,帮助我们处理那些日常的琐碎事情呢?