计算机如何教自己说话
2018-09-28 08:24:45


最近我们报道了一个相当令人震惊的消息,谷歌的翻译设备在人工智能术语方面取得了重大飞跃- 看起来一直都是这样。利用机器学习,谷歌翻译“教授”本身是一种更好的方式来翻译不熟悉的语言,有效地通过发明自己的语言充当中间人。
任何看过原始终结者电影的人都知道,一旦天网人工智能系统变得自我意识,事情就会迅速变成梨形状。
所以你可能会因为发现机器正在悄悄地开始自己做出创造性的决定而感到有些惊慌。在终结者中,天网迅速从自我意识到引发核浩劫。
机器思考和学习的时代正在我们身上。在硅谷,互联网巨头百度在语音合成方面取得了突破,使人工智能能够学会快速表达口语。实际上,这些机器现在可以在几个小时内自学。
文本到语音系统之前是通过记录个人(通常是演员)大声朗读大量口头语言和常用短语而创建的。
然后以各种组合提供它们以适合它们作为讲话时钟,或卫星导航系统或自动呼叫系统来接听电话。
这种方法带来了一些挑战,例如,如果系统需要扩展并且原始actor不再可用,会发生什么。导航系统通常通过让原始演员记录一些常见的单词部分来环绕这个问题,然后将它们拼凑在一起以形成不寻常的街道名称。
演员将记录常见的地名,如“高街”,但对于非常不寻常的地名,如Torquay的Hellevoetsluis Way(以荷兰小镇的双城命名),该系统将粉碎演员的音节录音以获得在宣布这个词时可以做出的努力。
谷歌最近的研究提出使用一种系统来克服这个问题,该系统反而从观察到的语音中观察声波并用它来发出任何文本的抄本。
神经网络使用深度学习但仍然需要人类训练,并且在它可以在现实世界中使用之前还需要克服一些计算挑战。
部分问题在于,现实生活中发言速度太快,以至于计算无法跟上新发展的步伐。谷歌的解决方案尚未达到与人们交谈的足够速度。
最新发展
这是百度刚刚介入的地方,在硅谷基于自我训练的深度学习算法开发了自己的语音合成项目。
这一新发展将演讲分解为其最小可能的组成部分 - 现象 - 而百度的AI可以调整这些音调,从而为其产生的语音增添情感。
百度的系统不需要人工培训,可以快速获取新数据。这表明它可能能够适应新的语言。它也可以在一种语言中学习不同的语音类型:例如,AI可以阅读一本有声书,并以不同的方式完成每个角色的声音。这为人与机器之间更真实,情感上更熟练的对话提供了新的可能性。
这在诸如医疗保健等敏感领域具有明显的意义,如果相互作用在情感上更加细微差别,患者可能更容易接受AI。
最重要的是,百度的团队声称已经克服了谷歌遇到的计算问题。据估计,新系统的速度比谷歌上一次迭代快约400倍。这意味着系统可以足够快地工作以在现实生活中发挥作用,例如通过不可预测的交易与人交互。
谈论机器人的未来
随着两家互联网巨头将注意力转向语音合成,这个研究领域几乎不可避免地要快速推进。一旦人类破解人工对话问题,对商业,技术和社会有很多影响。
通过自动驾驶汽车和自动检测等技术,可以更轻松地推进,从而可以减少烦人和重复。
自学系统确实是解决不可预测的会话情境的关键。目前人工智能的互动仅限于相当狭窄的范围内; 例如自动语音邮件,可以从您那里获取电话号码或回复简单的是/否响应。
能够适应新情况的语音合成系统开辟了新的可能途径,例如与自动驾驶汽车谈判路线或向AI医生描述您的症状。
改进的语音合成也可以更好地代表我们。由于运动神经元疾病等疾病而失去声音的人,如果他们在失去说话之前记录他们说话的声音样本,就可以通过计算机通信更好地体现他们的身份。
或者,计算机可以结合来自其年龄,性别和地区的多种声音来创建公平的表示。
当然,像这样的新技术的出现也存在负面影响。如果AI互动可以取代人类,那么就有可能造成大量失业。
对于昂贵且易犯错的人类工作者来说,执行诸如服务行业之类的交易的需求要少得多。
我们认为理所当然的事情,例如在餐馆里有人员等待,可能会变得更加罕见。社会变革和经济中断将不可避免地伴随着能够与我们自由交谈的机器的到来。