资讯
当前位置:主页 > 智能 > 机器人 >

让语音助手好好说话这项成就,谷歌还有些事没

2018-05-30 20:21 网络整理 机器人 编辑:admin 浏览数:智能汽车网

 人工智能仍然在不断颠覆着我们对“黑科技”这一名词的认知,这是很多人看完Google新语音交互技术演示后的感叹。...

人工智能仍然在不断颠覆着我们对“黑科技”这一名词的认知,这是很多人看完Google新语音交互技术演示后的感叹。

在上周召开的Google I/O大会上,Google CEO桑达尔·皮查伊(Sundar Pichai)向众人展示了一段日常生活中再正常不过的电话沟通片段:向理发店或是餐厅预约时间。

不同之处在于,这是一段Google AI语音助手和真人之间的对话。它实在是太过真实,倘若不是在发布会上,单纯听这段录音恐怕很难分清谁是AI人工智能,谁才是真人。

最后,名为Google Duplex的人工智能助理出色地完成了往日需要真人实现的电话预约服务,也让我们看到语音助手了下一种演变方向。

借助AI技术,人类和语音助手之间的沟通不再是单向的,而是可以很自然流畅地实现多段沟通,就像人与人之间的对话一样。

这种自然,具体体现在以下几个细节:

1.更加富有情感的变调语气,比如提问句中会有停顿,某些单词则带有明显的拖长音;

2.哪怕是对方回答的内容稍显混乱,Duplex也能调及时调整应答内容;

3.会发出诸如“嗯哼”、“额…”这样的语气词;

4.恰到好处的回应速度。

事实上,人类在日常对话中并不会太讲究语序逻辑,有可能会在一个句子中夹杂着多层意思,这一点在Google现场演示的两个电话沟通案例中也有体现。如果在中文领域,大量的同声词或是同音字会让情况变得更加复杂。

当然,目前Duplex只是在“电话预约”这一领域能够自然地和人类交流。Google之所以会选择这个先行试验领域,也是由于这个场景中涉及的问题不多,对话往往都离不开时间、地点、人数等这类的关键词。而单一环境意味着AI能够更加充分地学习该场景下的内容,并进行有针对性地训练。

但是,由于真人对话的语序问题,电话沟通中的许多确定性信息,往往要在几段对话后才会出现,比如“时间是下周五”→“什么时候?”→“下周五,18号”这种关于时间点的反复确认。

语音助手不仅更聪明,连声音都越做越逼真

为了准确处理对话问题,我们结合 Google AI官方博客的内容,简单梳理了一下Duplex的处理流程:

1.依靠TensorFlow Extended搭建一个循环神经网络(RNN)模型,并使用匿名通话数据进行了训练;

2.真人语音会先通过自动语音识别技术(ARS),向RNN网络输入文本信息,其中也包含了音频特征和对话历史;

3.通过RNN生成的文本会借助TTS将文本转语音,来作为最终应答的内容。

这么看,Google Duplex和其它很多人工智能在做的事情也很相似。它们都要先通过大量的数据进行分析训练,自己学习处理和识别这些数据,然后再借助合适的模型导出预测结果。

至于大众所关心的“Duplex的说话声和人类差不多”,一方面前文也提到,单一领域下AI可以进行更深度的学习;另一方面,Google则是借助了包括WaveNet在内的文本转语音技术,让AI可以根据不同情境来改变语气和语调,生成质量颇高且细致入微的语音。

▲(图片来源:CNET)

其中一点很重要的是“语气词”的运用,人类在说话的过程中也会思考,其中的停顿往往就会伴随着一些语气词。我们会在Google Duplex的应答中听到如此自然的表达,有些是开发人员在训练时刻意为之,有些则是为了能更好地过度多个声音单元。

当然,在应对一些需要快速回应的询问比如“你好”时,Google Duplex可能都不会等待模型运算结果,而是会先给出一个模糊的回答,然后再根据之后的内容配合一个正式回应。

这个手段可以让AI的响应时间更快,同时也更加自然——毕竟如果对复杂问题回应太快,听起来可就不像是一个“人类”能做到的事。

这种“拟人声”的自然语音表达,背后离不开文字转语音技术的进步。现在很多的语音助手,一个句子只是将几个单词的语音拼接在一起,虽然结构本身没问题,但语调基本没有起承转合,听起来就非常生硬。

最典型的例子其实就是我们给10086打业务办理电话,大家都知道其中的回应语音都是预设的——那种声音不带任何情感,所以我们都能“听”的出来。

▲(图片来源:Marques Brownlee)

但Google Duplex不一样,它发音的清晰度可能比人类都更为标准。

早在2016年,Google和DeepMind就向我们展示了名为 WaveNet 的基于深度学习的语音生成模型。由于音频涉及了大量信息,它借助卷积神经网络的层层堆叠和延时连接,以及大量的样本训练,最终生成的原始音频波形在韵律和语调上都表现得非常出色。

在实际的美国英语语音测试环节中,WaveNet的声音得分已经非常接近人类的水准,如果再加上句式的准确性因素,可能还不亚于人类。

分享到:
上一篇:彭博社:蔚来汽车在美国证券交易所(SEC)提交
下一篇:鱼与熊掌可兼得 朗科P500中国红存储卡上手体验

版权与免责声明:

凡未注明"稿件来源"的内容均为转载稿,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。

本文地址:http://www.znqcw.cn/zhineng/jiqiren/2018/0530/554.html

转载本站原创文章请注明来源:智能汽车网

行业聚焦

长城皮卡2023年全球销售202330台 蝉联中国皮卡

 日前,长城皮卡公布最新销量数据。 长城皮卡再创销冠传奇,12月全球销售 16032 台 ,同比增长1 6. 88 % ;202 3 年全球销 售 202330 台...[详细]

全新配色猛龙领衔 哈弗新能源即将强势登陆

11月17日,第二十一届广州国际汽车展览会即将正式拉开帷幕。哈弗品牌将以你的猛龙 独一无二为主题倾情参展,并 将 在车...[详细]

自动挡中卡只选欧曼!欧曼行星中卡采埃孚自

选择自动挡就是选择高效物流的未来!2023年11月15日,以自动挡中卡只选欧曼为主题的欧曼行星中卡采埃孚自动挡产品全国上市...[详细]

东风御风V9E惊艳亮相武汉车展,新能源VAN赋能

2023中国国际商用车展(CCVS)于11月8-11日在武汉国际博览中心举办(简称武汉车展),本届展会的主题是新理念、新格局、新需求。...[详细]

全新BJ40城市猎人版即将于11月17日上市,新潮

从前两年爆火的露营、飞盘,到当下新宠匹克球、City Walk等,年轻人的日常生活方式愈发个性、张扬。在时代潮流不断变迁的...[详细]

推荐内容

更多

热点内容

更多

黑客马拉松比赛:前浪、

 

2020年7月,软银机器人联合世界人工智能大会(WAIC)和机器之心举办了黑客马拉松比赛。在软银机器人易用的开发工具、丰富...[详细]

2020 WAIC机器人狂欢:AI抗疫

 

  2020年7月8日-11日,由张江集团、优必选科技、软银集团旗下软银机器人、Watson Build 创新中心、机器之心联合组织的世界人工...[详细]

机器人时代的到来,Robo

 

  2020年6月27-28日,国际权威机器人赛事RoboCup@Home Education于线上举行,此赛事是RoboCup@Home的一项教育计划,旨在鼓励学校参与到...[详细]

通证经济时代已来临!易

 

  一,什么是通证 通证基于固有和内在的价值,它立足于实体经济、为实体经济服务。 通证是源于英文的token,是人们高度关...[详细]

BKCoin国际数字资产交易所

 

  BKCoin作为全球知名的区块链技术服务机构,其业务包含:数字资产交易平台、信息安全研发中心、区块链项目孵化中心以及数字...[详细]

  • 黑客马拉松比赛:前浪、
  • 2020 WAIC机器人狂欢:AI抗疫
  • 机器人时代的到来,Robo
  • 通证经济时代已来临!易
  • BKCoin国际数字资产交易所
一周排行每月关注