亚马逊首席科学家:揭秘Alexa语音识别技术|AINEXT【中欧体育(zoty)】
发布时间:2024-11-20 16:52:01
本文摘要:按:本月 18 日,由美中技术与创意协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图开会。

按:本月 18 日,由美中技术与创意协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图开会。本次会议的主要嘉宾还包括:微软公司首席 AI 科学家邓力,微软公司院士黄学东,Uber 深度自学负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软公司小娜架构师 Savas Parastatidis 等业内著名专家。

大会主题是“探寻 AI 的潜力,把 AI 技术应用于简单项目和服务”,对 CV、NLP、智能助手、深度自学框架皆做到了专题报告。其中,亚马逊首席科学家 Nikko Strom 再度以“Alexa是怎样炼金术师的”为主题描写了 Alexa 的深度自学基本架构、声学模型、语音合成等内容,整理如下:Nikko Strom,现任亚马逊首席科学家,是 Echo 和 Alexa 项目的创立成员,在语音辨识技术涉及领域具有资深的研究及从业经验:1997 年于瑞典皇家理工学院语音通信实验室取得博士学位,后兼任MIT计算机科学实验室研究员;2000 年重新加入语音技术初创公司 Tellme Networks;2007 年随着Tellme Networks 被微软公司并购,重新加入微软公司,前进商业语音辨识技术的前沿研究;2011 年重新加入亚马逊,兼任首席科学家,领导语音辨识及涉及领域的深度自学项目。以下是 Nikko Strom 在本次大会上的演说,(公众号:)在不转变不愿的基础上有删改和补足。再行非常简单讲解下我们的产品。

如果你买了 Amazon Echo,意味著你可以通过 Alexa 语音辨识系统控制它,并与它对话,而且不必须拿遥控器。左边(右图)是 Holiday Season,是我们新的重新加入的白色Echo和Dot,坚信都说应当有很多人较为喜好白色的电子产品。Echo 还可以与没内置 Alexa 系统的家电展开相连,如灯具、咖啡机、恒温器等,只必须苏醒Alexa,就可以让这些家电设备继续执行一些命令。

此外,开发者还可以通过工具包 Alexa Skills Kit,打造出个性化的功能。现如今,Echo早已转入了数百万用户的家中,每天它都在被大量地用于着,也让我们获得了无法想象的数据量。

|深度自学基础框架事实上,人耳并非每时每刻都在收集语音信息,确实在“听得”的时间约只占到 10%,所以一个人茁壮到 16岁时,他/她所听见的语音训练时间大约有 14016 个小时。返回 Alexa,我们把数千个小时的现实语音训练数据存储到 S3 中,用于 EC2 云上的分布式 GPU 集群来训练深度自学模型。训练模型的过程中找到,用 MapReduce 的方法效果并不理想,因为节点之间必须频密地维持实时改版,无法再行通过减少更好的节点来加快运算。也可以这样解读,就是GPU集群改版模型的计算速度十分之慢,每秒都会改版几次,每次的改版约是模型本身的大小。

也就是说,每一个线程(Worker)都要跟其它线程实时改版几百兆的量,而这在一秒钟的时间里要再次发生很多次。所以,MapReduce的方法效果并不是很好。我们在 Alexa 里的解决问题方法就是,用于几个迫近算法(Approximations)来增加改版规模,将其传输 3个量级。这里是我们一篇 2015 年论文里的图表,可以看见,随着GPU线程的减少,训练速度减缓。

到 40 个 GUP 线程时,完全成直线下降,然后增长速度有点上升。80 GPU 线程对应着约 55 万帧/秒的速度,每一秒的语音约包括 100 帧,也就是说这时的一秒钟可以处置约90分钟的语音。

前面我提及一个人要花上 16 年的时间来自学 1.4 万小时的语音,而用我们的系统,约 3 个小时就可以自学已完成。这就是Alexa 大体的深度自学基础架构。|声学模型大家都告诉,语音识别系统框架主要还包括四大块:信号处理、声学模型、解码器和后处理。

首先我们不会将从麦克风搜集来的声音,展开一些信号处理,将语音信号转化成到频域,从每 10 毫秒的语音中明确提出一个特征向量,获取给后面的声学模型。声学模型负责管理把音频分类成有所不同的音素。接下来就是解码器,可以得出结论概率最低一串词串,最后一步是后处理,就是把单词组合成更容易加载的文本。

在这几个步骤中,某种程度都会中用机器学习和深度自学的方法。我今天主要谈一下声学模型的部分。声学模型就是一个分类器(classifier),输出的是向量,输入的是语音类别的概率。

这是一个典型的神经网络。底部是输出的信息,隐蔽层将向量转化成到最后一层里的音素概率。这里是一个美式英语的 Alexa 语音识别系统,所以就不会输入美式英语中的各个音素。

在 Echo 初始公布的时候,我们记了几千个小时的美式英语语音来训练神经网络模型,这个成本是很高的。当然,世界上还有很多其它的语言,比如我们在2016年9月发售了德语版的Echo,如果再行重头来一遍用几千个小时的德语语音来训练,成本是很高的。

所以,这个神经网络模型一个有意思的地方就是可以“迁入自学”,你可以维持原先网络中其它层恒定,只把最后的一层替换成德语。两种有所不同的语言,音素有很多是不一样的,但依然有很多完全相同的部分。所以,你可以只用于少量的德语的训练数据,在稍加转变的模型上就可以最后获得不俗的德语结果。|“锚定映射”在一个充满著很多人的空间里,Alexa 必须弄清楚究竟谁在说出。

开始的部分比较简单,用户说一句苏醒词“Alexa”,Echo上的对应方向的麦克风就不会打开,但接下来的部分就较为艰难了。比如,在一个鸡尾酒舞会中,一个人说道“Alexa,来一点爵士乐”,但如果他/她的旁边凸挨着同伴一起聊天,在很短的时间里都说出,那么要弄清楚究竟是谁在收到指令就较为艰难了。这个问题的解决方案来自于2016年的一份论文《锚定语音检测》(Anchored Speech Detection)。一开始,我们获得苏醒词“Alexa”,我们用于一个RNN借此萃取一个“锚定映射”(Anchor embedding),这代表了苏醒词里包括语音特征。

接下来,我们用了另一个有所不同的RNN,从先前的催促语句中萃取语音特征,基于此得出结论一个端点决策。这就是我们解决问题鸡尾酒舞会难题的方法。|“双连音片段”Alexa里的语音合成技术,也用在了Polly里。

语音合成的步骤一般还包括:第一步,将文本规范化。如果你还忘记的话,这一步骤恰是对“语音辨识”里的最后一个步骤的逆向操作者。

第二步,把字素转换成音素,由此获得音素串。第三步是关键的一步,也是最好的一步,就是将音素分解波形,也就是确实的声音。最后,就可以把音频播出出来了。

Alexa享有倒数的语音合成。我们录音了数小时人的大自然发音的音频,然后将其切割成十分小的片段,由此构成一个数据库。这些被切割成的片段被称作“双连音片段”(Di-phone segment),双连音由一个音素的后半段和另一个音素的前半段构成,当最后把语音统合一起时,声音听得一起的效果就较为好。

创立这个数据库时,要高度精细,确保整个数据库里片段的一致性。另外一个重要环节是算法方面的,如何自由选择最佳片段序列融合在一起构成最后的波形。首先要弄清楚目标函数是什么,来保证获得合适的“双连音片段”,以及如何从可观的数据库里搜寻到这些片段。

比如,我们不会把这些片段标签上属性,我今天会晤到三个属性,分别是音高(pitch)、时长(duration)和密度(intensity),我们也要用RNN为这些特征寻找目标值。之后,我们在数据库中,搜寻到最佳片段人组序列,然后播出出来。本文为独家编译器,予以容许不能刊登。版权文章,予以许可禁令刊登。

下文闻刊登须知。


本文关键词:中欧体育,中欧体育(zoty),zoty中欧体育

本文来源:中欧体育-www.zghj114.com