新闻
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
财经
-
伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
-
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...
-
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...
商业
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
亚马逊详细介绍了Alexa耳语模式背后的AI
发布时间:2020/01/18 新闻 浏览:1046
在简短披露后的几个月,2018年10月,亚马逊带来了Whisper Mode,以选择第三方和第一方Alexa设备。它于2019年11月将该功能扩展到了所有地区,以便由Alexa(公司的虚拟助手)支持的所有智能家电现在都通过耳语来回应耳语。
亚马逊最初对技术细节有些了解,但“耳语模式”使用神经网络(人脑神经元松散地建模的数学功能层)来区分正常和低语单词。但是在2020年1月的IEEE Signal Processing Letters杂志以及随附的博客文章中发表的一篇学术论文中,它详细介绍了导致扩展的研究。
亚马逊文字转语音研究小组的应用科学家马里乌斯·科特斯库(Marius Cotescu)解释说,主要的挑战是将正常语音转换为低语语音,同时保持自然和说话人身份。他和同事研究了几种不同的转换技术,包括基于对低声语音的声学分析的手工数字信号处理(DSP),但他们最终选择了两种机器学习方法,因为它们的鲁棒性(它们很容易推广到陌生的说话者)和性能(它们的表现优于手工信号处理器)。
两种方法都基于高斯混合模型(GMM)和深层神经网络(DNN),它们都涉及训练算法,以将普通语音的声学特征映射到低声语音的声学特征。 GMM尝试为每个输出特征识别与输入值的相关分布相对应的值范围,而DNN(简单处理节点的密集算法)通过网络尝试预测相关输出的过程来调整其内部设置。具有特定的输入。
研究人员的系统将声学特征表示传递给声码器,然后将其转换为连续信号。虽然实验版本依赖于称为WORLD的开源声码器,但部署给客户的Whisper Mode版本却利用了神经声码器,可以进一步提高耳语的语音质量。
该小组使用了两个数据集来训练他们的语音转换系统:一个是使用来自澳大利亚,加拿大,德国,印度和美国的五名专业语音演员制作的,另一个是该领域的流行基准。 (这两个语料库都包括许多说话者的成对说话-一个完整的声音,一个低声说话。)为了评估他们的系统,他们将输出与自然语音录音和通过声码器输入的语音录音进行了比较。
在第一组实验中,团队对语音转换系统进行了基于单个扬声器数据的培训,并对来自相同扬声器的数据进行了测试。他们发现,虽然原始录音听起来最自然,但模型合成的耳语听起来比“语音编码”人类语音更自然。
最先进的文本语音转换模型可以生成在初次收听时听起来几乎像人的片段。实际上,它们支撑了可通过Google Assistant获得的神经声音,以及最近出现在Alexa和亚马逊Polly服务中的新闻播音员声音,以及去年12月可用的Samuel L. Jackson名人Alexa声音技能。
上一篇: 这是您需要在2020年了解的搜索内容