新闻 news
您现在的位置:首页 > 新闻 > 为什么Google Assistant支持的语言比Siri,Alexa,Bixby和Cortana还要多

新闻

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

财经

杭州商务局总经济师武长虹:未来5年培育10家独角兽企业 杭州商务局总经济师武长虹:未来5年培育10家独角兽...

【亿邦原创】4月27日消息,在2023中国(杭州)新电商大会开幕式上,杭州市商务局总经济师武长虹发表了题...

  • 伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...

      民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...

  • 看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...

      今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...

  • 英国科技产业组建Code4COVID.org以抗击冠状病毒危机

      由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

为什么Google Assistant支持的语言比Siri,Alexa,Bixby和Cortana还要多

发布时间:2020/01/31 新闻 浏览:1461

 
Google Assistant,Apple的Siri,Amazon的Alexa和Microsoft的Cortana只能识别世界上使用最广泛的语言中的一小部分。直到2018年秋天,三星的Bixby才获得了对德语,法语,意大利语和西班牙语的支持,这是全球超过6亿人说的语言。 Cortana花费了数年的时间才精通西班牙语,法语和葡萄牙语。
但是谷歌-在一年前在其助手支持的语言数量方面已经领先于竞争对手-今年已经遥遥领先。 Google助手在2019年1月增加了20多种新语言,最近又增加了几种印度语言,Google Assistant在2017年的8种语言和14个国家中增加了40种语言,在80多个国家/地区中巩固了领先地位。 Google不会为Google Assistant提供确切的语言数量。)与Siri支持的21种语言,Al​​exa和Bixby的7种语言以及Cortana的8种语言相比。
那么,为什么Google Assistant可以这么遥遥领先呢?自然,支持Google自然语言处理(NLP)的某些技术仍然受到严密保护。但是,Mountain View公司的公开研究提供了一些(尽管不多)的启示,说明了为何像亚马逊和苹果这样的竞争对手仍未达到其语言能力。
支持新语言很困难
向语音助手添加语言支持是一个多方面的过程,需要对语音识别和语音合成进行大量研究。
大多数现代语音识别系统都结合了深层神经网络,可预测音素或可感知的声音单位(例如英语单词pad,pat和bad中的p,b和d)。与依靠手工调整的统计模型来计算出现在短语中的单词组合的概率的旧技术不同,神经网络从称为梅尔标度谱图的音频表示中得出字符。这降低了错误率,同时部分消除了人工监督的需要。
语音识别取得了显着进步,尤其是在过去的一年左右的时间里。谷歌研究人员在一篇论文中详细介绍了使用拼写校正将错误减少29%的技术,在另一项研究中,他们将AI应用于声波视觉效果,从而无需使用语言模型即可实现最新的识别性能。
并行工作包括SpecAugment,该技术通过将视觉分析数据增强应用于梅尔尺度谱图来实现令人惊讶的低单词错误率。在生产中,Pixel 4和Pixel 4 XL(在美国,英国,加拿大,爱尔兰,新加坡和澳大利亚)等设备具有改进的Google Assistant英语语言模型,该模型可以脱机工作并以“接近零”的延迟处理语音,从而提供响应速度比上一代设备快10倍。
当然,对基础语言的理解还不够。没有本地化,语音助手就无法掌握文化特质,否则,他们就有被盗用的风险。建立新语言的查询理解模块大约需要30到90天,具体取决于它需要涵盖的意图。甚至来自Google和Amazon之类的市场领先的智能扬声器也难以理解某些口音。
Google越来越富创意的方法有望弥补这一差距。 9月,该公司的科学家提出了一种语音分析器,该语言学习器可以转录多种语言,同时展示了质量的“显着”提高。10月,他们详细介绍了经过培训的“通用”机器翻译系统,该系统已针对250亿样本进行了训练处理103种语言。
这项工作无疑为Google Assistant的多语言模式(与Alexa的多语言模式一样)同时识别多达两种语言提供了帮助。
语音合成
产生语音与理解一样具有挑战性,甚至更多。
像Google的Tacotron 2(基于频谱图构建语音合成模型)和WaveNet 2(基于波形构建模型)这样的尖端文本到语音(TTS)系统或多或少地从语音中学习语言,而传统系统却利用数据库串在一起的电话-不同的语音或手势-串连起来以表达文字。所谓串联,是指在长时间的录制会话中捕获互补的双音节(语音单元,包括两个相连的电话的一半)和三音节(开头的话机占一半,后面的话机占一半)。语音单元的数量很容易超过一千。
另一种技术-参数化TTS-利用数学模型来重建声音,然后将声音组装成单词和句子。产生这些声音所需的数据存储在参数(变量)中,语音本身是使用声码器创建的,声码器是分析并合成输出信号的语音编解码器(编码器-解码器)。
不过,与语言理解相比,TTS是一个更容易解决的问题-尤其是对于像WaveNet 2这样的深度神经网络,语音工程师可以处理。去年五月进行了演示的Translatotron可以将一个人的声音翻译成另一种语言,同时保持其语调和音调。八月份,谷歌的AI研究人员表明,他们可以使用来自患有神经退行性疾病的母语和非母语英语使用者的音频数据集以及Parrotron(一种用于有障碍人士的AI工具)的技术,大大提高语音合成和生成的质量。
在相关的发展中,谷歌研究人员最近在两篇论文中揭示了使机器生成的语音听起来更自然的方法。在Tacotron联合创始人王玉轩的共同研究中,通过嵌入录制的人类语音片段中的样式来实现压力水平之类的传递。至于第二篇论文中描述的方法,它可以识别人声模式来模仿像愤怒和疲倦所导致的言语风格。
未来语言支持将如何改善
显然,Google助手在助手语言方面取得了最大的进步。那么,如何使其他人处于同一地位呢?
改善助手的语言支持可能需要对语音识别和NLP进行创新。有了“真正的”神经网络堆栈-高度不依赖语言库,关键字或词典的网络堆栈-重点便从语法结构转移到了词嵌入以及词嵌入中的关系模式。这样就有可能在几乎所有语言上训练语音识别系统。
亚马逊似乎正在与Alexa朝着这个方向发展。该公司的研究人员设法使用结合了人类和机器数据标签的方法,将识别错误减少了20%至22%,而使用新颖的噪声隔离AI和机器学习技术则进一步减少了15%。另外,他们提出了一种方法,该方法包括通过将使用一种语言训练的语言与另一种语言相适应,来“教学”语言模型新的语言,从而将新语言的数据需求减少多达50%。
另外,在等式的TTS方面,亚马逊最近在Alexa中推出了神经TTS技术,该技术通过提高自然性和表达力来提高语音质量。值得一提的是,苹果最新版的iOS移动操作系统iOS 13引入了类似WaveNet的TTS技术,使合成声音听起来更加自然。去年12月,Microsoft演示了一个系统-FastSpeech,该系统通过消除跳字之类的错误来加速逼真的语音生成。
另外,微软最近开放了Google流行的BERT模型的一个版本,该模型使开发人员能够大规模部署BERT。这是在西雅图公司的研究人员创建了一个AI模型(多任务深度神经网络(MT-DNN))后实现的,该模型结合了BERT以实现最新结果,并且微软的应用科学家团队提出了这一建议。语言生成任务的基础架构。
毫无疑问,谷歌,苹果,微软,亚马逊,三星和其他公司已经在使用上述技术之外的技术来将新的语言带到各自的语音助手中。但是,有些公司起步较早,而另一些公司必须与传统系统抗衡。这就是为什么他们都需要更多时间才能全部讲相同的语言。