新闻 news
您现在的位置:首页 > 新闻 > 亚马逊研究人员训练AI重写查询以更好地理解口语

新闻

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

财经

杭州商务局总经济师武长虹:未来5年培育10家独角兽企业 杭州商务局总经济师武长虹:未来5年培育10家独角兽...

【亿邦原创】4月27日消息,在2023中国(杭州)新电商大会开幕式上,杭州市商务局总经济师武长虹发表了题...

  • 伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...

      民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...

  • 看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...

      今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...

  • 英国科技产业组建Code4COVID.org以抗击冠状病毒危机

      由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

亚马逊研究人员训练AI重写查询以更好地理解口语

发布时间:2020/02/20 新闻 浏览:566

 
听说过查询重写吗?这是一种用于减轻口语理解(SLU)管道中的错误的技术,例如支持Amazon的Alexa,Google Assistant,Apple的Siri和其他语音助手的管道。许多SLU系统分为两个部分:负责将音频转换为文本的自动语音识别(ASR)系统,以及从结果摘要中提取含义的自然语言理解组件(NLU),而且每个问题都会带来错误(例如,由于背景噪音和说话者口音造成的文字识别错误)会累积并引起会话摩擦。
幸运的是,查询重写已在生产系统中显示出令人鼓舞的结果;它需要记录本并重写,然后再将其发送到下游NLU系统。这可能就是为什么Drexel大学和Amazon的研究人员在预印本中研究了一种方法,该方法使用AI来用重新构造的查询代替原始查询。
该团队的系统使用经过训练的模型来从查询中捕获潜在的句法和语义信息,从而选择最相关的候选人作为查询的重写。给定输入查询,嵌入器模块通过将查询输入预先训练的上下文词模型中来提取表示形式。然后将该表示形式合并为查询级别的数学表示形式(嵌入),此时将使用一种机制来测量两个查询的相似性。数以百万计的索引原始查询和重写来自从Alexa的历史数据中选择的一组预定义的高精度重写对,最相关的是由系统按需检索。
研究人员指出:“ SLU系统中的NLU组件为查询提供了半结构化的语义表示,其中可以通过相同的NLU假设将各种文本形式但具有相同语义的查询组合在一起。” “例如,’请问您可以玩想象中的巨龙吗?”打开想象中的巨龙'[和]’播放想象中的巨龙的歌曲’具有相同的语义,并且具有相同的NLU假设,但是它们的文字不同。直观地讲,使用噪声较小的NLU假设来扩充查询文本可能会有所帮助。”
为了训练该系统,该团队构建了两个数据集:一个用于预训练话语嵌入,另一个用于微调预训练的模型。预训练集包括1100万个会话,涉及约3000万话语,而微调集(使用现有的重新短语检测模型管道生成)具有220万对话语。
研究人员通过在16,000对带注释的测试集中,将检索到的重写候选的NLU假设与实际的NLU假设进行比较,从而评估了查询重写性能。对于每个给定的查询,他们检索了前20个重写,并且使用重写的NLU假设通过标准信息检索指标来衡量系统性能。
该团队报告说,预训练不仅显着减少了对高质量查询检索训练对的需求,而且“显着”提高了性能。他们写道:“尽管我们在本文中专注于QR任务的预训练,但我们认为类似的策略可能会应用于NLU中的其他任务,” [例如]域分类。