新闻
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
财经
-
伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
-
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...
-
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...
商业
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
更像人类的亚马逊Alexa的关键是无人监督学习
发布时间:2019/09/21 新闻 浏览:870
Alexa是亚马逊的智能助手,拥有超过1亿台设备,与来自7,400个品牌的60,000多台设备配合使用,通过数千名员工在其后端系统上的贡献获得新技能。但由于机器学习算法(支持Alexa决策的统计模型)的改进方式,他们可以实现的目标是有限的。
这就是为什么亚马逊的Alexa AI研究部门的科学家正在寻求半监督和无监督的技术,其中AI系统学习如何在不吸收注释数据的情况下进行预测。半监督和无监督学习也有其局限性,但两者都承诺通过提供类似人类的推理能力来增强Alexa的能力。
“我们追逐的是自学 – 这就是我们关注的焦点,”亚马逊应用科学和Alexa机器学习总监Ruhi Sarikaya在接受采访时告诉VentureBeat。 “[我们]将其扩展到多个领域。”
解决机器学习问题的过程通常从已经知道目标答案的注释数据开始。数据 – 较大数据集或语料库的一部分 – 展示通过特征工程识别并手动标记的特征。这种范式中的模型学习数学关系,使得他们能够预测不熟悉问题的答案,此时可以根据实际情况检查他们的预测是否准确。
数据标签产生了一个由Hive和Alegion等创业公司主导的家庭手工业,以及最近筹集了1亿美元并吸纳了包括OpenAI,丰田研究院,优步,NuTonomy和谷歌母公司Alphabet’s Waymo在内的客户。亚马逊与Alexa设备签订合同,每天与第三方公司签订数千小时的音频注释,以进行质量保证和研发。
但对于亚马逊的Alexa研究团队而言,标签仍然是一项耗时的工作,该团队经常处理包含数百万个口头请求和回复的数据集。此外,在难以获得样本的领域中,这是不切实际的 – Cleo和Alexa Answers强调了这一事实,这两项亚马逊服务众多解决了旨在扩展Alexa知识基础的问题的答案。
“像Alexa这样的系统的复杂性 – 一般来说,会话系统 – 正在增加,因为我们周围世界的复杂性正在增加,”Sarikaya说。 “我们有更多的设备,更好的互联网连接,更好的传感器从环境中收集信号,并作为一种数字神经系统[…]这种复杂性正在为客户,[和]我们使用的当前方法创造摩擦涉及地面实况数据和标签不会有用。“
虽然像“温度是多少?”这样的问题可能看起来很简单,但在Alexa的眼中却无可救药。这是因为“温度”可能指的是连接的恒温器的设置或智能烤箱,房间或室外空气的温度。
通常,训练AI系统正确解释“温度”,给定变量,如一天中的时间,房间中的设备和提问者的习惯,需要隔离重要的功能并仔细注释每个。但是在无监督的方法中,模型可以学习从上下文线索中得出结论。
考虑到Alexa命令中的句子可以嵌入在高维空间中,根据它们中的单词与其他单词共同出现的频率,可以将它们组合在一起。无监督算法能够从标记的句子中推断出有效地标记相同聚类中的未标记句子,从而扩展了其他模型可用的训练样本的数量。
缺乏完全无监督的学习,有半监督学习,其中最常见的一种是自我训练。这就是在少量标记数据上训练的AI系统将标签应用于更大的未标记数据集的地方。机器学习模型的输出具有相关的置信度分数,并且在半监督的自我训练中,系统的输出根据置信度分数进行分类。落在预定义范围内的那些用于进一步训练系统。
改善的迹象
这些技术已经进入生产阶段,尽管是以有限的方式。如果美国,加拿大,澳大利亚,英国和印度的Alexa客户向助手询问类似“Alexa,打开沙发灯”的信息,那么他们试图打开的灯其实就是“客厅灯”。 Alexa可能会有用地建议“你的意思是客厅灯吗?”
“语境非常重要。当你从厨房搬到起居室坐下看电影时,你的谈话并没有停止,“亚马逊的设备和服务高级副总裁Dave Limp在今年早些时候在亚马逊的拉斯维加斯举行的MARS会议上告诉一群记者。 “我们已经开始推出这种背景感 – [功能],找出你在家里的位置。如果你走进一个带有Echo [智能扬声器]或智能家居设备的房间,你不必说’打开厨房的灯’或’打开客厅的灯’,因为他们已经随着时间的推移彼此联系在一起。现在,您只需说“打开灯”并打开相应的指示灯,或者您可以进入起居室并说“在Netflix上观看XYZ”并且它会自动打开电视,因为[Alexa]知道我在那个房间,那个端点知道这样做。“
努力提高Alexa的预期实力与Alexa Hunches的发展相吻合,Alexa Hunches主动推荐基于连接设备和传感器数据的行动。例如,如果您说“Alexa,晚安”,助理可能会回答:“顺便说一下,您的起居室灯亮了。你要我把它关掉吗?“
亚马逊智能家居副总裁Daniel Rausch告诉VentureBeat,Hunches从智能灯开始,但正在扩展到其他设备,非常适合自学学习。 “例如,如果你查看我家的数据,你会看到有一个非常可预测的模式,”他说。 “在我们上床睡觉的晚上,我的大多数设备都处于我喜欢的状态,但你也会看到一些异常 – 也许我离开了地下室灯或忘了锁门。我们教Alexa自己建立这些推论,然后把它们交给我。“
除了智能家居领域之外,无监督和半监督方法通知Alexa选择的技能,其中包括来自Alexa Skills Store中325,000名开发人员的超过90,000个语音应用程序。当客户提供需要第三方服务或集成的请求时,Alexa会使用类似于Amazon.com上的产品建议引擎的推荐系统自动选择数千种技能。去年年底,该公司的科学家推出了一个模型,该模型考虑了预期的技能 – 当用户请求某些东西时调用的相关技能 – 将技能建议准确性提高12%。
“关键是使用适合于问题类型的技术,无论是检查行为模式还是尝试与基础事实建立语义相似性,然后调整将这些个别信号考虑在内的元模型,从而产生用户体验史密斯说,这是有用的,而不是一个做出假设的人。 “背景是我们正在努力建立一个Alexa以更自然的方式理解你的世界,而不是训练人们用Alexa的话说话。如果我们对你所说的内容非常了解,我们只会执行预期的任务,但我们正在发展的是Alexa从客户那里得到基本真理的模型。
在无监督学习转换Alexa模型学习方式的另一个例子中,亚马逊研究人员描述了一种技术,该技术利用了2.5亿个未注释的客户交互,将语音识别错误减少了8%。两种半监督学习技术产生了更大的收益:使用经过7,000小时标记数据和100万小时未注释数据训练的声学模型,亚马逊科学家设法将错误率降低了10%至22%。与此同时,一个单独的团队将800小时的注释数据和7,200小时的“软”未标记数据减少了20%,其中包含人为产生的噪音。
机器学习算法本身告诉我们,没有潜在的感知,没有潜在的意图和实体,基本的真相是什么,而不是依靠人类注释器来告诉我们这些指数增长的排列是什么。 “萨里卡亚说。
他列出了一个真实世界的例子:最初,当Alexa的客户说“Alexa,播放ABCs”时,指的是设置为莫扎特的“十二个变奏曲啊,Vous Dirai-Je,Maman”的英文歌曲,Alexa没有’我知道如何解释它。 “字母歌曲”的语音范围从拼音歌曲(教授与每个字母相关的不同声音)到空灵的歌曲(其中包含依次通过字母表的歌词),更不用说补偿不同发音的区域变化。
一部分用字母歌曲请求难倒Alexa的顾客选择不再尝试,而其他人则以Alexa理解的方式重新阐述了问题(例如,“Alexa,播放字母歌曲”)。 成功和不成功的交换记录了几个月的机器学习算法,这样Alexa最终学会了当被问到“Alexa,播放ABCs”时播放英文字母歌曲。
“客户希望与Alexa一样自然地与人类进行互动,但是在多圈对话中传递上下文非常困难,在这种对话中,扬声器会丢弃某些实体并添加新实体。 这对机器来说太难了,“Sarikaya说。 “通过自学,您可以将客户带入方程式。 [随着经验的改善],它将带来更多的参与度,更多的参与将带来更多的数据,这将为机器学习系统提供支持。“