新闻

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

财经

杭州商务局总经济师武长虹：未来5年培育10家独角兽...

【亿邦原创】4月27日消息，在2023中国（杭州）新电商大会开幕式上，杭州市商务局总经济师武长虹发表了题...

伊丽莎白·沃伦(Elizabeth Warren)担任总统，为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选，但用于推动她竞选的技术将继续存在。她的员工成员宣布，他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候，微软提出了一项最雄心勃勃，范围广泛的战略来减少公司运营的碳排放量，从而在企业界引起了轰动。该计划的一部分是一个10亿美元的基金，该基金将投资于减缓气候变化的技术，特别是针...
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起，以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

亚马逊研究人员减少了AI转移学习所需的数据

发布时间：2019/10/29 新闻 浏览：946

跨语言学习是一种AI技术，涉及以一种语言训练自然语言处理模型，然后以另一种语言进行训练。已经证明，经过重新训练的模型可以胜过使用第二语言从头训练的模型，这很可能就是亚马逊Alexa部门的研究人员投入大量时间进行研究的原因。
在预定于今年自然语言处理经验方法会议上发表的一篇论文中，Alexa AI自然理解小组的两位科学家Quynh Do和Judith Gaspers及其同事提出了一种数据选择技术，该技术可使所需的训练数据量减少一半。他们声称它出人意料地改进了而不是损害了目标语言中模型的整体性能。
Do和Gaspers在博客中写道：“有时候源语言中的数据非常丰富，以至于用所有这些语言来训练传输模型都是不切实际的耗时。” “此外，源语言和目标语言之间的语言差异意味着修剪源语言中的训练数据，使其统计模式与目标语言的统计模式更好地匹配，实际上可以改善传输模型的性能。”
在实验过程中，Do，Gaspers及其团队采用了两种方法将源语言数据集切成两半：上述数据选择技术和随机采样。他们在两个减半的数据集和整个数据集上对单独的模型进行了预训练，之后，他们以目标语言在一个小的数据集上对模型进行了微调。
Do和Gaspers指出，同时对所有模型进行了训练，以识别意图(请求的动作)和填充位置(意图所作用的变量)，并且它们将多语言嵌入作为输入(映射了来自不同语言的一个单词或单词序列)到多维空间中的单个点)以提高模型的准确性。该团队将每个输入单词的多语言嵌入与字符级嵌入(对有关单词的前缀，后缀和词根的信息进行编码)组合在一起，并且他们利用在大型文本语料库上训练的语言模型来选择要馈送到的源语言数据。转移模型。
在研究人员设计的系统中，双语词典将源数据集中的每个发音转换为目标语言中的一串字。四种语言模型应用于生成的字符串，而三字母组模型处理字符嵌入。对于由四种语言模型计算出的概率总和中的每种话语，仅选择那些产生最高归一化分数的语言。
为了评估他们的方法，团队首先将模型从英语转换为德语，并使用不同数量的目标语言训练数据(分别为10,000和20,000语音，而完整的源语言数据集中为数百万的语音)。然后，他们用三种不同的语言(英语，德语和西班牙语)训练了转移模型，然后将其转移到法语(目标语言有10,000和20,000种话语)。他们声称，传递模型优于仅对目标语言进行过训练的基线模型，相对于仅对目标语言进行过训练的模型，使用新型数据选择技术训练的模型相对于仅对目标语言进行训练的模型表现出了3%到5%的改善。广告位填充任务，意图分类大约占1%到2%。

上一篇: 什么是JEDI?解释微软刚刚赢得的$ 10B军事云合同

下一篇: Max Q：2019国际宇航大会回顾版

发布时间: