新闻
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
财经
-
伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
-
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...
-
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...
商业
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
Google的SummAE AI生成段落的摘要
发布时间:2019/10/09 新闻 浏览:1025
机器总结文本的时间比您想象的要难,至少在摘要是抽象而非提取的情况下。虽然提取仅需要连接句子,但是抽象涉及使用新颖句子进行释义的任务。最近,新闻领域已经取得了进展,这可能是由于可以在其上训练算法系统的大量语料库。但是,大多数其他写作形式的强大总结仍然是一个未解决的问题。
为此,Google Brain的一个团队研究了一个称为SummAE的抽象摘要系统,该系统基本上不受监督,这意味着它可以从少量的训练数据到看不见的文字示例进行概括。研究人员声称,尽管无法概括出仅由五个句子组成的段落,但仍在基线上进行了“显着”改进,代表了在人类水平绩效方面迈出的“重大”一步。
数据集和代码以及最佳模型的配置设置可在GitHub上免费获得。
共同作者写道:“作为处理单文档[摘要]的第一批工作之一,我们提出了一种新型的神经模型-SummAE。” “因此,[我们认为]希望有一种模型能够自动抽象地总结文档,而几乎不需要监督。”
SummAE包含一个降噪自动编码器,该编码器在共享空间中对目标文本的句子和段落进行编码(即生成其数字表示)。在其输入之前带有指示是否要解码句子或段落的令牌的解码器的引导下,系统通过对编码段落中的每个句子进行解码来生成摘要。
研究人员发现,训练自动编码器的大多数传统方法都会产生冗长的多句子摘要。为了鼓励它学习脱离其原始表达方式的高级概念,该团队采用了两种去噪方法-随机掩盖记号和排列段落中句子的顺序-大大增加了训练示例的数量。他们还尝试了一个对抗性批评家组件,该组件可以区分句子和段落,此外还有两个预训练任务,鼓励编码人员学习句子在段落中的叙述方式。
研究人员在ROCStories上训练了SummAE的三种不同变体,这是一整套自成体系,多样化,非技术性且简洁的散文。他们将原始的98,159个培训案例分为三个独立的集合-培训集,验证集和测试集-并收集了三个人工摘要,每个摘要分别包含500个验证示例和500个测试示例。
在进行了100,000次预训练的训练步骤后,研究小组报告说,最佳模型明显优于基于召回性的针对抽烟评估的未成年人研究(ROUGE)上的基线提取句生成器,ROUGE是旨在评估自动汇总的一组度量。此外,他们说,在一项涉及通过Amazon Mechanical Turk招聘的评估人员的定性研究中,志愿者80%的时间对三种SummAE模型的摘要之一进行了“流利”和“与信息相关”的评价。
共同作者写道:“段落重建显示出一定的连贯性,尽管在神经生成模型中经常会出现一些歧义和事实上的错误。” “由于摘要是从与重建相同的潜在向量中解码的,因此对其进行改进可能会导致更准确的摘要。”