新闻
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
财经
-
伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
-
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...
-
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...
商业
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
自动化系统可以重写Wikipedia文章中的过时句子
发布时间:2020/02/14 新闻 浏览:685
麻省理工学院的研究人员创建的系统可用于自动更新Wikipedia文章中的事实不一致之处,从而减少了人工编辑现在人工执行任务的时间和精力。
维基百科包含数百万篇文章,这些文章需要不断进行编辑以反映新信息。这可能涉及文章扩展,重大重写或更多例行修改,例如更新编号,日期,名称和位置。目前,全球各地的人们都自愿花时间进行这些编辑。
在AAAI人工智能大会上发表的一篇论文中,研究人员描述了一种文本生成系统,该系统可精确定位和替换相关Wikipedia句子中的特定信息,同时保持类似于人类书写和编辑方式的语言。
这样的想法是,人们可以在界面中输入具有更新信息的非结构化句子,而无需担心样式或语法。然后,系统将搜索Wikipedia,找到适当的页面和过时的句子,然后以类似于人的方式将其重写。研究人员说,将来有可能构建一个完全自动化的系统,该系统可以识别和使用来自网络的最新信息,从而在相应的Wikipedia文章中生成重写的句子,以反映更新的信息。
“维基百科的文章经常需要进行大量更新。自动修改文章的确切部分将非常有益,几乎不需要人工干预,”博士Darsh Shah说。是计算机科学和人工智能实验室(CSAIL)的学生,也是主要作者之一。 “您无需再花费数百人来修改每篇Wikipedia文章,因为该模型是自动帮助或自动完成的,所以您只需要几个。这大大提高了效率。”
存在许多其他可以自动编辑Wikipedia的机器人。 Shah说,通常,这些工具可以减轻破坏行为或将一些狭窄定义的信息放入预定义的模板中。他说,研究人员的模型解决了一个更棘手的人工智能问题:给定了一条新的非结构化信息,该模型会以人性化的方式自动修改句子。他说:“其他[机器人]任务更多地基于规则,而这是一项需要对两个句子中相互矛盾的部分进行推理并生成连贯的文本的任务。”
共同主要作者和CSAIL研究生Tal Schuster说,该系统也可以用于其他文本生成应用程序。在他们的论文中,研究人员还使用它来自动合成流行的事实检查数据集中的句子,这有助于减少偏见,而无需手动收集其他数据。 Schuster说:“通过这种方式,针对数据集进行训练的自动事实验证模型的性能得到了提高,例如假新闻检测。”
Shah和Schuster与他们的学术顾问Regina Barzilay,三角洲电子工程学和计算机科学教授以及CSAIL教授一起研究了这篇论文。
中性屏蔽和融合
该系统的背后是相当多的文本生成技巧,可用于识别两个单独的句子之间的矛盾信息,然后将它们融合在一起。它以Wikipedia文章中的“过时”句子以及包含更新的和冲突的信息的单独的“声明”句子作为输入。系统必须根据声明中的信息自动删除过时句子中的特定单词并将其保留在其中,以更新事实,同时保持样式和语法。对于人类而言,这是一项容易的任务,但对于机器学习而言却是一项新颖的任务。
例如,说对这句话有一个必要的更新(粗体):“基金A认为其在活跃运营的公司中的42种少数股权中的28种对集团特别重要。”带有更新信息的索赔语句可能显示为:“基金A认为43个少数股权中有23个意义重大。”系统将根据该声明找到有关“基金A”的相关维基百科文本。然后,它会自动去除过时的数字(28和42),并用新的数字(23和43)替换它们,同时使句子完全相同并在语法上正确。 (在他们的工作中,研究人员将系统运行在特定维基百科句子的数据集上,而不是在所有维基百科页面上运行。)
句子,其中一个句子是主张,另一个句子是相关的Wikipedia句子。每对都用以下三种方式之一进行标记:“同意”,表示句子包含匹配的事实信息; “不同意”,表示它们包含矛盾的信息;或“中性”,其中没有足够的信息可用于任何一个标签。系统必须修改所有过时的句子以使其与要求相符,以使所有不一致的对都同意。这就需要使用两个单独的模型来产生所需的输出。
第一个模型是事实检查分类器-预先训练以将每个句子对标记为“同意”,“不同意”或“中立”,其重点是不同意的句对。与分类器一起运行的是一个自定义的“中性屏蔽器”模块,该模块可识别过时句子中的哪些词与权利要求相抵触。该模块删除了“最大化中立性”所需的最小单词数,这意味着该对可以被标记为中立。这就是起点:虽然句子不同意,但它们不再包含明显矛盾的信息。该模块在过时的句子上创建一个二进制“掩码”,其中在最有可能需要删除的单词上放置一个0,而在保持者之上放置一个1。
屏蔽之后,使用新颖的两个编码器-解码器框架生成最终的输出语句。该模型学习索赔和过时句子的压缩表示。通过将两个编码器/解码器滑入过时句子中被删除的单词(用0覆盖的单词)所空缺的位置,两个编码器/解码器将权利要求中的不同单词融合在一起。
在一项测试中,该模型的得分高于所有传统方法,使用了一种称为“ SARI”的技术,该技术测量的是与人类修改句子的方式相比,机器删除,添加和保留单词的程度。他们使用了带有人工编辑的Wikipedia句子的数据集,该模型以前从未见过。与几种传统的文本生成方法相比,新模型在进行事实更新时更加准确,其输出与人类写作更加相似。在另一项测试中,众包人员根据模型的输出句子包含事实更新和匹配人类语法的程度,对该模型进行了评分(以1至5的评分)。该模型的事实更新平均得分为4,而语法匹配得分为3.85。
消除偏见
研究还表明,当训练“假新闻”的检测者时,该系统可用于增强数据集,以消除偏见。“假新闻”是一种包含虚假信息的宣传形式,旨在误导读者,以产生网站视图或引导公众舆论。这些检测器中的一些检测器在同意-不同意句子对的数据集上进行训练,以“学习”通过将其与给定证据匹配来验证要求。
在这些对中,声明将使某些信息与维基百科上的“证据”句子相匹配(同意),或者由人类对其进行修改以包括与证据句相矛盾的信息(不同意)。该模型经过训练,可以通过反驳证据将主张标记为“假”,从而可以帮助识别假新闻。
不幸的是,这些数据集目前带有意想不到的偏差,Shah说:“在训练过程中,模型使用人类书面声明的某些语言作为“给予”短语来将其标记为假,而没有太多依赖相应的证据语句。这减少了评估实际示例时模型的准确性,因为它不执行事实检查。”
研究人员使用了来自Wikipedia项目的相同删除和融合技术,以平衡数据集中的不同意对,并帮助减轻偏见。对于某些“不同意”对,他们使用修改后的句子的虚假信息来重新生成伪造的“证据”支持句子。然后,某些赠与短语同时存在于“同意”和“不同意”句子中,这迫使模型分析更多特征。研究人员使用他们的扩充数据集,将一种流行的假新闻检测器的错误率降低了13%。
莎阿说:“如果您的数据集中存在偏差,并且您在愚弄模型,而只是在不同意见对中查看一个句子来进行预测,那么您的模型将无法在现实世界中生存。” “我们使模型在所有同意-不同意对中查看两个句子。”