新闻
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
财经
-
伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
-
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...
-
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...
商业
-
“煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...
-
首席执行官表示,随着美国关闭,StockX的业务蓬勃发展
StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...
-
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...
用于查找用户搜索意图的超快速机器学习模型
发布时间:2019/12/02 新闻 浏览:827
2019年4月,本杰明·伯克霍尔德(本杰明·伯克霍尔德)(真是太好了)发表了一篇中型文章,展示了他编写的脚本,该脚本使用SERP结果功能来推断用户的搜索意图。该脚本将SerpAPI.com API用作其数据,并通过以下方式标记搜索查询:
信息性—该人正在寻找有关主题的更多信息。这是通过是否存在答案框或PAA(人们也问)框来表示的。
导航—该人正在搜索特定的网站。这是通过是否存在知识图或是否存在站点链接来指示的。
交易性-该人的目标是购买东西。这通过是否存在购物广告来指示。
商业调查—该人的目标是尽快购买商品,但仍在调查中。通过是否存在付费广告,是否存在答案框,是否存在PAA或SERP底部是否存在广告来表明这一点。
这是估算搜索意图的最酷的方法之一,因为它利用了Google对搜索意图的理解(如针对该搜索显示的SERP功能所表示)。
Burkholder方法的一个问题是对Serp API的依赖。如果您要查找大量搜索查询,则需要通过API传递每个查询短语,然后由API进行实际搜索并返回SERP功能结果,然后Burkholder的脚本可以对其进行分类。因此,在大量搜索查询上,这既耗时又昂贵。
SerpAPI每个关键字的费用约为0.01美元,因此分析5,000个关键字将花费您50美元。通过Burkholder的标签脚本运行这些结果还需要3到5个小时才能获得这5,000个关键字。
因此,我开始思考:如果我采用Burkholder的方法,而不是直接使用它对意图进行分类,可以使用它来训练机器学习模型,然后将其用于意图分类,该怎么办?换句话说,我需要花费一次费用来制作带有Burkholder标签的培训集,并且假设它足够准确,那么我就可以将该培训集用于所有进一步的分类,而无需花费任何费用。
有了准确的培训集,任何人都可以超快速地标记大量关键字,而无需花费一分钱。
寻找模型
哈姆雷特·巴蒂斯塔(Hamlet Batista)写了几篇关于如何利用自然语言模型(例如BERT)标记意图的出色文章。
在他的帖子中,他使用了现有的意图标签模型,该模型从Kaggle的问答数据集中返回类别。尽管这些标签可能有用,但它们并不是真正符合我们通常针对意图分类法的“意图类别”,而是具有诸如“描述”,“实体”,“人”,“数字”和“位置”之类的标签。
通过培训BERT编码器,他获得了出色的结果,在预测新标签或未标签搜索关键字的标签方面,准确性接近90%。
对我来说,最大的问题是,我是否可以利用从Burkholder的代码中获得的搜索意图标签,利用相同的技术(Uber的Ludwig BERT编码器)创建准确的模型?
原来答案是肯定的!
怎么做
该过程的工作原理如下:
1.收集您的关键字列表。如果您打算训练自己的模型,建议您在特定类别/细分市场中进行。训练与服装相关的关键字,然后使用该模型标记财务相关的关键字,其准确性可能大大低于训练与服装相关的关键字,然后使用该模型标记其他未标记的服装相关的关键字。就是说,我确实尝试使用在一个类别/细分市场上标记的模型来标记另一个类别/细分市场,但对我来说结果仍然相当不错。
2.在第1步中的关键字列表上运行Burkholder的脚本。这需要注册SerpAPI.com并购买积分。我建议使用此脚本获取至少10,000个搜索查询的标签,以用于培训。训练数据越多,您的模型将越准确。
3.将上一步中标记的数据用作BERT模型的训练数据。 Batista的代码非常简单,本文将指导您完成整个过程。使用大约10,000个训练数据标签,我能够获得约72%的准确性。
4.使用第3步中的模型标记未标记的搜索数据,然后查看结果!
结果
我使用来自SEMrush的与服装/时尚相关的搜索词的巨大列表(13,000个关键字)作为我的训练数据来完成此过程。我得到的模型仅获得约80%的准确性。
用更多数据训练模型似乎有可能在一定程度上继续提高其准确性。如果您有任何尝试并提高了80%的准确性,我很想听听。我认为通过20,000多个标签搜索,我们可以看到高达85-90%的准确性。
这意味着,当您要求该模型预测无标签搜索查询的意图时,每10个模型中就有8次将为您提供与Burkholder基于Serp API规则的分类器返回的标签相同的标签。它还可以免费,大量,快速地做到这一点。
因此,原本需要花费数千美元和几天的时间才能完成的工作现在可以在几分钟之内免费完成。
就我而言,我使用了来自相关领域(化妆)的关键字而不是服装关键字,总的来说,我认为它做得很好。使用BERT模型,标记5,000个搜索查询花费了不到两分钟的时间。这是我的结果:
含义
为了使SEO工具有用,它们需要可扩展。关键字研究,内容策略,PPC策略和SEO策略通常依赖于能够对整个细分市场/主题/主题/网站进行分析。
在许多行业中,关键字longtails可以扩展到数百万个。因此,更快,更实惠的Burkholder解决方案可以带来很大的不同。
我预测AI和机器学习工具将在我们的行业中得到越来越多的使用,从而使SEO,付费搜索专家和内容营销商获得在这些新的AI突破之前无法实现的超级能力。
分析愉快!
克里斯汀·廷斯基(Kristin Tynski)是位于佛罗里达州德尔雷比奇(Frayl)的精品增长机构Fractl的创始人兼高级副总裁。