新闻

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

财经

杭州商务局总经济师武长虹：未来5年培育10家独角兽...

【亿邦原创】4月27日消息，在2023中国（杭州）新电商大会开幕式上，杭州市商务局总经济师武长虹发表了题...

伊丽莎白·沃伦(Elizabeth Warren)担任总统，为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选，但用于推动她竞选的技术将继续存在。她的员工成员宣布，他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候，微软提出了一项最雄心勃勃，范围广泛的战略来减少公司运营的碳排放量，从而在企业界引起了轰动。该计划的一部分是一个10亿美元的基金，该基金将投资于减缓气候变化的技术，特别是针...
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起，以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

谷歌的AI选择哪种机器学习模型将产生最好的结果

发布时间：2019/06/20 财经 浏览：1113

据悉，谷歌的人们已经设计出能够预测哪种机器学习模型能够产生最佳效果的AI。在一篇新发表的论文(“通过非政策分类的非政策评估”)和博客文章中，一组Google AI研究人员提出了他们所谓的“非政策分类”或OPC，它评估了AI驱动的性能。通过将评估作为分类问题来处理代理。
该团队指出，他们的方法 – 强化学习的一种变体，它利用奖励来推动软件政策实现目标 – 与图像输入和尺度一起工作，包括基于视觉的机器人抓取。 “完全脱离政策强化学习是一种变体，其中代理完全从旧数据中学习，这很有吸引力，因为它可以在不需要物理机器人的情况下实现模型迭代，”Robotics在Google软件工程师Alexa Irpan写道。 “完全脱离政策的RL，可以在先前代理收集的同一固定数据集上训练多个模型，然后选择最佳的一个。”
到达OPC比听起来更具挑战性。正如Irpan和其他共同作者所指出的那样，非政策性强化学习可以通过机器人进行人工智能模型培训，但不能进行评估。此外，他们指出，在需要评估大量模型的方法中，地面实况评估通常效率太低。
他们的解决方案 – OPC – 通过假设手头的任务几乎没有随机性涉及状态如何变化以及假设代理在实验性试验结束时成功或失败来解决这个问题。两个假设中的第二个的二元性质允许为每个动作分配两个分类标签(“有效”用于成功或“灾难性”用于失败)。
OPC还依赖于所谓的Q函数(通过Q学习算法学习)来估计行为的未来总奖励。代理商选择具有最大预计奖励的行动，并且他们的表现是根据所选行动有效的频率来衡量的(这取决于Q-函数如何正确地将行动分类为有效与灾难性行为)。分类准确性作为非政策评估分数。
该团队使用完全非政策强化学习在模拟中训练机器学习策略，然后使用从先前现实世界数据制表的非政策分数对其进行评估。在机器人抓取任务中，他们报告特别是OPC的一种变体 – SoftOPC – 在预测最终成功率方面表现最佳。给定15个不同稳健性模型(其中7个模型纯粹在模拟中训练)，SoftOPC生成的分数与真实的掌握成功密切相关，并且比基线方法“显着”更可靠。
在未来的工作中，研究人员打算用“嘈杂”和非二元动力学来探索任务。 “[W]认为结果很有希望应用于许多现实世界的RL问题，”Irpan写道。

上一篇: 老板不了解软件开发的6件事

下一篇: 辉瑞进军激酶抑制剂领域，以114亿美元收购Array BioPharma

发布时间: