新闻

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

财经

杭州商务局总经济师武长虹：未来5年培育10家独角兽...

【亿邦原创】4月27日消息，在2023中国（杭州）新电商大会开幕式上，杭州市商务局总经济师武长虹发表了题...

伊丽莎白·沃伦(Elizabeth Warren)担任总统，为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选，但用于推动她竞选的技术将继续存在。她的员工成员宣布，他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候，微软提出了一项最雄心勃勃，范围广泛的战略来减少公司运营的碳排放量，从而在企业界引起了轰动。该计划的一部分是一个10亿美元的基金，该基金将投资于减缓气候变化的技术，特别是针...
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起，以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

OpenAI教机械手解决魔方

发布时间：2019/10/17 新闻 浏览：996

具有真正人性化的灵活性的机器人还远未成为现实，但AI加速的进步使我们比以往更接近实现这一愿景。在9月份发表的研究论文中，Google的一个科学家团队使用机械手详细介绍了他们的测试，该机械手使其能够以最少的训练数据来旋转保定球。在六月的一次计算机视觉会议上，麻省理工学院的研究人员展示了他们在一个AI模型上的工作，该模型能够仅凭视觉数据片段来预测物理事物的触觉。
现在，OpenAI —由埃隆·马斯克(Elon Musk)和其他人共同创立，位于旧金山的AI研究公司，得到了LinkedIn联合创始人里德·霍夫曼(Reid Hoffman)和前Y Combinator总裁萨姆·奥特曼(Sam Altman)等名人的支持–它正处于解决机器人技术挑战的风口浪尖上和AI系统：求解魔方。不同于加州大学尔湾分校和其他地方的团队所取得的突破，它们利用量身定制的机器来快速操纵魔方，而OpenAI研究人员设计的方法则是使用五指人形指针，该指针由13,000年的AI模型指导累积的经验-与OpenAI的Dota播放机器人所使用的40,000年数量级相同。
它基于今年早些时候由腾讯和香港中文大学进行的实验，该实验涉及一种灵巧的人类大小的操纵器以及一个软件框架，该软件框架包括一个AI驱动的立方体求解器(用于识别最佳Rubik立方体移动序列)和一个立方体运算符(最多可控制五个手指)。该团队报告说，将基于模型的模型和无模型的计划与操作相结合，在1,400次试验过程中平均成功率为90.3%，而在对AI组件进行30,000次发作训练后，平均成功率达到95.2%。
但是腾讯的工作严格地在仿真中进行，特别是在Roboti的“接触多关节动力学”(Mujoco)中，Mutjoco是为机器人和生物力学的研究和开发而设计的物理引擎。 OpenAI的科学家同样在模拟中训练了他们的AI模型，但是他们设法在不牺牲准确性或鲁棒性的情况下成功地将其转移到了现实世界的机器人手中。
OpenAI机器人团队的技术人员Matthias Plappert说：“我们对Rubik的Cube任务感到兴奋的原因是，它确实需要人类水平的灵活性。” “从某种意义上说，这是一项[高度]复杂的任务，您需要真正精确地控制手指才能旋转[立方体]面孔。 [我们]希望看到[我们]可以将我们最初开发的这种方法推广到去年的发行版能走多远。”
设定
正如OpenAI研究人员在详细说明其工作的论文中解释的那样，由于所需的精确度和估算立方体姿势的复杂性，仅使用模拟数据来解决Rubik立方体要比处理块困难得多。鲁比克的立方体-由26个通过关节和弹簧连接的立方体组成-至少具有六个内部自由度。立方体的六个面中的每一个都可以旋转，以使魔方可以被打乱，只有将所有六个面都恢复为单一颜色后，立方体才视为已解决。
团队的解决方案是一种称为自动域随机化(ADR)的算法，该算法会自动生成用于训练强化学习模型的分布以及可以通过视觉估计对象状态的模块(基于视觉的姿势估计器)，在这种情况下，魔方。通过复习，强化学习使用重复的奖励和惩罚，使AI系统朝着理想目标的方向发展。
研究人员根据多维数据集加扰技术部署了ADR，根据世界多维数据集协会官方指南，将大约20步移动到已解决的Rubik多维数据集以对其进行加扰。然后，他们将无扰的任务分解为多个子目标，例如旋转(对应于将一个立方体面顺时针或逆时针旋转90度)和翻转(涉及将另一个立方体面移到顶部)。 (由于旋转顶面通常比旋转其他面更简单，因此他们将翻转和顶面旋转与其他子目标顺序结合在一起。)关于Rubik立方体的实际求解，他们使用了像Kociemba求解器这样的现有软件库，产生子目标的解决方案序列。
硬件
操纵魔方的机器人手是Shadow Dextrous E系列手，它的中指和无名指各有3个致动关节和1个欠致动关节，小指和拇指有5个致动关节，以及一个腕部有2个致动关节。多年来，它一直是OpenAI机器人平台的核心部分，它与三台用于视觉姿势估计和PhaseSpace动作捕捉系统的摄像机配对，并安装在装有计算机的过山车的笼子中。
该小组指出，他们与机械手制造商Shadow Robot Company合作，以提高某些机器人组件的坚固性和可靠性。具体来说，当手与物体互动时，它们增加了手的抓地力并减少了肌腱应力，并且他们调整了与之交互的软件堆栈，以最大程度地减小扭矩限制。
至于魔方，那不是您的平均模型。相反，它是一个小米的Giiker立方体，它包装了可感应方向的蓝牙和运动传感器。现成的Giiker立方体模型具有90度的面角分辨率，但团队对其进行了修改，以实现大约5度的跟踪精度。
模拟
像腾讯团队一样，OpenAI研究人员利用MuJoCo来模拟环境，手部和所有物体，以及ORRB，ORRB是在游戏引擎Unity之上构建的远程渲染后端，用于渲染图像以训练基于视觉的姿势估计器。模拟的Rubik立方体由26个1.9厘米的立方体组成，六个具有单个铰链接头，而20个具有三个铰链接头，有效的自由度为66。这样一来，它可以表示全部43亿五百亿个完全对齐的立方体配置以及这些配置之间的所有中间状态。
指导影子手的AI政策必须与魔方和魔方内的关节所施加的基本压力以及Giiker魔方独有的行为相抗衡。例如，向单个立方体施加力通常足以旋转面，因为该力是通过接触力在相邻元素之间传播的。尽管该立方体有六个面(与所有Rubik的立方体一样)，但并不是所有的立方体都可以同时旋转。垂直面锁定到适当的位置，除非角度足够小，以使这些面可以对齐到它们的对齐状态。
这就是ADR的来源。正如研究人员所解释的那样，这是一种通过随时间随机分配某些方面(例如，多维数据集的视觉外观或手部动态)而在模拟环境中生成分布的技术。初始分布集中在单个环境上，但是逐渐扩展以合成可用于评估任何模型性能的数据。
有效地，经过ADR训练的模型通过内部实施学习算法来调整其行为以实现目标，该团队假设，当分布太大而导致模型无法记住专用解决方案(由于其有限的能力)时，就会发生这种情况。只要模型的精度不低于预定义的阈值，ADR就会继续训练周期。
那么，在每种环境中随机分配的是什么呢?一方面，模拟器的物理特性(例如几何形状，摩擦和重力)以及未由模拟器建模的自定义物理机器人效果(例如，摩托反冲)。除了诸如照明条件之类的视觉元素外，相机位置和角度;物体的材料和外观;背景的纹理;甚至是渲染图像的后处理效果。
“这就是这种方法的主要优势之一-一旦您弄清了如何在仿真中训练这些模型，就可以有效地获取无穷的数据，” Plppert说。 “然后，一旦弄清楚如何将模型转移到机器人上，就可以在现实世界中利用它们。”
奖赏
如上所述，强化学习涉及奖励，OpenAI团队为此实验定义了三个：(1)系统与目标的先前距离与当前距离之间的差异; (2)达成目标时给予奖励; (3)每当手放下魔方时都将受到惩罚。在训练过程中会产生随机的目标，并且只要AI模型连续获得50次成功，尝试达到下一个目标时超时或放弃多维数据集，就认为训练已结束。
研究人员使用Rapid进行了训练，该框架由一组展示工人和优化器节点组成，它们在一组显卡之间执行同步梯度下降(机器学习中的必要步骤)。随着部署工作人员获得经验，他们通知了优化器节点，另一组工作人员将经过训练的AI模型与参考代理进行了比较。
总共使用了64个Nvidia V100图形卡和920个具有32个处理器核心的工作机来进行模型优化长达数月之久，而研究人员则在研究诸如仿真保真度，ADR算法，调整超参数甚至网络架构之类的变量。仅优化器节点就使用了8个V100卡和64个处理器核心，而负责渲染用于训练基于视觉的姿势估计器的图像的节点则利用了单个Nvidia V100图形卡和8个处理器核心。
通过视觉和Giiker多维数据集的内置传感器，状态估计器最终学会了估计所有六个面部角度以及Rubik多维数据集的位置和方向。研究小组指出，由于贴纸的旋转对称性，仅凭视觉就无法修改立方体，但他们希望将来能开发出一种循环模型，能够严格地从摄像机镜头中确定立方体的状态。
实际转移
接下来，团队尝试将训练有素的AI模型推广到真实世界的Shadow Hand。他们评估了随机化的性能，在随机训练中使用了大约两个星期，使用ADR训练了大约两个星期的策略，并且使用ADR连续训练和更新了两个月的两个策略，每个策略都在真实的机器人上进行。经过10次试验(每个保单重复10次)，这些试验从一个已解决的Rubik魔方开始，并责成该手进行合理的争夺。
对于每个试验，他们定义了两个阈值：成功应用至少一半的公平加扰(即22次成功)和至少成功应用整个公平的加扰(即43次成功)。表现最好的模型量表在10个试验中平均获得了26.80次成功，得出一半成功率60%，完全成功率20%。次佳的模型平均获得了17.8次成功，即30%的成功率和10%的成功率。
这看起来似乎并不特别令人印象深刻，但是值得注意的是，所有模型都开发出了前所未有的技术来从微扰中恢复，例如将多个机器人手指绑在一起时;当手戴着皮手套时;当毯子部分遮住魔方时;当立方体被毛绒长颈鹿和钢笔打扰时。当机器人偶尔旋转不正确的面孔时，最好的AI模型是通过向后旋转面孔来恢复的。当手尝试旋转面部，但立方体滑落，导致整个立方体相对于特定面部旋转时，模型重新布置其抓地力，然后再次尝试，直到最终成功。
OpenAI Rubik的多维数据集
“我们在这里使用的算法与我们在训练其他机器人时使用的算法完全相同。 [这种特殊的方法在某种意义上是非常笼统的，它可以应用于您可能想到的各种各样的问题，甚至甚至可以不加以处理。“ Plppert说。 “尽管我们专注于Rubik的多维数据集任务，但在可以应用于许多测试的…类系统的背景下，机器人技术很有趣。”
OpenAI机器人团队的研究科学家Lilian Weng表示，最终目标是通用性，这与OpenAI的既定使命相吻合：在多个领域中构建“安全”的人类级AI。大多数专家认为，机器人技术还有很长的路要走-如今，一些最先进的模型(例如Aeolus)需要几分钟才能完成诸如捡起物体并将它们放入垃圾箱的任务。但是Weng，Plppert和他的同事们相信，他们的工作是迈向能够完成几乎所有任务的高度健壮，真正自主的机器的重要一步。
翁说：“最终，有一天，我们希望[人工智能]将某些价值传递给现实，就像一个机器人，该机器人可以帮助人们[注意事物]或从事非常危险的工作，需要……与现实世界互动。” “ [这实际上是[我们正在尝试建立的。]

上一篇: 谷歌在计算摄影上震惊苹果：“这不是疯狂的科学”

下一篇: 道德机器正在学习我们希望如何杀死自动驾驶汽车

发布时间: