新闻 news
您现在的位置:首页 > 新闻 > 面部处理的计算机模型可以揭示大脑如何如此迅速地生成丰富而详细的视觉表示

新闻

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

财经

杭州商务局总经济师武长虹:未来5年培育10家独角兽企业 杭州商务局总经济师武长虹:未来5年培育10家独角兽...

【亿邦原创】4月27日消息,在2023中国(杭州)新电商大会开幕式上,杭州市商务局总经济师武长虹发表了题...

  • 伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...

      民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...

  • 看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...

      今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...

  • 英国科技产业组建Code4COVID.org以抗击冠状病毒危机

      由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

面部处理的计算机模型可以揭示大脑如何如此迅速地生成丰富而详细的视觉表示

发布时间:2020/03/07 新闻 浏览:734

 
当我们睁开眼睛,我们会立即看到周围的环境。大脑如何如此迅速地形成这些丰富而详细的世界表示,是视觉研究中最大的未解之谜之一。
研究大脑的科学家已经尝试使用计算机视觉模型来复制这种现象,但是到目前为止,领先的模型仅执行更简单的任务,例如在杂乱的背景下拾取物体或面部。现在,由麻省理工学院认知科学家领导的一个团队开发了一种计算机模型,该模型捕获了人类视觉系统从图像中快速生成详细场景描述的能力,并提供了一些有关大脑如何实现此功能的见解。
乔什说:“我们在这项工作中试图做的是解释感知能力比仅仅在图像的各个部分上附加语义标签要丰富得多,并探讨如何看待整个物理世界的问题。” Tenenbaum,计算认知科学教授,也是麻省理工学院计算机科学与人工智能实验室(CSAIL)和脑,思维与机器中心(CBMM)的成员。
新模型假定,当大脑接收到视觉输入时,它会迅速执行一系列计算,从而逆转计算机图形程序用来生成面部或其他物体的2D表示的步骤。这种称为有效逆图形(EIG)的模型也与非人类灵长类动物大脑的面部选择区域的电记录很好地相关,这表明灵长类动物视觉系统的组织方式与计算机模型几乎相同研究人员说。
该论文的主要作者是前MIT博士后Ilker Yildirim,他现在是耶鲁大学心理学的助理教授,该论文今天发表在《科学进展》上。洛克菲勒大学神经科学和行为学教授Tenenbaum和Winrich Freiwald是这项研究的资深作者。耶鲁大学的研究生Mario Belledonne也是作家。
逆图形
数十年来,对大脑视觉系统的研究都非常详细地研究了如何将入射到视网膜上的光转换成具有凝聚力的场景。这种理解帮助人工智能研究人员开发了可以复制该系统各方面的计算机模型,例如识别人脸或其他物体。
Tenenbaum说:“视觉是我们对人类和其他动物最了解的大脑的功能方面。” “目前,计算机视觉是AI最成功的领域之一。我们认为,机器现在可以很好地观察图片并很好地识别人脸并检测其他种类的物体。”
但是,即使这些复杂的人工智能系统也无法与人类视觉系统实现的功能相提并论。
他说:“我们的大脑不仅会检测到那里有物体,也不会识别并在上面贴上标签。” “我们看到了所有的形状,几何形状,表面,纹理。我们看到了一个非常丰富的世界。”
一个多世纪以前,医师,物理学家和哲学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)提出了理论,即大脑通过反转图像形成过程来创建这些丰富的表示。他假设视觉系统包含一个图像生成器,该图像生成器将用于例如生成我们在梦中看到的面孔。研究人员说,反向运行该发生器将使大脑从图像向后运动,并推断出什么样的面部或其他物体将产生该图像。
但是,问题仍然存在:大脑如何如此迅速地执行这一过程(称为逆图形)?计算机科学家已经尝试创建可以执行此任务的算法,但是以前最好的系统需要许多循环的迭代处理,比大脑为您所看到的内容创建详细的视觉表示所需的100到200毫秒要长得多。神经科学家相信,大脑的感知可以如此快速地进行,因为它是通过前馈传递,通过神经处理的几个层次化组织层实现的。
由MIT领导的团队着手建立一种特殊的深度神经网络模型,以展示神经层次结构如何快速推断场景的基础特征(在本例中为特定面孔)。与计算机视觉中使用的标准深层神经网络相反,后者是从表示图像中对象类别的标记数据中进行训练的,而研究人员的网络是通过一种模型来进行训练的,该模型反映了大脑内部可以面部表情的场景的内部表示。看起来像。
因此,他们的模型学会了逆转由计算机图形程序执行的用于生成人脸的步骤。这些图形程序从单个人脸的三维表示开始,然后将其转换为二维图像(从特定视点看)。这些图像可以放置在任意背景图像上。研究人员认为,当您梦见或联想到某人面部的心理图像时,大脑的视觉系统可能会执行类似的操作。
研究人员训练了他们的深度神经网络以相反的方式执行这些步骤-也就是说,它从2D图像开始,然后添加诸如纹理,曲率和光照之类的特征,以创建研究人员称为“ 2.5D”的表示形式。这些2.5D图像从特定角度指定了脸部的形状和颜色。然后将它们转换为不依赖于视点的3-D表示形式。
“该模型提供了系统级别的大脑中人脸处理的说明,可以使它看到图像并最终到达一个2.5D的重要3D阶段,该3D对象包括形状和纹理的表示。 D图片,” Yildirim说。
模型表现
研究人员发现,他们的模型与研究猕猴大脑某些区域获得的数据一致。在2010年发表的一项研究中,加州理工学院的Freiwald和Doris Tsao记录了这些区域中神经元的活动,并从七个不同的角度分析了它们如何响应25张不同的面孔。该研究揭示了高级人脸处理的三个阶段,麻省理工学院的团队现在假设这些阶段对应于其逆向图形模型的三个阶段:大致是一个依赖于2.5D视点的阶段;从2.5到3D过渡的舞台;以及面部表情的3D,视点不变阶段。
Tenenbaum说:“我们显示的是,这三个层次的大脑在定量和定性上的响应特性似乎都与我们所建立的网络的顶层三个层次非常吻合。”
研究人员还将这项模型的性能与人类的性能进行了比较,该任务涉及从不同角度识别人脸。当研究人员通过在保留脸部形状的同时移除脸部纹理或在保留相对纹理的同时扭曲形状来改变脸部时,这项任务将变得更加困难。该新模型的性能与最先进的面部识别软件中使用的计算机模型相比,与人类的性能更加相似,这进一步证明了该模型可能更接近于模仿人类视觉系统中发生的事情。
研究人员现在计划继续在其他图像(包括不是脸的物体)上测试建模方法,以研究逆向图形是否也可以解释大脑如何感知其他类型的场景。此外,他们认为将这种方法应用于计算机视觉可以导致性能更好的AI系统。
Tenenbaum说:“如果我们能够证明这些模型可能与大脑的运作方式相对应,那么这项工作可能会使计算机视觉研究人员更加重视并在这种逆向图形方法中投入更多的工程资源。” “大脑仍然是任何能够快速,丰富地看到世界的机器的黄金标准。”