AI 仿生学:你理解生物视觉和计算机视觉的区别吗?

AI 仿生学:你理解生物视觉和计算机视觉的区别吗?



由于视觉在我们每天工作生活中起着关键作用,所以自人工智能诞生之日起,科学家就梦想着创造出能够“看到”世界的计算机。但就像人工智能的许多其他目标一样,计算机视觉也是说起来容易做起来难。


1966年,麻省理工学院的科学家们启动了“夏季视觉项目”(The Summer Vision Project),通过两个月的努力,他们创建了一个能够识别图像中物体和背景区域的计算机系统。


可是,实现这些目标所花费的时间远远不止是一个暑假。事实上,直到2010年初,图像分类器和对象检测器才足够灵活和可靠,可以用于主流应用程序。


在过去的几十年里,机器学习和神经科学的进步帮助计算机视觉(computer vision)取得了巨大的进步。但是,在搭建出像我们这样看世界的人工智能系统之前,我们还有很长的路要走。


哈佛大学医学院教授加布里埃尔·克雷曼(Gabriel Kreiman)的《生物和计算机视觉》(Biological and Computer Vision)一书就对人类和动物如何处理视觉数据以及我们如何在计算机中复制这些功能方面进行了详尽的介绍。


AI 仿生学:你理解生物视觉和计算机视觉的区别吗?


书中详细介绍了数十亿年的进化如何为我们人类配备了复杂的视觉处理系统,以及研究它如何帮助科学家们开发出更好的计算机视觉算法。



硬件差异


在《生物和计算机视觉》的导言中,Kreiman写道:“我对研究生物和计算机之间的关系感到特别兴奋。生物视觉是数百万年来的进化产物,在开发计算模型时,我们没有理由重新发明轮子。我们可以从生物学解决视觉问题的方式中学习,并将这些解决方案作为灵感来建立更好的算法。”


而事实上,对视觉皮层的研究一直是计算机视觉和人工智能的一个巨大灵感来源。但在能够将视觉数字化之前,科学家们必须克服生物视觉和计算机视觉之间的巨大硬件差距。


具体来说,生物视觉是运行在皮质细胞和有机神经元的相互连接的网络上,而计算机视觉运行在由晶体管组成的电子芯片上。


AI 仿生学:你理解生物视觉和计算机视觉的区别吗?


因此,视觉的理论必须定义在一个可以在计算机中实现的层面,且在某种程度上可以与生命体相媲美。Kreiman称之为“金发姑娘原则”(Goldilocks principle),即一种既不过分详细也不过分简化的抽象水平。


例如,计算机视觉的早期努力试图在一个非常抽象的水平上解决计算机视觉问题,其方式忽略了人类和动物大脑如何识别视觉模式。事实证明,这些方法非常脆弱和低效。另一方面,在分子水平上研究和模拟大脑也将被证明是计算效率低下的。


“我不太喜欢完全照搬生物体的‘复制生物学’”," Kreiman说。“生物学的许多方面可以而且应该被抽象化。我们可能不需要有20,000个蛋白质和复杂树枝状几何结构的细胞质单元,那样的话生物学细节就太多了。另一方面,我们不能仅仅研究行为,因为这还不够详细。”


在《生物和计算机视觉》中,Kreiman将新皮质电路的“金发姑娘”尺度定义为每毫秒的神经元活动。神经科学和医学技术的进步使我们有可能以毫秒级的时间颗粒度研究单个神经元的活动。


这些研究的结果有助于开发不同类型的人工神经网络(artificial neural networks),即松散地模拟哺乳动物大脑皮质区域工作的人工智能算法。近年来,神经网络已被证明是视觉数据中模式识别的最有效算法,并已成为许多计算机视觉应用的关键组成部分。



架构差异


近几十年来,深度学习领域出现了一连串的创新工作,帮助计算机模仿了生物视觉的一些功能。


例如,卷积层(Convolutional layers)的灵感来自于对动物视觉皮层的研究,在寻找视觉数据的模式方面非常有效;汇集层(Pooling layers)有助于概括卷积层的输出,使其对视觉模式的位移不那么敏感。叠加在一起,卷积层和汇集层的区块可以从寻找小图案(角落、边缘等)到复杂的物体(脸、椅子、汽车等)。


但在人工神经网络的高级架构和我们对哺乳动物视觉皮层的了解之间仍然存在不匹配。


“不幸的是,‘层’这个词有点含糊不清,”"Kreiman说。“在计算机科学中,人们用“层”来表示不同的处理阶段(而一个层大多类似于一个脑区)。在生物学中,每个大脑区域包含六个皮质层(和分区)。我的直觉是,六层结构(其连接性有时被称为规范微电路)是相当关键的。目前还不清楚我们应该把这种电路的哪些方面纳入神经网络中。有些人可能认为六层模式的各个方面已经被纳入了(例如,规范化操作)。但可能还缺少巨大的丰富性。”


另外,正如Kreiman在《生物和计算机视觉》中强调的那样,大脑中的信息向几个方向移动。光信号从视网膜到下颞皮层,再到V1、V2和视觉皮层的其他层。但每一层也向其前一层提供反馈。而在每一层内,神经元之间相互作用并传递信息。所有这些互动和互连帮助大脑填补视觉输入的空白,并在信息不完整的情况下做出推断。


相比之下,在人工神经网络中,数据通常是单向移动的。卷积神经网络是“前馈网络”,即信息只从输入层到输出层。


有一种反馈机制叫做“反向传播”(backpropagation),它有助于纠正错误和调整神经网络的参数。但是反向传播的计算成本很高,只能用于神经网络的训练。而且目前还不清楚反向传播是否直接对应于皮质层的反馈机制。


另一方面,递归神经网络(recurrent neural networks)将较高层的输出与前一层的输入相结合,在计算机视觉中的应用仍然有限。


AI 仿生学:你理解生物视觉和计算机视觉的区别吗?

在视觉皮层(右) ,信息向几个方向移动。在神经网络(左) ,信息向一个方向移动


对此,Kreiman认为,信息的横向和自上而下的流动可能是使人工神经网络达到“生物”水平的关键。


“横向连接(即一个层内单元的连接)对于某些计算(如模式完成)可能是至关重要的,”他说。“而自上而下的连接(即从一个层中的单元到下面一个层中的单元的连接)对于预测、关注、合并上下文信息等则可能是必不可少的。”


此外,他还指出,神经元具有当前神经网络所缺少的复杂时间整合特性。



目标差异


就生物体而言,长期的进化已经成功地开发了一个可以完成许多任务的神经架构。一些研究表明,我们的视觉系统可以根据我们想要完成的目标动态地调整其敏感度。然而,创建具有这种灵活性的计算机视觉系统仍然是一个重大挑战。


目前的计算机视觉系统只能完成一项任务。我们的神经网络可以对物体进行分类、定位物体、将图像分割成不同的物体、描述图像以及生成图像,等等。但每个神经网络都只能单独完成一个任务。


“一个核心问题是理解‘视觉例程’(visual routine),这是以色列魏茨曼科学研究学院计算机科学系教授西蒙·乌尔曼(Shimon Ullman)创造的一个术语,即我们如何能够以一种依赖任务的方式灵活地传递视觉信息?”Kreiman说。


AI 仿生学:你理解生物视觉和计算机视觉的区别吗?

Shimon Ullman


“你基本上可以在一幅图像上回答无限多的问题。你不仅可以给物体贴标签,还可以计算物体的数量,或者描述它们的颜色、它们的相互作用、它们的大小,等等。我们可以建立网络来做这些事情中的任何一件,但我们没有可以同时做所有这些事情的网络。有很多有趣的方法可以通过问答系统来解决这个问题,这些算法虽然令人兴奋,但是人类的表现相比仍然相当原始。”Kreiman说。



整合差异


众所周知,对人类和动物来说,视觉与嗅觉、触觉和听觉密切相关。视觉、听觉、体感和嗅觉皮层相互作用,彼此获取线索,以调整他们对世界的推断。但在人工智能系统中,这些东西每一个都是单独存在的。


那么,我们需要整合这些来制造更好的计算机视觉系统吗?


“作为科学家,我们通常喜欢通过分解问题来解决它们,”Kreiman说。“我个人认为,这是一个合理的着手点。最典型的就是卓比林的默片,即便不需要借助嗅觉和听觉也能看得很清楚。或者一个人天生耳聋,但他仍然可以看得很清楚。”


然而,一个更复杂的问题是视觉与大脑中更复杂的区域的整合。对人类来说就是视觉与其他大脑功能(如逻辑、推理、语言和常识性知识)深度整合。


“一些(大部分)视觉问题可能会‘花费’更多的时间,并需要将视觉输入与关于世界的现有知识相结合。”Kreiman说。


他以美国前总统奥巴马的这张照片为例。为了理解这张照片中发生了什么,人工智能需要知道体重秤上的人在做什么、奥巴马在做什么、谁在笑、他们为什么在笑,等等。


AI 仿生学:你理解生物视觉和计算机视觉的区别吗?


而回答这些问题需要大量的信息,包括世界知识(体重秤测量体重)、物理知识(体重秤上的脚会施加一个力)、心理知识(许多人对自己的体重有自知之明,如果他们的体重远高于通常水平,他们会感到惊讶)、社会理解(有些人正在开玩笑,有些人则没有)。


“当前的架构无法做到这一点。所有这些都将需要动态和自上而下信号的整合。”Kreiman说。


语言和常识等领域本身就是人工智能界的巨大挑战。但它们是否能单独解决并与视觉一起整合,或者整合本身就是解决所有问题的关键,还有待观察。


“在某种程度上,我们需要进入认知的所有其他方面,很难想象如何在不涉及语言和逻辑的情况下整合认知,”Kreiman说。“我预计在未来几年将会有重大的令人兴奋的进步,将更多的语言和逻辑纳入视觉模型(反之,也将视觉纳入语言模型)。”


参考资料:https://bdtechtalks.com/2021/05/10/biological-computer-vision/



展开阅读全文

页面更新:2024-04-02

标签:卷积   仿生学   视觉   生物   计算机   神经元   神经网络   皮层   人工智能   皮质   物体   算法   体重   图像   区别

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top