作子
人的视觉与计算机视觉
20 世纪 50 年代和 60 年代,计算机并没有现在这样高的运算水平,教计算机下棋更加困难。但是现在,AlphaGo已经已经击败围棋冠军,IBM Watson 也在 Jeopardy 中击败人类竞赛者,即便如此,大多数计算机视觉软件最多只能完成 3 岁儿童的任务……
人类视觉系统非常特别,超过50%的神经组织直接或间接地与视觉有关,其中超过66%的神经活动仅为处理视觉。今天人们对视觉、知觉的了解大部分来自上世纪1950年代和60年代对猫进行的神经生理学研究。
上世纪50年代初期,哈佛医学院的两位神经科学家 David Hubel 和 Torsten Wiesel 在猫的视觉皮层上进行了一项实验。通过研究神经元对各种刺激的反应,两位科学家观察到,人类的视觉是分级的。神经元检测简单的特征,例如边缘,然后输入更复杂的特征,如形状,最后再输入更复杂的视觉表示。基于这些知识,计算机科学家就可以专注于以数字形式重建人类神经结构。
人类的视觉原理:从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定眼前物体的形状),最后进一步抽象(大脑进一步判定该物体)
1956年在达特茅斯学院举行的夏季研讨会上,来自不同领域的科学家们聚集在一起,以阐明并发展关于“思维机器”的观点。1960年代,大学开始认真进行计算机视觉研究,并将该项目视为人工智能的奠基石。
麻省理工学院的神经科学家戴维·马尔(David Marr)在70年代出版了一本《VISION》,汇集了一些方法,作出了可检测的预测,提供解决神经科学问题的框架,并激发一代年轻科学家研究大脑及计算。该书提出了一种用于研究生物视觉系统的计算范例,并介绍信息处理系统的三个不同分析层次概念,即计算理论层次、表示形式和算法层次,以及实现层次。
他们分别指向:计算的目标是什么;解决问题、实现目标的陈述与流程;这些表示和过程的物理实例化,例如如何在神经元中完成特定任务。这三个层次划分的意义是,研究者从视觉系统的宏观表示出发进行思考,而不是查看如单个神经元式的微观实体。
马尔建立了视觉表示框架,任何视觉系统感知到的强度,都是四个主要因素的函数:几何形状,意指形状和相对位置;可见表面的反射率和绝对吸附特性,即物理特性;照明,即光源;相机,包含光学。
研究人员对相关领域的未来非常乐观,并提倡把人工智能作为一种可以改变世界的技术。一些人预测,一代人的时间内就会创造出像人类一样聪明的机器,这种炒作为研究人员赢得了数百万美元的公共和私人资金,研究中心在全球涌现。但是由于接下来的发展未能达到人们的高预期,国际上的人工智能开发工作受到了限制。AI 视觉是个难课题
早期的计算资源在技术上无法跟上科学家提出的复杂问题,即使是最令人印象深刻的项目也只能解决微不足道的问题。此外,大多数研究人员都是在孤立的小组内工作,缺乏比较有意义的,可以推进该领域科学进展的方式。
有一则故事可以反映当时研究人员的美好预期,以及预期落空后的失落。1966年,美国计算机科学家、麻省理工学院 AI 实验室联合创始人马文·明斯基获得了暑期津贴,聘请了一年级的本科生杰拉尔德·苏斯曼,让他花费整个夏天的时间把一台摄像机与计算机连接起来,并让计算机描述它看到了什么。然而苏斯曼没有在截止日期前完成,并选择不再在视觉领域工作。
到上世纪70年代中期,政府和公司对人工智能失去了信心,行业资金枯竭。数学家詹姆斯·莱特希尔1973年发表了一篇论文,批评早期人工智能研究,这为后来英国政府撤回对该领域的支持埋下了伏笔。
随后的这段时间被称为“人工智能的冬天”。虽然20世纪80年代和90年代研究还在继续,也有过一些小规模的复兴,但人工智能基本上被归入了科幻小说的范畴,严肃的计算机科学家都避免使用这个词。
随着互联网成为主流,计算机科学家有了可以访问更多数据的权限。计算机硬件在继续改进,成本则在下降。上世纪80年代到90年代,基本神经网络和算法得到改进。
對于不同的物体,人类视觉也是通过这样逐层分级来进行认知的
1998年,Bengio、Le Cun、Bottou 和 Haffner 在一篇论文中首次介绍了第一个卷积神经网络(Convolutional Neural Network,简称CNN)) LeNet-5,能够分类手写数字。
卷积神经网络可以做到平移不变形,即使对象的外观发生某种方式的变化,也可以识别出对象。卷积神经网络通过监督学习和反向传播对输入到卷积网络中的数据做训练,并反复、自我校正。和同样可以做反向传播的深度神经网络相比,卷积神经网络的特殊之处在于神经元之间的连接结构和独特的隐藏架构的方式,这是由人类视觉皮层内部的视觉数据处理机制启发得来的。此外,CNN 中的图层按照宽度、高度和深度三个维度进行组织。



