1.4 视觉仿生技术及应用现状
对生物视觉系统最早的研究是建立在视觉心理学和生理解剖学分析基础上的,直到20世纪30年代生物电分析研究方法的出现,才使得研究人员能够从刺激生物电发放的视觉神经生理学层面对视觉系统进行深入研究,大大促进了生物视觉研究的发展。1932年Hartline首次观察和记录了视觉神经的活动[119],之后Kuffler第一次记录了节细胞的光刺激发放特性,并提出了著名的“感受野”概念[120]。2001年Weblin等提出了“大脑看世界”的观点[121],指出人眼只是把景物的轮廓传递到大脑,是大脑完成了主要的填充、感知和理解。视觉系统被认为是揭示大脑原理的敲门砖,美国、西欧、日本各著名科研机构和大学,比如麻省理工大学、NASA、哈佛大学、剑桥大学等,都有专门的视觉系统研究机构,新论题和新成果不断推出,Martin Greschner等人于2002年提出了眼球微动与视觉系统振荡关系[122],国内外的学者对视网膜三层神经网络的模型已有了很好的研究结果,美国约翰斯·霍普金斯大学威尔默眼科研究所的科学家和北卡罗来纳州立大学的机械工程师共同研制的“眼睛芯片”可固定在视网膜上,有可能使盲人重见光明。视觉心理学和神经生理学很多的研究成果和新的发现,都能够为计算机视觉的发展指明方向和提供有意义的参考。
生物视觉系统是大自然创造的最完美的视觉系统,可以实现复杂的信息获取和高速处理。机器视觉研究的最终目的也就是实现具有完善的生物视觉功能的系统和方法,实现机器对三维景物的感知理解。Roberts对“积木世界”的理解开创了以理解三维场景为目的的三维机器视觉的研究[123]。20世纪80年代初,Marr首次从信息处理的角度综合了图像处理、心理物理学、神经生理学及临床神经病学等方面已取得的重要研究成果,提出了第一个较为完善的视觉系统框架,使计算机视觉研究有了一个比较明确的体系。虽然这个理论还需要不断改进和完善,而且也受到了一些质疑,但Marr的视觉计算理论是首次阐述视觉检测系统机理的系统理论,而且在工业检测中得到了很好的应用,对人类视觉和计算机视觉的研究产生了深远的推动作用[124]。Marr认为视觉是一种信息处理任务,可分三个不同层次:
① 计算理论层次;
② 表达和算法层次;
③ 硬件层次。
Marr将从图像推得形状信息的过程分成三个表象阶段,即视觉信息处理分为自下而上的三个阶段:
① 低层视觉,构成所谓的“要素图”(Primary Sketch),包含一些基本的图像特征;
② 中层视觉,在以观察者为中心的坐标系中构成对环境的2.5维描述,即部分的、不完整的描述;
③ 高层视觉,从2.5维描述得到以物体为中心的坐标系中完整的三维描述。
根据信息描述与信息处理的关系,表达外部信息的基本要素是点、边缘、面等局部几何特征。相对于这些局部特征,拓扑特征有更高的计算复杂度。因此,相对于基于局部几何特征的辨识,基于拓扑特征的辨识应该发生在视觉感知的更高层次。以Marr的特征分析理论为指导,人们对特征提取的计算理论和实现算法进行了大量研究。在时域、频域、小波域或其他变换域下,针对边缘检测、图像分割、特征提取、目标识别等取得了有益的研究成果。Gestalt视觉理论[125]认为研究的出发点是“形”,它是指从由知觉活动组织成的经验中的整体,认为把点状数据聚集成整体特征的聚集过程是所有其他有意义的处理过程的基础,它反映了人类视觉本质的某些方面,但它对感知组织的基本原理只是一种公理性的描述而不是一种机理性的描述。尽管Marr理论在许多方面存在争议,但至今它仍是指导视觉检测研究工作的基本理论框架。
近年来,认知科学和神经科学的迅速发展促进了新的计算机视觉理论的发展。20世纪70年代,Barlow等人依据单细胞的电生理记录提出了神经还原论[126]。随后,在这一与眼和脑神经机制有关的理论研究的基础上,Malsburg和Daugrnan(1986)等人参照生理学中的感受野、功能柱、侧抑制、视觉的空间频率通道等概念,创立了一种对图像分析和视觉现象专门进行空间频率分析的学派。该学派以滤波器作为特征检测器,用不同的滤波器或其组合模拟各种类型的感受野,认为视觉系统在处理图像信息时采取的基本方式之一是通过不同类型的感受野进行逐级抽取,也就是说,每一级在上一级的基础上再提取有用特征,抛弃不重要的信息。对于大多数初级皮层细胞,感受野的最佳刺激类似于线段的刺激,可以通过提取线段的复杂程度、朝向、位置等信息来描述刺激的特征。按照提取这些特征所采用的特征检测器的不同,又可分为基于Gabor变换的方法和基于小波变换的方法。神经还原论与生物视觉的结构和工作机理相符,计算原理以信息论的时、频域分析为基础,兼具生物学的合理性和计算的可行性。但是这一理论的极端派认为大脑是傅立叶描述器,陷入纯符号计算的境地。神经还原论的发展需要生物视觉研究的新成果的启发,以及与之相应的计算理论的支持。结构分解理论(Structural Decomposition),最早由Marr等人提出,最近有研究者提出,结构分解理论是到目前为止唯一能够为新样本进行增量学习提供原则的计算理论。结构分解模型利用组合理论,一方面解决了增量学习的问题,即任意目标都可由元子集合的某一个子集按照某一种拓扑关系组合而成,但另一方面也带来了几个缺点,如度量信息的忽略和结构分解的不稳定性。特征空间论是相对于测量空间而言的。原始数据所在的空间为测量空间,而分类识别所赖以进行的空间为特征空间。这里所指的特征空间与前面的泛指不同,这里是指以多元统计学为数学工具获得的一组特征向量(特征基)组成的向量空间。这些向量反映了目标的几何或光学特征,结构信息隐含于其中,最有代表性的特征提取方法有PCA、ICA[128],[129]等,以及特征空间的近似方法LLE[130~132]。
目前,国际上在视知觉研究领域占主导地位的理论是以Marr为代表的特征分析理论和Navon提出的拓扑知觉理论,最近陈霖的实验方案获得了认知界的认可,阐述了拓扑知觉理论更符合生物视觉的规律。在认知科学领域中,关于视觉感知的本源还存在分歧,是先注意到局部特征还是先注意到整体特征,无论是整体优先还是局部优先,两者不能截然分开,从整体到局部或从局部到整体,人会有意识地将注意快速指向视觉环境中感兴趣的目标,这就是生物视觉信息处理的注意机制,分为基于数据驱动的Bottom-up注意模型和基于任务驱动的Top-down模型,典型的计算模型分别是Rybak模型、Itti的心理阈值模型和马尔可夫模型。
受生物视觉生理特性启迪,模拟人眼的多尺度特性、多尺度分析在现代图像处理领域中成为了重要分析工具。具有代表性的尺度空间理论是Witkin尺度空间理论,尺度空间理论衍生出多个分支(高斯尺度空间论、小波尺度空间、Schwsrts尺度空间理论等)成为了视觉变空间分辨率机制的主要理论依据,而Babaud等人证明了高斯核是唯一的线性核,具有良好的保留特征点的特性。
国内,郑南宁院士提出的基于连续可调非均匀采样的选择注意机制,并应用于多分辨率边缘检测中[133];史忠植教授的研究团队提出了一个数据驱动的基于注意机制的稀疏编码模型且有机集成了串行的两个注意选择模块:非均匀采样模块和基于响应显著性值的选择模块。罗四维教授的研究团队提出了以环境为中心选择性注意机制[134];高隽教授的研究团队在选择性注意机制方面提出了协同感知的视觉注意机制,取得了有益的研究成果[135];李言俊教授的研究团队研究了人眼视觉仿生在成像制导中的应用,把生物与工程进行了有机结合[136]。刘政凯教授的团队研究了基于注意机制的目标搜索和图像检索,取得了良好的效果[137]。
总之,国内外学者无论在基础理论还是在结合工程应用研究上,如人脸识别、视觉导航、遥感图像处理、医学图像处理等方面的研究都把生物与工程紧密、有机结合,由生物学启发来完成复杂信息的加工和处理是视觉科学和认知研究的热点和难点。