第41卷第1期 2018年1月 计 算 机 学 报 VoL 41 NO.1 CHINESE JOURNAL OF COMPUTERS Jan.2018 基于深度学习的形状建模方法 张 娟 汪西莉 杨建功 (陕西师范大学计算机科学学院西安 710119) 摘要在目标检测、图像分割、图像修复等应用中,一个好的目标形状模型有着非常重要的作用.与灰度、纹理、 边缘等底层的视觉特征相比,作为一种高层视觉特征的形状更有利于描述目标的全局视觉信息.一般在加人全局 形状信息的情况下算法的性能将有所提高.近年来,由于其具有卓越的学习数据中包含的内部结构的能力,深度学 习模型吸引了越来越多的关注.包含多层隐层单元的深度学习模型用于模拟人类大脑的认知机制,可以提取多层 数据特征和表示复杂的数据分布,学习到的多层抽象表示更有助于了解形状等数据的信息.针对复杂而又多变的 目标形状,该文基于深度信念网络和深度玻尔兹曼机构造形状模型,给出了各自的模型构造方法、模型训练方法以 及基于模型生成目标形状的方法.这两种模型是深层概率模型,能够充分利用底层特征和多层高层特征(越高层越 复杂)拟合关于训练集形状的概率分布,所以它们能够有效地建模形状.这类模型的一个关键特性是使用贪心逐层 训练快速地找到一组好的模型参数.该文的形状模型不仅能够很好地表达出训练集中的形状,还能够生成不同于 训练集中样本的形状.另外,当训练集中的形状是多类别时,此时涉及到的形状变化比较大,文中模型同样能够定 义形状所属的多峰分布.深度学习模型具有较强的形状表达能力,可以应用于生成形状、形状修复和去噪等多种任 务.该文在Weizmann Horse和Caltechl01 Silhouettes数据集上进行了实验,结果表明,和浅层的受限玻尔兹曼机 模型相比,深度学习模型能够更好地表达训练集形状,从包含多层非线性处理的深层结构中生成的形状看起来更 符合实际,且深度玻尔兹曼机模型生成的目标形状要比深度信念网络模型更为清晰.实验中以形状图形化结果和 形状相似性度量结果说明深度学习模型对训练形状的拟合能力较强,且具有较好的泛化能力. 关键词 形状建模;深度学习;受限玻尔兹曼机;深度信念网络;深度玻尔兹曼机 中图法分类号TP18 DOI号lO.11897/SP.J.1016.2018.00132 Shape Modeling Method Based on Deep Learning ZHANG Juan WANG Xi-Li YANG Jian-Gong (School of Computer Science,Shaanxi Normal University,Xi’an 710119) Abstract Models of the object shape play an important role in many image applications such as obj ect detection,image segmentation and inpainting.Compared with the gray,texture,edge and other low—level visual features of the image,shape as high—level visual feature helps to describe the global visual information of an object better.Generally,the performance of algorithm will be improved after global shape information(expressed by a good mode1)joined.In recent years, deep learning models have attracted more and more attentions because of their excellent learning ability on modeling data with intrinsic structure.Deep learning models contain multiple layers and hidden perception units,which are used to simulate the cognitive mechanism of human brain. They can extract multi—level data features and represent complicated data distributions.They form high—level data abstract representation through combining the lower layer features.A deep 收稿日期:2016-06—15;在线出版日期:2016-11—21.本课题得到国家自然科学基金(4l171338,41471280,61401265)资助.张娟,女,1992 年生,硕士研究生,主要研究方向为机器学习、图像处理.E—mail:chenmzhang @foxmail.corn.汪西莉(通信作者),女,1969年生,博士,教 授,博士生导师,中国计算机学会(CCF)会员,主要研究领域为智能信息处理、模式识别、图像处理.E—mail:wangxili@snnu.edu.cn. 杨建功,男,1974年生,博士研究生,讲师,主要研究方向为机器学习、图像处理. 张娟等:基于深度学习的形状建模方法 133 learning model learning the representation and abstraction of multiple levels is more helpful tO make sense of data,such as shape images.In view of the complicated and changeable obj ect shape,we propose two kinds of shape models based on deep belief network and deep Bohzmann machine,and the methods of two models constructing,training and shape generating in this paper.Both of these tWO models are deep,hierarchical probabilistic models that make heavy use of hidden units tO modal high—order dependencies between the observed units,which can make full use of low——level features and multi——layer high——level features of object shape to describe the probability distribution of training set.They have the potential of learning internal representation that become progressively complex at higher layers.The key feature of these tWO models is greedy layer—by—layer training that can be repeated several times in order to find a good set of modal parameters quickly,even for modal contains many layers and parameters.Thus they can effectively model the shape,this kind of model not only can express the shape of the training set, but also can generate shape that differ from samples in the training set.The shape change is relatively large when the shape of the training set is multiple categories,the modal can also define the multi—model distribution of the shape set.A deep learning model has strong ability of shape expression and can be applied in many kinds of tasks such as shape generating,shape completion, and denoising.We give some of the experimental results on the Weizmann Horse data Set and Caltechl01 Silhouettes data set.The results show that compared with the restricted Boltzmann machine model,the proposed two models based on deep learning can express the shape of training set better.The samples generated from the deep models involving structure of multi—layer nonlinear processing are more realistic,and the samples from the deep Boltzmann machine model are much more clear than deep belief network mode1.Experimental results in the graphical shape and similarity measure illustrate that deep learning model is fit for the training shape,and the model has better generalization ability. Keywords shape modeling;deep learning;restricted Boltzmann machine;deep belief network; deep Boltzmann machine 点集表示形状是一种最简单的方法,它基于标记点 引 日 在目标检测、图像分割和图像修复等应用l_1 分布模型,先选取一批已标记的训练形状,用形状边 缘位置、角点等一些关键点作为标记点描述形状,然 后使用主成分分析法等统计分析获得全局的形状模 中,目标的形状信息起到至关重要的作用,形状作为 一型_5],但其形状表示过于被动,需要对训练集中所有 的形状进行标注,要求从形状中选出的主要特征点 有相同的数量和位置,并且在求解过程中容易陷入 种高层的视觉特征,与图像中的灰度、纹理、边缘 等底层视觉特征相比,它描述的视觉信息有利于完 整地表达目标物体.若图像中存在噪声、背景和目标 特征比较相似、部分目标被遮挡等情况,形状作为先 验知识有助于得到较为完整且正确的目标,从而提 高目标检测或分割等的正确率.此外,形状在图像的 生成过程中也扮演着重要的角色 。].一般来说,上 局部极值.用来表示形状属性常用的模型还有网格 结构的马尔科夫随机场或条件随机场I6],网格结构 的马尔科夫随机场模型可以表示为由一元项和二元 项组成的能量函数形式,其中定义的二元能量项表 示相邻像素之间的依赖关系,也即是施加给相邻像 素之间局部区域强调形状的局部特征(平滑性 或连通性),但无法捕捉到凸性或曲率等更复杂的形 状属性,同时网格结构的马尔科夫随机场在表达全 述这些应用的效果能够通过使用更好的目标形状模 型得以改善. 目前,已经有很多方法来表示二维形状.用标记 134 计 算 机 学 报 局形状时受到一定的.另外一种方法是使用水 平集_7 表示形状,其基本思想是施加足够的约束使 形状是有效的、真实的,同时允许捕获的可能的形状 要具有一定的灵活性.在水平集方法中采用符号距 离函数表示形状,在一个区域上确定一个点到区域 边界的距离并对其符号进行定义,点位于边界内部 为正,位于边界外部为负,位于边界上为0,这种方 法捕获目标形状的全局特征和关于目标形状的全局 变化(比如形状纵横比的变化).但是这类方法的缺 点是在曲线的演化过程中,符号距离函数会发生震 荡,导致最终的曲线演化形状偏离真实的目标形状 轮廓.另外,当训练集中存在不同种类时,这种方法 不能有效地为形状建模,即不能拟合多峰分布,这使 得形状只能在一定范围内变化. 近年来备受瞩目的深度学习模型 能够通过组 合底层的特征形成高层的数据抽象特征进而模拟人 类大脑认知机制,且能够自动发现隐藏在数据中的 模式,具有强大的学习数据中包含的结构的能力,可 以使用这类模型来学习形状复杂的全局特征进而表 征形状.玻尔兹曼机(Boltzmann Machine,BM)_g 是 一种根植于统计力学的随机神经网络模型,基于能 量函数建模,其样本的分布服从玻尔兹曼分布.模型 由可见层和隐层组成,可见层由可见单元组成,隐层 由隐单元组成,其单元之间是全连接的,具有强大的 无监督学习能力,能够从复杂数据中学习到隐藏在 数据中的高阶特征,但是其学习时问很长,且不能够 精确计算出BM所表示的分布,同时从模型中得到 服从其定义的分布的样本也很困难.Smolensky_1叨提 出受限的玻尔兹曼机(Restricted Boltzmann Machine, RBM)模型,模型包括一个可见层和一个隐层,它是 BM的一种特殊结构.相比于BM,RBM模型去除 了同层单元之间的连接,即可见层与隐层单元之间 是全连接,可见层和隐层的层内单元之间无连接,这 使得高效快速的模型训练算法的出现成为可能,有 效地缩短了训练时间.尽管仍然无法有效计算RBM 所表示的分布,但可以通过采样方法得到服从模型 所表示分布的样本.但是在训练样本和计算单元有 限的情况下,两层结构的RBM模型对复杂分布的 表示能力有限.2006年Hinton等人口 提出深度信 念网络(Deep Belief Network,DBN)模型,通过构建 具有多个隐层的结构来学习更有用的高层特征.该 模型是一种生成模型,包括一个可见层和多个隐层, 模型可以使用极大似然估计方法来训练得到参数. DBN模型的最上面两层单元之间的连接是无向的, 构成一个无向二部图,较低的其它层单元之间的连 接是有向的,构成一个有向的sigmoid置信网,其较 高层单元表示较低层单元之间的高阶关系.全局优 化DBN往往是困难的、耗时的,为加快模型的训练 速度和获得更好的优化性能,Hinton给出了模型训 练的一个高效算法——在全局训练整个模型之前, 先使用逐层训练算法用于预训练模型,即先训练较 低层模块后训练较高层模块,进行的是无监督训练. 文献El2]表明添加隐层在严格意义上能够提高模 型的建模能力,即深层模型相比于浅层模型有更 好的非线性函数表示能力.深度玻尔兹曼机(Deep Boltzmann Machine,DBM)模型是Sa1akhutdinov 等人_1 于2009年提出的另外一种深度学习模型, 模型包括一个可见层和多个隐层,可以看作由多个 RBM堆叠而成.该模型与DBN模型一样能够学习 到数据的多层次抽象特征,但DBM与DBN不同的 是DBM是一个无向图模型,即层与层之间的连接 均是无向的.由于DBM模型是深层结构,全局优化 DBM模型也是很困难的,所以Sa1akhutdinov等人 提出了类似于DBN模型的训练算法,将训练分成 了两个阶段:第1个阶段是预训练阶段,分别训练各 个子模块;第2个阶段是微调阶段,即在预训练的基 础上全局训练整个模型.同样,模型的训练也是无监 督的.目前已有研究将RBM作为全局形状先验成 功地应用于图像分割问题,文献[14]将RBM模型 作为形状模型添加到条件随机场图像标记模型中提 供全局的形状约束,这种混合的模型比缺少形状先 验信息的传统模型减少了错误标记像素的个数,提 高了图像标记的正确率.文献[15]是结合DBM的 一种变形模型 ]对先验形状建模方法提出的一种 变分分割模型,该方法是利用深度学习方法解决先 验形状的估计并作为先验形状加入到变分分割模型 中用以解决自然图像的分割问题,形状模型由一个 可见层和两个隐层组成,可见层与第1个隐层之间 是局部连接,第1个隐层与第2个隐层之间是全连 接,但是由于模型可见层与隐层间的局部连接,在使 用模型生成形状时目标形状的图像会出现接缝. 针对复杂而又多变的目标形状,本文提出两种 基于深度学习的形状表示模型,它们是由RBM模 型扩展得到的DBN和DBM模型,模型各层之间均 是全连接,这两种模型通过训练样本训练得到模型 参数,用以表示形状和生成形状.文中根据不同模型 1期 张娟等:基于深度学习的形状建模方法 135 的结构特点,给出了各自的模型构造方法、模型的训 练方法,以及当用该类模型为形状进行建模时提出 了基于模型生成目标形状的方法.与传统的形状模 元九,间连接边的权重,n 是第 个可见单元的偏置, bj是第J个隐单元的偏置.关于可见单元 的概率 分布可通过求P( ,h;0)的边缘概率分布得到. 型相比,这类模型不仅能够很好的表达出训练集中 的形状,还能够生成不同于训练集中样本的形状,且 形状符合实际.当训练集中的形状是多类别时,此时 涉及到的形状变化比较大,该类模型同样能够定义 形状所属的多峰分布.这样,在图像检测、图像分割 等应用中,即使在图像存在遮挡或噪声等情况下,形 状的全局特性也会使得目标结果符合实际.本文在 Weizmann Horse和Caltechl01 Silhouettes数据集 上进行了实验,结果表明深度学习模型具有较强的 形状表达能力,可以非常灵活地应用于生成形状、完 成部分缺失或被遮挡形状的修复、噪声情况下的去 噪等多种任务. 2深度学习模型理论 2.1受限玻尔兹曼机模型 RBM是包含一个可见层和一个隐层的两层结 构且对称连接的概率图模型,如图1所示,层间全连 接、层内无连接.可见层包括m个可见单元-o一( , z,…, ),表示观测数据,其中 表示第i个可见 单元的状态;隐层包括 个隐单元h===( ,h。,…, h ),可看作是从可见层数据提取的抽象特征,其中 h 表示第J个隐单元的状态. 图1 RBM模型结构 给定一组状态( , ),RBM模型定义的联合概 率分布为 P( , ; )一旦一 ; ,z(,z( )一∑e一 -E(v,h;O)(‘1) 其中:Z(O)称为划分函数或者归一化常量;E(v,h; ) 是状态( , )所对应的能量函数,定义为 E( ,h; )=一VTWh一口 一b h =一∑∑W h 一 i…1 1 ∑ ~∑ (2) i一1 i=1 其中:0一{W,a,b}是模型参数,对于所有的i∈ {1,…,m)和J∈{1,…, ),W 是可见单元 和隐单 训练RBME¨ 模型的任务是求出模型参数的值 以拟合训练数据.给定一组训练数据S一{z ,…, ,…, },k一1,…,z,假定这些训练数据是同 分布的,常用的方法是使用最大似然估计方法估计 模型参数,即 一argmax ln(L( ;S)) 0 —argmax in ll p(xk;0) ^一1 =argmax lnp(x ; ) (3) 0 =1 为获得较好的模型参数值,使用随机梯度上升 法求RBM在训练集上的对数似然函数ln(L(0;s)) 取最大值时对应的参数.其参数更新公式为 W—W+△W,AW一( h,)d 一( h > [)dE1(4) a—a+△口,△口一(V >dat 一( >model (5) b一6+△6,2xb=(h,) 一(h,)model (6) 其中:<・) 表示经验分布下的期望;(・too 表示 RBM模型所定义分布下的期望.精确的最大似然 估计学习是很困难的,因为想要精确地计算第2项 期望的时间复杂度是0(2“ ).所以,Hinton[】。] 于2002年提出了一个快速学习算法——对比散度 (Contrastive Divergence,CD)算法,该算法已成为 训练RBM模型的一个标准算法. 由于RBM模型的结构是层间全连接、层内无 连接,这也就意味着在给定可见变量状态的情况下 隐变量是相互的,同时在给定隐变量状态的情 况下可见变量是相互的.尽管RBM模型所定 义的分布仍然无法精确计算,但通过从边缘概率分 布中采样可以得到服从RBM模型所表示分布的 样本. 2.2深度信念网络模型 DBN是包含一个可见层和多个隐层的概率图 模型,可见层由可见单元组成,隐层由隐单元组成, 每一个隐层都对应捕获其下面一层特征的更高阶的 抽象特征,能够更好地反映输入数据的内在结构信 息.DBN是由两种不同的网络混合而成,最上面两 层形成一个无向网,其它较低层形成一个有向的 sigmoid信念网络,构成一个概率生成模型,如图2 (a)所示,模型参数为单元之间连接的权重以及各单 元所对应的偏置.最底层表示观测数据,即模型的输 136 计 算 机 学 报 入.预训练时DBN模型可以被视为由多个简单的 无监督模块(即RBM)组成,其中每个子模块的隐层 可以作为下一个子模块的可见层输入,如图2(b)所 示.这种结构特点也促使了一种快速的、逐层无监督 训练算法的提出,有效地避免了传统的深层网络训 练时导致的时间复杂度过高问题,每个子模型的训 练使用CD算法.相比于只有一个隐层的RBM模型 而言,具有多个隐层的DBN模型能够获取更多高 层的抽象特征来描述输入数据,另外理论结果表明 深层结构模型在表示训练数据所服从复杂分布的函 数时要比浅层模型更有效E19]. 图2 DBN模型结构及其对应的预训练模块 训练一个包含一层可见层单元与两层隐层单元 的DBN模型,由模型定义的联合概率分布为 P(v,h ,h ;0)一P(vI h ; )P( ,h ;0 )(7) 其中: 一{ ,0。), 是第1层RBM的参数, 是第 2层RBM的参数; 是可见单元,P( l h ;0 )表示 在给定隐单元状态的条件下获得可见单元状态的条 件分布,P(h ,h ;0。)是模型最顶层RBM的联合分 布.条件分布P( 1 h ;0 )和联合分布P(h ,h。;0 ) 共同构成生成模型DBN.由于同层单元间没有连 接,即层内单元之间是相互的,所以有: P( {h ;0 )一Il P( 1 h ;0 ) (8) 1 , P(h ,h。;0。)一 e- ,hz (9) Z-, L, 其中E(h ,h ;0 )是顶层RBM定义的能量函数. HintonEu 于2006年提出了DBN模型的一种 快速、无监督的训练算法,其训练过程分为两个阶 段:预训练阶段和微调阶段.在预训练阶段的一个关 键特性是逐层训练,将DBN模型看作由多个RBM 模块堆叠而成,通过自下而上的顺序训练各组成模 块来学习深层模型.同时,在模型的训练过程中该算 法也为执行近似推理提供了一个有效的方式,它利 用自下而上的传递推断出较高层隐单元的状态.其 预训练步骤为: (1)以训练样本作为可见层数据 ,随机初始化 模型参数 .采用2.1节中介绍的RBM训练方式 训练第一个RBM. (2)固定第一个RBM的模型参数 不变,将上 步中训练得到的隐层单元状态h 作为下一个RBM 的可见层数据,随机初始化模型参数 .构造较高 一层的RBM并训练该RBM. (3)将训练得到的各RBM模块的参数赋值给 DBN模型. 用一次只训练一个模块的方式训练DBN模型 是有效的,但不是最优的.所以,在微调阶段使用基 于梯度算法优化策略的对比wake—sleep算法[ 。 对 整个模型的参数进行全局调优,得到最终的模型参 数,以预训练得到的模型参数作为该阶段的初始值. DBN的子模型除了最顶层的RBM外,其它RBM 模块的权重分为向上的认知权重和向下的生成权 重,向下的生成权重表示DBN是一个生成模型,向 上的认知权重不属于模型的一部分,只用来执行自 底向上的近似推断.在wake阶段,通过底层的特征 和认知权重确定每一层的抽象特征表示,使用梯度 上升法更新生成权重;在sleep阶段,通过高层特征 和生成权重产生底层状态,同时更新认知权重.本文 使用上述算法训练DBN模型. Hinton提出的快速无监督训练算法通过逐层 训练各模块能够有效地加快深层结构模型的训练且 得到较好的模型参数值.许多现有的机器学习算法 使用浅层结构(如支持向量机、RBM等),但是理论 结果表明,使用这样的模型不能有效地从输入数据 中提取复杂的结构信息,而DBN等深层结构模型 结合有效且快速的训练算法能够利用大量的无标签 数据提取更多高层的抽象特征,更好地描述隐藏在 输入数据内部的结构信息. 2.3深度玻尔兹曼机模型 DBM是不同于DBN的另外一种深度学习模 型,可以看作是RBM模型的扩展,包含多个隐层. 它是一个无向图,所有层与层之间的连接都是无向 的,如图3(a)所示.由于DBN模型的结构特点,训 (a) (b) 图3 DBM模型结构及其对应的预训练模块 1期 张娟等:基于深度学习的形状建模方法 137 练时它是基于一种自下而上的近似推理方法,在推 科夫链蒙特卡罗采样的随机梯度上升法可以得到关 断过程中忽略自上而下反馈的结果,因而不能充分 考虑数据的不确定性,而DBM能够结合自下而上 的传递和自上而下的反馈来解决不确定性问题,从 于DBM模型参数的一个很好的近似,从而更好地 拟合训练数据.其预训练步骤为: (1)采用2.1节介绍的RBM训练方法训练结 而能够生成更好地依赖于数据和高阶特征的样本. 训练一个具有两个隐层的DBM, 是可见层单 元的状态,h 和h 是各个隐层对应的隐层单元,关 构经过改动的底层RBM模型,训练样本作为模型 的可见层数据.连接权重为w . (2)固定底层RBM模型的参数不变,并使用从 于( ,h ,h )对应的能量定义为 E(v,h ,h ;0):一v W h 一h W h 一 a 一b h 一CTh (10) 其中: :{ ,W ,a,b,f)是模型参数,彬 是可见层 与隐层h 之间连接的权重, 是隐层h 与隐层 h。之间连接的权重,a,b, 分别是可见层 、隐层h 、 隐层h 所对应的偏置.那么模型所定义的关于 的 边缘概率分布为 P( ; )一 ∑e (11) \V ^1^2 .这里Z( )是一个常数,定义为 z( )一 52,e 一 , (12) 给定一批训练数据,DBM的学习就是确定 式(10)中的权重矩阵和偏置.本文使用的DBM模 型的训练方法是Salakhutdinov等人口 根据训练 DBN模型的逐层预训练算法思想提出的训练算法, 其训练过程也包括预训练阶段和微调阶段,预训练 阶段为在微调阶段训练整个模型参数提供一个较好 的初始训练值,但不同的是预训练时的各模块不同、 微调时采用的算法不同.使用逐层预训练算法训练 DBM的思想是训练一批结构上有微小改变的RBM 模型,然后将其堆叠成一个DBM模型,其结构如 图3(b)所示.对最底层的RBM模型的改动是用增 加一倍自下而上的传递弥补缺少的自上而下的反馈 确定隐层单元的状态,即可见层单元的个数翻了一 番.相反,对最顶层RBM模型的改动是用增加一倍 自上而下的反馈弥补缺少的自下而上的传递确定可 见层单元的状态,即隐层单元的个数翻了一番.训练 得到的参数为DBM模型提供一个合理的参数值, 便于后续的联合训练整个模型.在微调阶段,使用预 训练阶段得到的各模块参数作为训练整个DBM模 型时的初始值,即使用第一个训练的RBM参数初 始化DBM模型的较低层参数(W 和a),使用第2 个训练的RBM模型参数作为模型的较高层参数的 初始值( 。和c).其后,使用结合均值场推理和马尔 P(h I 73;2W )中采样得到的数据作为上层RBM模 型的训练数据,训练上层RBM模型. (3)将上述训练得到的各模块参数赋值给DBM 模型,作为微调阶段时的模型参数初始值. 目前DBM模型受到关注有很多原因.首先,它 保留了DBN模型很多好的性质:能够得到输入数 据的多种抽象表示;具有一个高效的贪心逐层训练 的预训练算法;使用无标签数据训练,是无监督的. 其次,它又与DBN等深层结构模型不同,DBM的 近似推理过程包括一个自下而上的传递和自上而下 的反馈,使得DBM能够更好地应对数据的不确定 性问题,这也是不同于DBN模型与自动编码器等 深层模型的最大的特点.最后,通过模型能量函数使 用随机梯度上升法联合优化所有层的参数,这极大 地促进了训练得到更好的生成模型. 3基于DBN和DBM的形状模型 DBN、DBM深度学习模型能够获取输人数据 的高阶特征,可以用来为形状建模,并用于表示和生 成形状.给定一批训练形状,用其训练上述模型得到 模型参数.模型训练时以形状像素点的二值特征作 为输入,每个像素点为可见层的一个可见单元,其值 是0或1.在确定模型参数之后,如何从模型中生成 形状是一个重要的问题,通常的方法是使用采样得 到服从模型所定义分布的形状样本.MCMC方 法_2 是由Metropolis于1954年提出的从一个特定 概率分布采样的算法,最早应用于物理领域,其理论 基础是在满足平衡方程的条件下可以通过状态转移 到达稳态.后经HastingsⅢ2 改进得到M—H算法, M—H算法是MCMC的基础方法.MCMc方法中最 常用的是Gibbs采样r2 ,它是M—H算法的一个特 例.Gibbs采样可以应用于从变量的联合概率分布 和边缘概率分布中采样,其基本思想是对高维或复 杂总体采样时,构造一个不可约的马尔科夫链,得到 的样本可以近似的作为模型所定义的概率分布的样 计 算 机 学 报 本.Gibbs采样的步骤为: (1)随机初始化 ’一{z(。): 一1,…,t} (2)对J一0,1,2,…依次采样 z; +¨~ (z 1 ,z ,…,z ) lz ”~p(z; ”,z ,…,z; ) +¨~P(zf J z ’,lz +¨,z +¨,…, ; ”) 按照上面的步骤,经过多步迭代采样直至收 敛,则可以得到z“’,z ,…,即近似服从概率分布 P(z1,z2,…, )的样本. 以形状作为训练数据,在训练好模型之后,可以 执行多步Gibbs采样得到服从模型定义分布的形 状.图4是DBN、DBM与RBM模型的采样过程对 比.在RBM模型中执行Gibbs采样的过程是用一 个形状作为可见层的初始化状态,交替进行采样,得 到近似服从RBM模型所定义分布的形状,如图4(a) 所示.为生成近似服从DBN模型定义分布的形状, 通过在模型的最顶层RBM模块执行多步Gibbs采 样得到第L一1层(L是DBN模型的层数)的状态, 然后通过自上而下的sigmoid置信网络依次随机激 活每层单元,从而得到可见层状态(即样本),如图4 (b)所示.DBM模型的采样过程如图4(c)所示,依 次采样得到可见层、隐层的状态,并且隐层h 条件 依赖于可见层 和隐层 .从DBN、DBM采样过程 可以看出其不同之处在于确定隐层h 状态时的条 件依赖不同,在DBN模型中推导 时只依赖于h , 而在DBM模型中依赖于 和h。两个方向信息的影 响,即既受到底层特征的影响也受到高层抽象特征 的影响,从而在生成可见层单元时会综合考虑输入 (a)RBM模型的采样过程 ( ihJ) ~P(詹h。) (b)DI 模型的采样过程 (c)DBM模型的采样过程 图4 DBN、DBM模型与RBM模型的采样过程 数据和模型所表达形状的特征,其生成的形状数据 会相对比较确定. 4实验与分析 4.1 实验数据与参数设置 实验环境为Windows10 64位操作系统,内存为 16 GB,处理器为Intel(R)Xeon(R)v3 l-9O GHz. 编程环境为MATLAB R2014a.为验证各模型的建 模能力,以Weizmann Horse(figure—ground)数据 集和Caltechl01 Silhouettes数据集作为实验对象, 图像均是二值的.从Weizmann Horse数据集中选 择200幅图像形状作为训练样本,其余128幅图像 形状作为测试样本,并将所有形状图像归一化至 32×32像素大小,所有图像中目标(马)均是面向左 方且具有不同的姿势.该数据集是具有挑战性的,原因 是除了它们整体的目标形状不同之外,马的头、尾和腿 的姿态与位置也各不相同.从Caltechl 0 1 Silhouettes 数据集中选择Airplanes Side、Faces、Motorbikes类的 数据作为实验数据集,其中Airplanes Side类798幅 图像、Faces类有870幅图像、Motorbikes有798幅 图像,每幅图像的大小为28×28,共有2466幅图 像.选择其中的2200幅图像作为训练样本、266幅 图像作为测试样本.该实验数据集包括3种不同类 别的形状数据,且形状各异. 本文中各模型的主要参数和具体数值是根据文 献[25]和具体试验选取的。模型的结构及其每层的 单元个数设置如下:对于Weizmann Horse(figure— ground)数据集,RBM、DBN和DBM模型的可见层 单元个数均设置为1024、第1隐层的单元个数均设 置为500,DBN与DBM模型中涉及到的第2隐层 单元个数设置为500;对于Caltechl01 Silhouettes 数据集,RBM、DBN和DBM模型的可见层单元个 数均设置为784、第1隐层的单元个数均设置为 2000,DBN与DBM模型中涉及到的第2隐层单元 个数设置为1000.训练过程中涉及到的参数设置 为:对于Weizmann Horse(figure—ground)数据集, 迭代次数设置为1500,学习率为0.01,CD的步数设 置为1;对于Caltechl01 Silhouettes数据集,训练过 程中涉及到的参数及其设置为:迭代次数设置为 3000,学习率为0.005,CD的步数设置为1. 4.2模型建模能力比较与分析 为评估RBM与DBN、DBM深度学习模型对形 状的建懊能,J.从 个摸划if 使用 懊 的采佯力‘ 法得到一批肜状.以洲练形状和测 形状f1 为 J 采样}JJ始¨J‘的输入.埘于Weizm ̄【『1l1 Itorse数 集 的采样达代次数没 l 为1 00,Cahech1()1 Silhotlett L s 实验数 的采样达代次数没 为3(/0.此时卡j!J 的采样结 收敛.从摸 采仟,卜 的形状殳『 l5 昕,J . 5(A)址以圳练数据作为输入的-h . 5 (B)足以测 数 作为输入的绌 . 【11( )列2:-输 入7f;状数 .(1 )列址从RBM模) Il 采样得到的肜 状.(c)州址从I)l{N摸 lf1采样僻剑的形状.((1)列 足从I)l{M中I!J l 采样僻剑的彤状.从 5 iIt符帧 采样甜…的 小埘比一lf以行¨{.RBM卡I!, 愀 肜状_i1f 火r人 分的细节肜状.比殳¨采佯{ 剑的 形状 像人 分缺少 的头、尾、腿或 机n,J机 等 的肜状 息.形状n,J边缘比较模糊;I)IjN十51 J 址 f5l肜状lI1f能够 州 『本姿势变化的彤状.恪怵结十勾 惨. I l f,- 形状比较模糊:DBM摸, 能够 成符 种 ¨硷势的肜状l{‘能够观察剑,t-_成的肜状业为jI 晰 确定. d) ( 1) (I】) (【) ((I】 (B)测试J : 1 I lorsc实验数抻;集 一 一 ■■.|I■■ .JI ■■■■ ^ ^ 【 I) l1,1 (L 1 ((1) ( I) (1,1 (L) (【I) (\)_Jl l、 (1j)测 ? I冬1 从符 ¨ I 采样 成的形状(( 1)列址输入n0肜状数 .(h)列址从I,U ̄M摸 采样 剁的形状,( 、)州址 从I)l J fI采样 刮的形状.((1)列址从I)BM谈 i{1 ftf } lJ『.1 J】≥状) 定J l j分析使, 埘肜状的建f}{能力.以形状 作为输入.使川t瞅氏 离瞍 各模 采样输…‘j输 \ , : 入之IhJ的_卡lI似 t'i .太1 J陡爪的是 lI 1Weizma ̄-i11 w Horse实验数 的 刈 比,表2腱乐的址 5 纠 l{I Caltec]1101 Silhouett( 实验数据集的结果刈‘比. 表il1的符仃 -jl纠5『f1的辛午{ 对砬.从衷1 l干lJ表2 rf1 的数据I j‘以彳亍¨1. :址以iJll练形状作为输入,还址 以测试形状作为输入.使川深发学 摸 采样僻剑 的形状 j输入 fII似.这说}月{使用深度学 模 对肜状进 缱fI!能够 & 的拟合训练形状. II_刈 小 于圳 IIfI,J删 肜状有很 的泛化能 . 表1 wcizmIlnn IIo,‘ c实验数据集各模型采样输入与 输出的欧氏距离对比 测试形状 I)l{M RRM I)l{N I)l{M 1.1‘)? ) 7.O C)77 5.7850 1 858() {.H20:{ 8.559】 6 2 l8 1.9() 》:{ !.}H2n 6.8()【13 5 68:{() 】. {73 7 . 1l! ) 9.4 5S2 7.:{8 7【 6.n!():{ 3.:{5“【 9.21l H.!l 55 7.7 7 5 一表 2 Calt echl0l Silhouettes实验数据集各模型采样 输入与输出的欧氏距离对比 训练Jf;状 I M I)I;N I)nM l IJM (1) 7.2 l08 .I 7H5 2.5 )15 8.8:{l0 (2) :{.82 31 1.H“ ) j 2.(1I( :{ 6.1 5 ]0 ( ) 7 7:{() 5.72(}() 2.71():{ 5.2 I:38 则一 _^l _一 (1) 6._)21n 5.1 1(1 ) :{.1 0 )f式; ¨ .5U )0 0,一6 ( ) i.1【_2‘) {..71I 7 2.8(188 彤 6.1 5 78 ^_ 二_盯 状 一『殳]6址从形状修 力‘ 对比RBM 一一8:¨、I)r、 BN、I)BM 深发学 卡l!J 俄能,J.肜状修复的I{怀址 给 三三 ㈣ 定输入形状邴分缺火的 下.使用模型 成形状 缺火 分川 能的肜状姿念.由下经过圳练之 的 模,I 能够为 , 的条什 天于 . 的值{{彳定一个确 定n勺慨半分 ( ,J J 确定的肜状 域。“表爪缺 失的形状I 域).所以 J 状修复过 llJ町以通过 术丢火肜状、, 的条什卜采样得到丢失的或术观测 到的 余形状 .这・过 可通过使Jfj Gibbs采样 方法从条什分 川t采样 刘,即执行一条屿尔科人 链.从[可 、隐J t 几刈}、 的条件分布【}I得到 fl 的状态. 意 j吐次 新lJJ‘ 层单元状忿I{'f.确定的 形状邦分V 小作变化。 刈’术 测到的形状部分 , 新.Weizmam1 Hors ̄ 数 集的达代j欠数为1()()次。 Cahechl 0l Silllot1 ̄,1.1cs实验数据集的迭代次数为 3 C)0次. 6对 n勺址彤状修复的实验结 。 一It (a)列埘应的址从圳练 f,选取的完整形状,(}】)列 状釜 一( {) (b) ( ) ((I) (e (B)l『 ’观测形状为腿部 域 wriZlllann I{orse实验数据集 (【、)口J观测形状为}.. L r 域 i,h 一r ^.1 1『 ●●◆●● ●I●●● ■●■■.II n^ iIl 0 硼 一l ( I) (11) (L) (({) 【【-) ( I) (I】) (c、) ((1) (L、) 【、ahcch1 01 Silhou ̄-llt's实验数据集 矧6 符坝’ 修 的 ((f1)列过iJil 集肜状.(I))列址输入的部分缺失)c;状数据,(L-)列足利川RBM模 修复僻划的 肜状.(c{)列址利川I)BN坝, 修复甜刽的形状.(・)删是利川I)BM模型修复得到的肜状) 刈心的址缺火 分形状 :域作为输入形状数据. ( )列址使川RP,M模J 修 的结 .(d)列是使川 形状姿势小同.但经过形状修复之后的结果肴起来 还足较为符合实际的. I)BN卡Il, 修 的结 .((、)列是使川I)BM模 修复 f ̄'o-h .埘r Weizm ̄【1111 H()YSe实验数据集,(A)组 埘心的址-,J‘观测的形状址头部 域.其它部分缺火; (I{) 埘心的址I j‘观洲的肜状足酃分腿部 域.其 它部分缺火;((、) ×I』J、 的足缺火腿 形状I)‘=域;埘 j Cahech1 01 Silh{)ucl1c 实验数据集.(八)纰对 图7给出的足 同 始化状态作 摸 采样 的初始化输入刘 从模 tf1采样得钊形状的影响. Weizmann Horse实验数据集的迭代次数没置为 1000次,Cahech101 Silhouettes实验数据集的迭代 次数没置为3()00次.图7中给 的采样结果足重复 采样5次的结果,其采样得到的形状仃些小同.对于 Weizmann Horse实验数据集,(A)绢是刖一个随机 的址_IJ‘观洲的肜状址左侧I 域. 侧 域缺火; (1{)fit×1『心的址I叮观测的形状足下侧I 域. 侧 域缺火.从实验-h i I11 fJ『以 j J 5,RtjM模 能够根 确定的 域采样H1人体形状_fIl经过修复之后的 书U始化的数据作为各模型采样的初始状态.然后 过多次状态转移得到近似服从模 所定义的分 伽的形状;(B)组足川一个小的止力 块作为符模 采样的初始状态得剑的形状;( 、)绀足用一个K方 块作为 模 采样的仞始状态得到的形状.埘于 肜状还址缺火肜状的细1 信息. 成的形状缺夫部 分模糊;卡『{对r RBM模 .I)BN模 能够获得哇! 为清楚的形状姿势和轮廓. 体结卡勾完整但f1标形 状还址较为模糊;I)BM模 则能够挟得H标形状更 Cahech1 01 Silhouettes实验数据集,(A)绀足川一 个随机初始化的数据作为符模制采样的仞始状态; (B)组的结果显示的是使用一个长方块作为符模 为清晰的形状. 僻缺失肜状部分的大小 确定和 1期 张娟等:基于深度学习的形状建模方法 输入 RBM 输入 RBM I)BN DBN DIjM DI3M (A)随机初始化作为输入 (A)随机初始化作为输入 ● 输入 RBM _输入 RBM ■- .1l■ I)l{N DBN r)HM DBM II. (tj)一个长方块作为输入 (B)一个正方块作为输入 I输入 RBM 】输入RIjM 一 I)IjN DBN DBM I)BM (【、)一个长方块作为输入 Weizmann Hor实验数据集(C)一个正方块作为输入 ( ̄ltechlO1 Silhoueltes实验数据集 图7 不同的输人对采样得到样本的影响 采样的初始状态得到的形状;( )组是使用一个大 的正方块作为模 采样的初始状态产生的形状.从 输出结果.结果表明模型在输入的形状含噪声的 情况下,输出能够有效地去除噪声对目标形状的 干扰,模型具有较强的抑制噪声的能力. 8(A) 实验结果中可以看出.初始化状态的不同能够影响 由RBM、DBN、I)BM模型生成的样本的形状,它能 是从测试集中选取的36幅原始形状图像,图8(B) 是在图8(A)的基础上,Weizmann Horse实验数据 够决定形状的大体姿势和位置.并且能够从结果中 看出由DBN、DBM深度学习模型牛成的样本要比 集添加20 、CahechlO1 Silhouettes实验数据集添 加15 的服从(0,1)均匀分布的噪声图像,图8(C) 是RBM模型产生的结果,图8(D)是DBN模型产 RBM模 更符合要求,即形状的边缘比较清晰、四 肢等形状比较分明,形状数据更为确定,DBN模型 乍成的样本日标完整但有些模糊,而DBM模型生 成的形状的清晰度明显提高.这在实际应用中,可以 用仞始形状作为输入数据,根据模型采样的过程生 生的结果,图8(E)是DBM模型产生的结果.从 图8中可以看出以噪声作为输入经各模型采样得 到的结果有效地去除了噪声,而且还保留了原图像 中的许多边缘.RBM模型在采样过程中形状的边缘 轮廓部分丢失严重且变得模糊;而DBN和DBM模 型的整体效果更好,减少了形状边缘轮廓和形状弱 成一个既受到初始输入形状的影响也受到模型约束 的目标形状.该形状可以作为一个有效的形状模板 为其它应用提供形状先验约束. 图8是RBM与DBN、DBM模型以含有噪声的 细节的丢失,DBM模型的形状整体相对来说更为 清晰. 像作为模型采样过程的输入,迭代一次后的模型 (A)来添 _】噪J frJ降H鳃 (A)术i舔 泶J 的 像 (1{)添自nf1 , 』- 的I刳像 (Ij)添加Il1繁J 』l 的图像 D)1)BN ̄ 像 E)I)I ̄M输川剖像 (I )I)BM输出 像 模型抑制嵘J:吖r,j 比较 10l 8{ 张 娟等:基于深度学习的形状建模方法 143 5 总 结 作为统计建模方法中的一种,由RBM扩展的 DBN、DBM深度学习模型在图像处理中有着广泛 的应用.本文提出一类基于DBN、DBM深度学习模 型的形状建模方法,这类模型关注的是全局形状特 征,能够更好地体现形状的内在特性,对目标形状更 准确地建模.实验从多个方面对DBN、DBM深度学 习模型和RBM形状模型进行比较,结果表明DBN、 DBM这两种深度形状表示模型比RBM模型的建 模能力强,生成的形状更为符合现实.未来的研究包 括考虑形状对齐以及模型层数、节点数等参数的自 适应确定,将这类模型作为形状先验进一步扩展到 图像分割、图像检测应用中等. 参 考 文 献 [1] Alexe B,Deselaers T,Ferrari V.ClassCut for unsupervised class segmentatio//Proceedings of the 1lth European Conference on Computer Vision.Crete,Greeee,2010:380—393 E23 Eslami S M,Williams C.Factored shapes and appearances for parts—based object understanding//Pr0ceedings of the 22nd British Machine Vision Conference.Dundee,Scotland, 2O11:l_12 E3] Williams C K I,Titsias M K.Greedy learning of multiple objects in images using robust statistics and factorial learning. Neural Computation,2004,16(5):1039—1062 [4] Le Roux N,Heess N,Shotton J,et a1.Learning a generative model of images by factoring appearance and shape.Neural Computation,2011,3(3):593—650 Es] Cootes T F,Taylor C J,Cooper D H,et a1.Active shape models—their training and application.Computer Vision and Image Understanding,1995,61(1):38—59 E63 Boykov Y Y,Jolly M P.Interactive graph Cuts for optimal boundary&region segmentation of objects in N D images// Proceedings of the 8th IEEE International Conference on Computer Vision.Vancouver,Canada,2001:105—112 [7] Rousson M,Paragios N.Prior know ledge level set represent& visual grouping.International Journal of Computer Vision 2008,76(3):231-243 [83 LeCun Y,Bengio Y,Hinton G E.DeeP learning.Natu re. 2015,521(7553):436 444 [9]Hinton G E,Sejnowski T J.Learning and relearning in Bohzmann machines.Parallel Distributed Processing:Explorations in the Microstructure of Cognition,1986,1:282—317 El0] Smolensky P.Information processing in dynamical systems: Foundations of harmony theory.University of Colorado, Boulder:TechnicaI Report CU CS 32卜86,1986 [11] Hinton G E,Osinderi S,Teh Y.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7): 1527 1554 [12] Roux N L,Bengio Y. Representationa1 power of restricted Boltzmann machines and deep belief networks. Neural Computation,2008,2O(6):1631—1649. [13] Salakhutdinov R,Hinton G E.Deep Boltzmann machines// Proceedings of the 1 2th International Conference on Artificial Intelligence and Statistics.Florida,USA,2009:448—455 [14] Kae A,Sohn K,Lee H,et al,Augmenting CRFs with Boltzmann machine shape priors for image labeling//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland,USA,2013:2019—2026 [15] Chen F,Yu H,Hu R,et a1.Deep learning shape priors for object segmentation//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland,USA, 2O13:1870 1877 El6] Eslami S M A,Heess N,WⅢiams C K I,et a1.The shape Boltzmann machine:A strong model of object shape.Inter— national Journal of Computer Vision,2014,107(2):1 55 l76 [17] Fischer A,Igel C.Training restricted Boltzmann machines: An introduction.Pattern Recognition,2O14,47(1):25—39 [18] Hinton G E.Training products of experts by minimizing contrastive divergence.Neural Computation,2002,14(8): 177卜1800 [19] Bengio Y,LeCun Y.Scaling learning algorithms towards AI.Large—Scale Kernel Machines,2007,34(5):321 359 [2o] Hinton G E,Dayan P,Frey B,et a1.The wake—sleep algorithm for unsupervised neural networks.Science,1995,268(5214): 】1 58一】】6] [21]Salakhutdinov R,Hinton G E.An efficient learning procedure for deep Boltzmann machines.Neural Computation,2012, 24(8):1967-2006 [22] Zhu S C,Dellaert F,Tu Z W.Markov chain Monte Carlo basics.Advances in Neural Information Processing Systems, 2005,5:497-537 [23] Hastings W K.Monte Carlo sampling methods using Markov chains and their applications.Biometrika,1970,57(1): 97 1O9 [24] Wa1sh B.Markov chain Monte Carlo and Gibbs sampling. Notes,2004,91(8):497 537 [25] Hinton G E.A practical guide to training restricted Boltzmann machines.Momentum,2O10,9(1):599-619 144 计 算 机 学 报 2O18年 ZItANG Juan,born in 1992,M.S. candidate.Her research interests inelude machine learning and image processing. Background Models of the shape of an obj ect play a crucial role in many applications such as object detection,image segmentation and inpainting.Compared with the gray,texture,edge and other low-level visual features of the image,shape as high level visual feature helps to describe the global visual information of an object better.In general,the algorithm’s performance will be improved after global shape information (expressed by good mode1)joined.At present,there are many methods to modeling 2-dimensional shape.The shape expressed in marked point set is one of the easiest way.It is based on marked point distribution mode1.But such repre— sentation is tOO passive.The points need to mark manually and it is error-prone.The most commonly used models are Markov random fields or conditional random fields.In such models,the pairwise potentials connecting neighboring pixels impose very local constraints,thus they are unable to capture more complex properties.Level set can also be used to represent shape.In leve1 set method,signed distance function is used to represent shape.The shortcomings of this kind of method is that during the curve evolution process,signed distance function wil1 oscillate。and then makes the fina1 shape of the curve evolution deviate from the real shape of the object’s contour. In addition,this method cannot fit multi—modal WANG Xi-Li,born in 1969,Ph.D.,professor,Ph.D. supervisor.Her major research interests include intelligent information processing,pattern recognition and image processing. YANG Jian—Gong,born in 1974,Ph.D.candidate, lecturer.His major research interests include machine learning and image processing. distribution. Recently,deep learning models have attracted more and more attentions because of their excellent learning ability on modeling data with intrinsic structure.Deep learning models contain multiple levels and hidden perception units.They can extract multi—level features and represent complicated data distribution.They form high-level data abstract representation through combining the lower layer features.In 20 1 2,Eslami et a1.proposed a probabilistic model for the task of modeling binary obj ect shapes.However,due to the partial connection between visible layer and hidden layer,the object shape will appear seams when the model is used to generate shape.In this paper,we propose two shape models based on deep models to represent the complicated global shape features. The samples generated from the deep models look more realistic and completed,which indicate the proposed shape models are effective in shape representing and generating. This work is supported by the National Natural Science Foundation of China under Grant Nos.41l71338,41471280, and 61401265.They are focus on object detection in high- resolution remote sensing image.We will apply the proposed shape models to object detection in further study.