基于条件随机场的汉语命名实体识别

来源：华佗小知识

第３ｌ卷第５期　江　西　科　学　Ｖｏ１．３ｌ　Ｎｏ．５　２０１３年ｌ０月　ＪＩＡＮＧＸＩ　ＳＣＩＥＮＣＥ　ＯｃＬ　２０１　３　文章编号：１００１—３６７９（２０１３）０５—０６７５—０４　基于条件随机场的汉语命名实体识别　杨　克　领　（商丘师范学院计算机与信息技术学院，河南商丘４７６０００）　摘要：以系统的开发技术和方法以及相关背景知识，对系统进行详细的设计并给出了最大概率的分词方法，辩　析了正向最大匹配的识别过程及正向最大匹配的识别过程，成功地应用条件随机场实现了汉语命名实体识　别，从而证明该研究方法的有效性。　关键词：可视化工作室２００８；条件随机场；汉语分词；命名实体识别　中图分类号：ＴＰ３９１．１　文献标识码：Ａ　Ｃｈｉｎｅｓｅ　Ｎａｍｅｄ　Ｅｎｔｉｔｙ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｂａｓｅｄ　ｏｎ　ＣＲＦ　ＹＡＮＧ　Ｋｅ—ｌｉｎｇ　（Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　Ｓｈａｎｇｑｉｕ　Ｎｏｒｍａｌ　Ｃｏｌｌｅｇｅ，Ｈｅｎａｎ　Ｓｈａｎｇｑｉｕ　４７６０００）　Ａｂｓｔｒａｃｔ：Ｗｉｔｈ　ｔｈｅ　ｓｙｓｔｅｍａｔｉｃａｌ　ｄｅｖｅｌｏｐｍｅｎｔ　ｔｅｃｈｎｏｌｏｇｙ　ａｎｄ　ｔｈｅ　ｍｅｔｈｏｄ　ａｎｄ　ｒｅｌｅｖａｎｔ　ｂａｃｋｇｒｏｕｎｄ　ｋｎｏｗｌｅｄｇｅ，ｗｅ　ｄｅｓｉｇｎｅｄ　ｔｈｅ　ｓｙｓｔｅｍ　ｉｎ　ｄｅｔａｉｌ　ａｎｄ　ｇｉｖｅｄ　ｔｈｅ　ｍａｘｉｍｕｍ　ｐｒｏｂａｂｉｌｉｔｙ　ｏｆ　ｗｏｒｄ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｍｅｔｈｏｄ，ａｎａｌｙｓｅｄ　ｔｈｅ　ｐｏｓｉｔｉｖｅ　ｍａｘｉｍｕｍ　ｍａｔｃｈｉｎｇ　ｏｆ　ｉｄｅｎｔｉｉｆｃａｔｉｏｎ　ｐｒｏｃｅｓｓ　ａｎｄ　ｔｈｅ　ｐｏｓｉｔｉｖｅ　ｒｅｃｏｇｎｉ—　ｔｉｏｎ　ｏｆ　ｍａｘｉｍｕｍ　ｍａｔｃｈｉｎｇ　ｐｒｏｃｅｓｓ，ａｎｄ　ｗｅ　ｈａｖｅ　ｂｅｅｎ　ｓｕｃｃｅｓｓｆｕｌｌｙ　ｕｓｅｄ　ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎｄｏｍ　ｆｉｅｌｄｓ　ｈａｓ　ｒｅａｌｉｚｅｄ　Ｃｈｉｎｅｓｅ　ｗｏｒｄ　ｓｅｇｍｅｎｔａｔｉｏｎ，ａｎｄ　ｐｒｏｖｅｄ　ｔｈｅ　ｅｆｆｅｃｔｉｖｅｎｅｓｓ　ｏｆ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｍｅｔｈｏｄｓ．　Ｋｅｙ　ｗｏｒｄｓ：Ｖｉｓｕａｌ　Ｓｔｕｄｉｏ　２００８，Ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎｄｏｍ　ｆｉｅｌｄｓ，Ｃｈｉｎｅｓｅ　ｗｏｒｄ　ｓｅｇｍｅｎｔａｔｉｏｎ，Ｎａｍｅｄ　ｅｎｔｉｔｙ　ｒｅｃｏｇｎｉｔｉｏｎ　０引言　重大。　在计算机技术、［ｎｔｅｒｎｅｔ技术迅猛发展形式推　１　基于条件随机场的汉语命名实体　动下，中国的信息产业迅猛发展。各种数字图书　识别　馆以及电子出版物等电子文档信息呈现在人们面　１．１条件随机场　前，作为一项重要的计算机应用技术，以非受限文　１．１．１　产生式模型　产生式模型主要是对后验　本为主要对象的汉语自然语言处理研究的重要性　概率建模，从统计的角度表示数据的分布情况，能　日益显著。汉语信息处理技术是我国高新技术发　够反映同类数据本身的相似度。由于产生式模型　展的重点，实现自然语言与计算机通信，不仅具有　方法可以在联合分布空间插入变量、不变量、　较强的理论作用也具有重要的实践作用。命名实　性、先验分布等关系的知识，所以在联合分布范围　体识别是信息处理的首要任务，进行命名实体识　内，通用性是其本质。　别的研究，对自然语言处理和汉语信息处理意义　１．１．２判别式模型　构建０和Ｓ的条件分布Ｐ　收稿日期：２０１３—０７—１８；修订日期：２０１３—０８—２８　作者简介：杨克领（１９７１一），男，河南宜阳人，大学本科，实验师，主要从事计算机机房管理工作。　基金项目：河南省科技厅基础与前沿类项目（１３２３００４１０２００）。　・６７６・　江西科学　２０１３年第３ｌ卷　（ＳＩＯ），因为没有Ｓ的知识，无法生成样本，只能　判断分类，这就是判别式模型。该模型基本思想　为：在有限样本条件下建立判别函数，不考虑样本　的产生模型，直接研究预测模型，统计学习理论是　其代表性理论…。　判别式模型（Ｄｉｓｃｒｉｍｉｎａｔｉｖｅ　ｍｏｄｅｌｓ）　给序列　数据的标注提供了一个方便的方法，它克服了生　成模型的性假设。判别模型直接对条件概率　图２　线性链结构图２　１．２．２　ＣＲＦ汉分词评价指标评价汉分词的性　Ｐ（ＳｌＯ）进行建模，这就是说，在给定观察序列的　条件下，寻找最可能的状态序列的时候，条件分布　能指标主要有以下３个：正确率（Ｐ）、召回率（Ｒ）　和Ｆ—Ｍｅａｓｕｒｅ值。其中，Ｐ指的是分词的准确率；　可以直接使用。由于判别式模型具有寻找不同类　别之间的最优分类面、反映的是异类数据之问的　差异的特点，因此可以融合各种特征到模型当中，　例如语言学特征等，使得它成为一类适合序列标　注的模型。常见的判别模型有最大熵马尔可夫模　型ＭＥＭＭ、最大熵模型ＭＥ、条件随机场模型　ＣＦＲｓ等。　１．２条件随机场分词系统　１．２．１基于ＣＲＦ汉分词流程条件随机场是一　个判别模型，它没有隐马尔可夫模型那样严格的　性假设，同时克服了最大熵马尔可夫模型和　其他非生成的有向图模型（ｎｏｎ．ｇｅｎｅｒａｔｉｖｅ　ｄｉｒｅｃｔｅｄ　ｇｒａｐｈｉｃａｌ　ｍｏｄｅｌｓ）所固有的标记偏置（１ａｂｅｌｂｉａｓ）的　缺点。　设Ｇ＝（Ｖ，Ｅ）是一个无向图，Ｙ＝｛　Ｉ　∈Ｖ｝　是以Ｇ中节点／３为索引的随机变量　构成的集　合。在给定的条件下，如果每个随机变量服从马　尔可夫属性，即Ｐ（　ｌ　，　，ｕ≠　）＝Ｐ（　Ｉ　，　，ｕ一　），则（　，ｌ，）就构成一个条件随机场。　最简单且最常用的是一阶链式结构，即线性　链结构（Ｌｉｎｅａｒ—ｃｈａｉｎ　ＣＲＦｓ），ＣＲＦｓ是在给定需要　标记的观察序列的条件下，计算整个标记序列的　联合概率分布，而不是在给定当前状态条件下，计　算下一个状态的状态分布＿３　Ｊ。结构如图１、图２　所示。　图１　线性链结构图１　Ｒ指的是分词的召回率；Ｆ　Ｍｅａｓｕｒｅ值指的是Ｐ和　Ｒ的综合值　公式表示如下：　正确　）＝　ｘ１００％，　召回率ｃ　Ｒ　＝　×　１００％，　Ｆ－Ｍｅａｓｕｒｅ值：　旦　！　×１００％。　＋　×Ｐ　１．２．３人名识别结果从图３可以看出，随着各　特征模板的逐个引入，模型的测试结果逐步改进。　其中，“模板三”模型结果明显比“模板二”模型的　结果要好，即在增加了“模板三”的情况下，Ｆ—　ｓｅｏｒｅ高出４．４％，由此可见字位置概率特征起到　了较好的效果。而且由于字位置概率特征是完全　从训练语料中提取的，所以在一定程度上提取了　该语料的一些分词规范信息，从而在测试集上进　行测试的时候，在很大程度上能够引用那些从训　练语料中提取的分词规范信息　。　以人名识别为例　ｌ　１　模板一的结果为：　ｌ　Ｐｒｅｃｉｓｉｏｎ：９８．９０５％　Ｒｅｃａｌ１：９１．７８０　４％　Ｆ—ｍｅａｓｕｒｅ：０．９５２　０９６　模板＝的结果为：　Ｐｒｅｃｉｓｉｏｎ：９８．６０９　９％　Ｒｅｃａｌｌ：９２．８　０８５％　Ｆ—ｍｅａｓｕｒｅ：Ｏ．９５６　２ｔ３　模板三的结果为：　Ｐｒｅｃｉｓｉｏｎ：９８．６２２％　Ｒｅｃａｌ１：９３．６　２９７％　Ｆ—ｍｅａｓｕｒｅ：Ｏ．９５７　４４２　图　人名识别结果图　２　系统设计　２．１系统总体设计　本研究基于条件随机场的汉语命名实体识别　总体设计如图４。　第５期　杨克领：基于条件随机场的汉语命名实体识别　‘６７７・　图４基于条件随机场的分词系统的分词流程　２．２规则方法之基于最大概率的分词方法　最大概率分词算法的基本思想是：一个待切　分的汉字串可能包含多种分词结果，将其中概率　最大的那个诈为该字串的分词结果　。设计所　用存储格式——类Ｔｒｉｅ树的形式如图５所示。　图５　汉分词类Ｔｒｉｅ树　２．３正向最大匹配的识别过程　正向最大匹配算法是基于字符串匹配的分词　方法，算法为：从左到右将待分词文本中的几个连　续字符与词表匹配，如果匹配上，则切分出一个　词。但这里有一个问题：要做到最大匹配，并不是　第１次匹配到就可以切分的，所以需要第２次以　及第３次匹配，最大匹配出的词必须保证下一个　扫描不是词表中的词或词的前缀才可以结束。　相对于基于理解和统计的算法来说，正向最　大匹配算法复杂度比较小，技术实现比较容易，仅　需要建立词表即可。但是它对歧义识别比较差，　分词的准确性不高。在实际中不能仅仅简单的使　用正向最大匹配算法，还需要对其进行改进，可以　和逆向匹配算法一起使用，这样可以提高歧义的　识别，使它的准确度更高。　２．４字标注和系统的识别过程　字标注分词，即为将分词过程看作为每个汉　字进行分类的过程，通过对句子中每个汉字进行　标记来切分。根据汉字在词语中出现的不同位置　可以将汉字分为４类，然后利用最大熵模型标记的　方法进行切分。常见的汉字标注分词方法是根据　汉字在词语中出现的不同位置标注不同的标签　。　第１次　第２次　第３次　图６　正向最大匹配的识别过程实例图　例如可以用“Ｏ”表示汉字单独成词，“Ｂ＇＇表示汉　字出现在词头，“Ｍ”表示汉字出现在词的中间，　“Ｅ”表示汉字出现在尾。从而分词问题就被转化　成一个纯粹的序列数据标记问题，可以使用很多　序列标记算法进行分词计算，同时汉字标注分词　方法成为研究分词经常使用的方法。　图７是一个使用字标注的例子，输入句子为　“这是周恩来的故居。”首先为每个汉字设定３个　候选标记“Ｏ”、“Ｂ”、“Ｍ”和“Ｅ”，并在头部增加一　个开始结点“ｓｔａｒｔ”，在尾部增加一个结束结点　“ｅｎｄ”。然后计算每个结点上出现的特征，使用　特征权重计算从“ｓｔａｒｔ”开始到“ｅｎｄ”的所有路径　中概率最大的一条。　图７　汉字标注实例　３　总结　本研究系统进行详细的设计，最后成功地进　行系统实现。虽然功能和细节方面还不是很成　熟，系统本身基本功能可以正常使用。但是由于　设计时间较短，所以其中还存在一些问题，比如系　统的速度与性能的平衡还不够好，关于系统的实　现还未做到完全正确。同时界面的美化还得进一　步细化，系统仍需加以整改和完善。　参考文献：　［１］王继曾，罗恒，刘宽．等．应用条件随机场进行　汉语词法分析研究［Ｊ］．计算机工程与设计，２００７，　２８（２）：４８６—４８８．　・６７８・　江西科学　２０１　３年第３１卷　（上接第６６４页）　５．３开展饮用水源地评估　保护献计献策、贡献力量。　开展饮用水源地评估是完善饮用水水源地保　护工作机制的一个重要内容。开展地表水水源地　参考文献：　评估工作的目的是为了及时全面掌握了解地表水　［１］　朱永文．治理铜冶炼工业砷污染的方法［Ｐ］．中国专　饮用水源环境基础状况和管理状况，实现相关数　年《：２００１１００６５６５３，２００７—０９—１９．　据的动态更新，从而能对在环境保护管理上的薄　［２］　刘西太．杨树清．钢丝热处理中铅污染的防治及其　弱环节及时进行调整，确保饮用水源安全，让人民　发展方向［Ｊ］．金属制品，２０００，２６（２）：ｌＯ—ｌ２．　群众喝上干净水、放心水　Ｊ。　［３］　曹会兰．铅对人类的危害及防治［Ｊ］．化学世界，　５．４加强立法和宣传教育　２００２，（７）：３９１．　继续加强水污染防治和饮用水源保护方面的　［４］黄晓东，张金松，尤作亮，等．广东北江镉污染应急　立法工作，通过法律规定饮用水源的公益性和绝　处理技术与工程实践［Ｊ］．供水技术，２００７，ｌ（２）：２５　—２７．　对优先保护思想。同时要广泛开展环保教育，普　［５］　陈善荣，陈　明．广东省北江韶关段镉污染事件案　及饮用水源保护的相关知识，增强全社会对饮用　例分析［Ｊ］．环境教育，２００８，（１）：４９—５３．　水源保护的忧患意识和责任意识。另外要通过宣　［６］　韩百光，余克庆．含汞仪表厂汞污染对环境的影响　传教育，积极推进企业环境诚信建设，实行环保有　［Ｊ］．环境化学，１９８８，７（６）：８—１６．　奖举报，鼓励检举揭发各种环境违法行为。对涉　［７］Ｔｈｏｍａｓ　Ｈｅｎｔｓｃｈｅｌ，Ｍｉｃｈａｅｌ　Ｐｒｉｅｓｔｅｒ，李珍媛．发展中　及公众环境权益的发展规划、建设项目和重大政　国家小规模金矿开采的混汞法所造成的汞污染及　策，通过听证会、论证会等形式，广泛听取意见，维　其可选用的处理方法［Ｊ］．国外铀金地质，１９９３，１０　护公众的环境知情权、参与权和监督权，形成社会　（４）：３６５—３７０．　公众参与机制。通过有效整合各种社会资源，动　［８］刘亚男．我国饮用水安全的监管制度研究［Ｄ］．北　京：中国大学，２０ｌ０．　员各方面力量，从我做起、从现在做起、从力所能　［９］　上饶市．上饶市关于加强饮用水　及的事情做起，为加强生态环境保护和饮用水源　安全保障工作的意见［Ｎ］．上饶日报，２００７—０２—　２６．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文