您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页基于条件随机场的汉语命名实体识别

基于条件随机场的汉语命名实体识别

来源:华佗小知识
第3l卷第5期 江 西 科 学 Vo1.3l No.5 2013年l0月 JIANGXI SCIENCE OcL 201 3 文章编号:1001—3679(2013)05—0675—04 基于条件随机场的汉语命名实体识别 杨 克 领 (商丘师范学院计算机与信息技术学院,河南商丘476000) 摘要:以系统的开发技术和方法以及相关背景知识,对系统进行详细的设计并给出了最大概率的分词方法,辩 析了正向最大匹配的识别过程及正向最大匹配的识别过程,成功地应用条件随机场实现了汉语命名实体识 别,从而证明该研究方法的有效性。 关键词:可视化工作室2008;条件随机场;汉语分词;命名实体识别 中图分类号:TP391.1 文献标识码:A Chinese Named Entity Recognition Based on CRF YANG Ke—ling (Computer and Information Institute of Technology of Shangqiu Normal College,Henan Shangqiu 476000) Abstract:With the systematical development technology and the method and relevant background knowledge,we designed the system in detail and gived the maximum probability of word segmentation method,analysed the positive maximum matching of identiifcation process and the positive recogni— tion of maximum matching process,and we have been successfully used conditional random fields has realized Chinese word segmentation,and proved the effectiveness of the proposed methods. Key words:Visual Studio 2008,Conditional random fields,Chinese word segmentation,Named entity recognition 0引言 重大。 在计算机技术、[nternet技术迅猛发展形式推 1 基于条件随机场的汉语命名实体 动下,中国的信息产业迅猛发展。各种数字图书 识别 馆以及电子出版物等电子文档信息呈现在人们面 1.1条件随机场 前,作为一项重要的计算机应用技术,以非受限文 1.1.1 产生式模型 产生式模型主要是对后验 本为主要对象的汉语自然语言处理研究的重要性 概率建模,从统计的角度表示数据的分布情况,能 日益显著。汉语信息处理技术是我国高新技术发 够反映同类数据本身的相似度。由于产生式模型 展的重点,实现自然语言与计算机通信,不仅具有 方法可以在联合分布空间插入变量、不变量、 较强的理论作用也具有重要的实践作用。命名实 性、先验分布等关系的知识,所以在联合分布范围 体识别是信息处理的首要任务,进行命名实体识 内,通用性是其本质。 别的研究,对自然语言处理和汉语信息处理意义 1.1.2判别式模型 构建0和S的条件分布P 收稿日期:2013—07—18;修订日期:2013—08—28 作者简介:杨克领(1971一),男,河南宜阳人,大学本科,实验师,主要从事计算机机房管理工作。 基金项目:河南省科技厅基础与前沿类项目(132300410200)。 ・676・ 江西科学 2013年第3l卷 (SIO),因为没有S的知识,无法生成样本,只能 判断分类,这就是判别式模型。该模型基本思想 为:在有限样本条件下建立判别函数,不考虑样本 的产生模型,直接研究预测模型,统计学习理论是 其代表性理论…。 判别式模型(Discriminative models) 给序列 数据的标注提供了一个方便的方法,它克服了生 成模型的性假设。判别模型直接对条件概率 图2 线性链结构图2 1.2.2 CRF汉分词评价指标评价汉分词的性 P(SlO)进行建模,这就是说,在给定观察序列的 条件下,寻找最可能的状态序列的时候,条件分布 能指标主要有以下3个:正确率(P)、召回率(R) 和F—Measure值。其中,P指的是分词的准确率; 可以直接使用。由于判别式模型具有寻找不同类 别之间的最优分类面、反映的是异类数据之问的 差异的特点,因此可以融合各种特征到模型当中, 例如语言学特征等,使得它成为一类适合序列标 注的模型。常见的判别模型有最大熵马尔可夫模 型MEMM、最大熵模型ME、条件随机场模型 CFRs等。 1.2条件随机场分词系统 1.2.1基于CRF汉分词流程条件随机场是一 个判别模型,它没有隐马尔可夫模型那样严格的 性假设,同时克服了最大熵马尔可夫模型和 其他非生成的有向图模型(non.generative directed graphical models)所固有的标记偏置(1abelbias)的 缺点。 设G=(V,E)是一个无向图,Y={ I ∈V} 是以G中节点/3为索引的随机变量 构成的集 合。在给定的条件下,如果每个随机变量服从马 尔可夫属性,即P( l , ,u≠ )=P( I , ,u一 ),则( ,l,)就构成一个条件随机场。 最简单且最常用的是一阶链式结构,即线性 链结构(Linear—chain CRFs),CRFs是在给定需要 标记的观察序列的条件下,计算整个标记序列的 联合概率分布,而不是在给定当前状态条件下,计 算下一个状态的状态分布_3 J。结构如图1、图2 所示。 图1 线性链结构图1 R指的是分词的召回率;F Measure值指的是P和 R的综合值 公式表示如下: 正确 )= x100%, 召回率c R = × 100%, F-Measure值: 旦 ! ×100%。 + ×P 1.2.3人名识别结果从图3可以看出,随着各 特征模板的逐个引入,模型的测试结果逐步改进。 其中,“模板三”模型结果明显比“模板二”模型的 结果要好,即在增加了“模板三”的情况下,F— seore高出4.4%,由此可见字位置概率特征起到 了较好的效果。而且由于字位置概率特征是完全 从训练语料中提取的,所以在一定程度上提取了 该语料的一些分词规范信息,从而在测试集上进 行测试的时候,在很大程度上能够引用那些从训 练语料中提取的分词规范信息 。 以人名识别为例 l 1 模板一的结果为: l Precision:98.905% Recal1:91.780 4% F—measure:0.952 096 模板=的结果为: Precision:98.609 9% Recall:92.8 085% F—measure:O.956 2t3 模板三的结果为: Precision:98.622% Recal1:93.6 297% F—measure:O.957 442 图 人名识别结果图 2 系统设计 2.1系统总体设计 本研究基于条件随机场的汉语命名实体识别 总体设计如图4。 第5期 杨克领:基于条件随机场的汉语命名实体识别 ‘677・ 图4基于条件随机场的分词系统的分词流程 2.2规则方法之基于最大概率的分词方法 最大概率分词算法的基本思想是:一个待切 分的汉字串可能包含多种分词结果,将其中概率 最大的那个诈为该字串的分词结果 。设计所 用存储格式——类Trie树的形式如图5所示。 图5 汉分词类Trie树 2.3正向最大匹配的识别过程 正向最大匹配算法是基于字符串匹配的分词 方法,算法为:从左到右将待分词文本中的几个连 续字符与词表匹配,如果匹配上,则切分出一个 词。但这里有一个问题:要做到最大匹配,并不是 第1次匹配到就可以切分的,所以需要第2次以 及第3次匹配,最大匹配出的词必须保证下一个 扫描不是词表中的词或词的前缀才可以结束。 相对于基于理解和统计的算法来说,正向最 大匹配算法复杂度比较小,技术实现比较容易,仅 需要建立词表即可。但是它对歧义识别比较差, 分词的准确性不高。在实际中不能仅仅简单的使 用正向最大匹配算法,还需要对其进行改进,可以 和逆向匹配算法一起使用,这样可以提高歧义的 识别,使它的准确度更高。 2.4字标注和系统的识别过程 字标注分词,即为将分词过程看作为每个汉 字进行分类的过程,通过对句子中每个汉字进行 标记来切分。根据汉字在词语中出现的不同位置 可以将汉字分为4类,然后利用最大熵模型标记的 方法进行切分。常见的汉字标注分词方法是根据 汉字在词语中出现的不同位置标注不同的标签 。 第1次 第2次 第3次 图6 正向最大匹配的识别过程实例图 例如可以用“O”表示汉字单独成词,“B''表示汉 字出现在词头,“M”表示汉字出现在词的中间, “E”表示汉字出现在尾。从而分词问题就被转化 成一个纯粹的序列数据标记问题,可以使用很多 序列标记算法进行分词计算,同时汉字标注分词 方法成为研究分词经常使用的方法。 图7是一个使用字标注的例子,输入句子为 “这是周恩来的故居。”首先为每个汉字设定3个 候选标记“O”、“B”、“M”和“E”,并在头部增加一 个开始结点“start”,在尾部增加一个结束结点 “end”。然后计算每个结点上出现的特征,使用 特征权重计算从“start”开始到“end”的所有路径 中概率最大的一条。 图7 汉字标注实例 3 总结 本研究系统进行详细的设计,最后成功地进 行系统实现。虽然功能和细节方面还不是很成 熟,系统本身基本功能可以正常使用。但是由于 设计时间较短,所以其中还存在一些问题,比如系 统的速度与性能的平衡还不够好,关于系统的实 现还未做到完全正确。同时界面的美化还得进一 步细化,系统仍需加以整改和完善。 参考文献: [1]王继曾,罗恒,刘宽.等.应用条件随机场进行 汉语词法分析研究[J].计算机工程与设计,2007, 28(2):486—488. ・678・ 江西科学 201 3年第31卷 (上接第664页) 5.3开展饮用水源地评估 保护献计献策、贡献力量。 开展饮用水源地评估是完善饮用水水源地保 护工作机制的一个重要内容。开展地表水水源地 参考文献: 评估工作的目的是为了及时全面掌握了解地表水 [1] 朱永文.治理铜冶炼工业砷污染的方法[P].中国专 饮用水源环境基础状况和管理状况,实现相关数 年《:200110065653,2007—09—19. 据的动态更新,从而能对在环境保护管理上的薄 [2] 刘西太.杨树清.钢丝热处理中铅污染的防治及其 弱环节及时进行调整,确保饮用水源安全,让人民 发展方向[J].金属制品,2000,26(2):lO—l2. 群众喝上干净水、放心水 J。 [3] 曹会兰.铅对人类的危害及防治[J].化学世界, 5.4加强立法和宣传教育 2002,(7):391. 继续加强水污染防治和饮用水源保护方面的 [4]黄晓东,张金松,尤作亮,等.广东北江镉污染应急 立法工作,通过法律规定饮用水源的公益性和绝 处理技术与工程实践[J].供水技术,2007,l(2):25 —27. 对优先保护思想。同时要广泛开展环保教育,普 [5] 陈善荣,陈 明.广东省北江韶关段镉污染事件案 及饮用水源保护的相关知识,增强全社会对饮用 例分析[J].环境教育,2008,(1):49—53. 水源保护的忧患意识和责任意识。另外要通过宣 [6] 韩百光,余克庆.含汞仪表厂汞污染对环境的影响 传教育,积极推进企业环境诚信建设,实行环保有 [J].环境化学,1988,7(6):8—16. 奖举报,鼓励检举揭发各种环境违法行为。对涉 [7]Thomas Hentschel,Michael Priester,李珍媛.发展中 及公众环境权益的发展规划、建设项目和重大政 国家小规模金矿开采的混汞法所造成的汞污染及 策,通过听证会、论证会等形式,广泛听取意见,维 其可选用的处理方法[J].国外铀金地质,1993,10 护公众的环境知情权、参与权和监督权,形成社会 (4):365—370. 公众参与机制。通过有效整合各种社会资源,动 [8]刘亚男.我国饮用水安全的监管制度研究[D].北 京:中国大学,20l0. 员各方面力量,从我做起、从现在做起、从力所能 [9] 上饶市.上饶市关于加强饮用水 及的事情做起,为加强生态环境保护和饮用水源 安全保障工作的意见[N].上饶日报,2007—02— 26. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务