基于条件随机场的中文分词算法改进

来源：华佗小知识

第１０卷　第２期　２０１２年４月　信　息　与　电　子　工　程　ＩＮＦ０ＲＭＡＴＩＯＮ　ＡＮＤ　ＥＬＥＣＴＲＯＮＩＣ　ＥＮＧＩＮＥＥＲＩＮＧ　ＶＯ１．１０．ＮＯ．２　Ａｐｒ．，２０１２　文章编号：１６７２．２８９２（２０１２）０２—０１８４—０４　基于条件随机场的中文分词算法改进　顾佼佼　，杨志宏　，姜文志ｈ，胡文萱　（１．海军航空工程学院ａ．兵器科学与技术系；ｂ＿夕ｈ训系，山东烟台２６４００１　２．海军装备部驻武汉地区军事代表局，湖北武汉４３００６４）　摘　要：在中文分词领域，基于字标注的方法得到广泛应用，通过字标注分词问题可转换为　序列标注问题，现在分词效果最好的是基于条件随机场（ＣＲＦｓ）的标注模型。作战命令的分词是进行　作战指令自动生成的基础，在将ＣＲＦｓ模型应用到作战命令分词时，时间和空间复杂度非常高。为　提高效率，对模型进行分析，根据特征选择算法选取特征子集，有效降低分词的时间与空间开销。　利用ＣＲＦｓ置信度对分词结果进行后处理，进一步提高分词精确度。实验结果表明，特征选择算法　及分词后处理方法可提高中文分词识别性能。　关键词：中文分词；条件随机场；特征选择；置信度　中图分类号：ＴＮ９ｌ１．７２；ＴＰ３９１．１　文献标识码：Ａ　Ｉｍｐｒｏｖｅｍｅｎｔ　ｏｎ　ＣＲＦｓ—ｂａｓｅｄ　Ｃｈｉｎｅｓｅ　ｗｏｒｄ　ｓｅｇｍｅｎｔａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ　ＧＵ　Ｊｉａｏ—ｊｉａｏ　，ＹＡＮＧ　Ｚｈｉ—ｈｏｎｇ　，ＪＩＡＮＧ　Ｗｅｎ—ｚｈｉ’　，ＨＵ　Ｗｅｎ－ｘｕａｎ　（１ａ．Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｏｒｄｎａｎｃｅ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ；ｌｂ．Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｆｏｒｅｉｇｎ　Ｔｒａｉｎｉｎｇ，Ｎａｖａｌ　Ａｅｒｏｎａｕｔｉｃａｌ　ａｎｄ　Ａｓｔｒｏｎａｕｔｉｃａｌ　Ｕｎｉｖｅｒｓｉｔｙ　Ｙａｎｔａｉ　Ｓｈａｎｄｏｎｇ　２６４００１，Ｃｈｉｎａ；２．Ｍｉｌｉｔａｒｙ　Ｒｅｐｒｅｓｅｎｔａｔｉｖｅｓ　Ｂｕｒｅａｕ　ｏｆ　ＮＥＤ　ｉｎ　Ｗｕｈａｎ，Ｗｕｈａｎ　Ｈｕｂｅｉ　４３００６４，Ｃｈｉｎａ）　Ａｂｓｔｒａｅｔ：Ｉｎ　Ｃｈｉｎｅｓｅ　ｗｏｒｄ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｆｉｅｌｄｓ，ｔｈｅ　ｍｏｓｔ　ｗｉｄｅｌｙ　ｕｓｅｄ　ｍｅｔｈｏｄ　ｉＳ　ｃｈａｒａｃｔｅｒ－ｂａｓｅｄ　ｔａｇｇｉｎｇ，ｗｈｉｃｈ　ｒｅｆｏｒｍｕｌａｔｅｓ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｔａｓｋ　ｔｏ　ａ　ｓｅｑｕｅｎｃｅ　ｔａｇｇｉｎｇ　ｔａｓｋ．Ｔｈｅ　Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ　（ＣＲＦｓ）ｔａｇｇｅｒ　ｉｓ　ｔｈｅ　ｂｅｓｔ　ｔａｇｇｅｒ　ｗｈｉｃｈ　ｃａｎ　ａｃｈｉｅｖｅ　ｓｔａｔｅ－ｏｆ－ｔｈｅ—ａｒｔ　ｐｅｒｆｏｒｍａｎｃｅ．Ｔｈｅ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｏｆ　ｔｈｅ　ｃｏｍｍａｎｄ　ｏｒｄｅｒｓ　ｉＳ　ｏｎｅ　ｏｆ　ｔｈｅ　ｂａｓｉｃｓ　ｏｆ　ｔｈｅ　ａｕｔｏ—ｇｅｎｅｒａｔｉｏｎ　ｏｆ　ｃｏｍｍａｎｄ　ｏｒｄｅｒｓ．Ｙｅｔ　ｗｈｅｎ　ｕｓｉｎｇ　ｔｈｅ　ｍｏｄｅ１　ｆｏｒ　ｃｏｍｍａｎｄ　ｏｒｄｅｒｓ　ｓｅｇｍｅｎｔａｔｉｏｎ，ｐｒｏｂｌｅｍｓ　ｏｆ　ｂａｄ　ｔｉｍｅ　ａｎｄ　ｓｐａｃｅ　ｅｆｆｉｃｉｅｎｃｙ　ａｒｅ　ｅｎｃｏｕｎｔｅｒｅｄ．Ｔｈｅ　ｍｏｄｅｌ　ｉｓ　ａｎａｌｙｚｅｄ　ａｎｄ　ｆｅａｔｕｒｅ　ｓｕｂｓｅｔｓ　ａｒｅ　ｓｅｌｅｃｔｅｄ　ｂｙ　ｕｓｉｎｇ　ｔｈｅ　ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ　ａｌｇｏｒｉｔｈｍ，ｗｈｉｃｈ　ｃｕｔ　ｔｈｅ　ｏｖｅｒｈｅａｄ　ｏｆ　ｔｉｍｅ　ａｎｄ　ｓｐａｃｅ　ｅｆｆｅｃｔｉｖｅｌｙ　ａｎｄ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｅｆｆｉｃｉｅｎｃｙ　ｏｆ　ｔｈｅ　ｍｏｄｅ１．Ｔｈｅｎ　ａ　ｎｏｖｅｌ　ｐｏｓｔ—ｐｒｏｃｅｓｓ　ｕｓｉｎｇ　ＣＲＦｓ　ｃｏｎｆｉｄｅｎｃｅ　ｉｓ　ｐｒｅｓｅｎｔｅｄ　ｔｏ　ｆｕｒｔｈｅｒ　ｉｍｐｒｏｖｅ　ｐｅｒｆｏｒｍａｎｃｅ．Ｂｙ　ｃｏｍｂｉｎｉｎｇ　ｔｈｅ　ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ　ｍｅｔｈｏｄ　ａｎｄ　ｔｈｅ　ｃｏｎｆｉｄｅｎｃｅ－ｂａｓｅｄ　ｐｏｓｔ－ｐｒｏｃｅｓｓ，ｇｒｅａｔ　ｉｍｐｒｏｖｅｍｅｎｔ　ｉｓ　ａｃｈｉｅｖｅｄ　ａｎｄ　ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ａｒｅ　ｓａｔｉｓｆａｃｔｏｒｙ．　Ｋｅｙ　ｗｏｒｄｓ：Ｃｈｉｎｅｓｅ　ｗｏｒｄ　ｓｅｇｍｅｎｔａｔｉｏｎ；Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ；ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ；ｃｏｎｆｉｄｅｎｃｅ　如今随着信息化技术的迅猛发展，互联网上的信息量呈现指数爆炸的增长趋势，海量文本信息使得文本信息　的挖掘成为迫切需求。与西方语言不同，中文文本中并不存在词的分隔符，故中文分词【ｊ　是中文信息处理的基　本步骤，是自然语言处理的经典问题。近些年来中文分词得到了长足的发展。主流方法有传统的基于规则的　Ｊ　方法和现在流行的基于统计的方法。传统方法如前向最大匹配和反向最大匹配等，基于统计的方法主要有支持向　量机（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ，ＳＶＭ）　Ｊ、隐马尔科夫模型（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ，ＨＭＭ）［６１和条件随机场（Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ，ＣＲＦｓ）　等。基于统计的方法建立在统计推断基础上，可得到比传统方案更高的性能。随着分词　算法的不断改进，各分词方法的性能已经相差无几。目前达到最好分词效果的是基于ＣＲＦｓ的分词模型，但ＣＲＦｓ　的主要问题是其训练效率偏低，模型本身决定了其时间复杂度和空间复杂度非常高，尤其现在新的语料、词汇不　断涌现，预先训练好的模型不能适应开放性语料，模型需要及时更新，高速实时处理的分词系统成为迫切要求。　如何提高其训练效率，使之适应快速变化的环境是实现该模型的一大挑战。　收稿日期：２０１１－０５．２４；修回日期：２０１１－０８．２３　第２期　顾佼佼等：基于条件随机场的中文分词算法改进　１８５　１　基于条件随机场的算法改进　１．１条件随机场模型　ＣＲＦｓ是一种判别式模型，采用的是无向图分布，没有严格的性假设，可以任意选取特征，而且因为采　用全局归一化的方法，避免产生标记偏移问题，所以在中文分词上优于ＨＭＭ和最大熵马尔科夫模型（Ｍａｘｉｍｕｍ　Ｅｎｔｒｏｐｙ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ，ＭＥＭＭ）等模型，取得较好的效果　ｌ，其中链式ＣＲＦｓ在中文分词任务中最常用。在给定　观察序列条件下，标记序列的条件概率为：　ｒ一　一　、　Ｐ（　Ｉ　）∞ｅｘＰＩ　（Ｐ，　ｆ。，　）＋∑１．ｔｋｇ女（Ｖ，ＹＩ　，　）ｌ　（１）　Ｐ∈Ｅ，ｋ　Ｖ∈　，ｋ　／　式中：Ｘ表示需要标注的观察序列集；Ｙ表示相应的标注序列集；在一阶链式结构的图Ｇ＝（Ｖ，Ｅ）中，Ｖ代表图中　的节点集，　表示图中的边，最大团仅包含相邻的２个节点，即图Ｇ的边。对１个最大团中的无向边Ｐ＝（　．．，　），　（Ｐ，Ｙ　ｆ　，　）为状态转移特征函数；ｇｋ（ｖ，　Ｊ　，Ｘ）为状态特征函数；　和　是由训练样本得到的特征权重；ｋ为特征　函数编号；ｖ为　中的节点。计算特征权重函数采用极大似然估计方法。ＣＲＦｓ指数模型为凸函数，可采用迭代　方法找到全局最优解。目前常用的是有限记忆ＢＦＧＳ（Ｌｉｍｉｔｅｄ　ｍｅｍｏｒｙ　Ｂｒｏｙｄｅｎ，Ｆｌｅｔｃｈｅｒ，Ｇｏｌｄｆａｒｂ，Ｓｈａｎｎｏ，Ｌ．ＢＦＧＳ１　迭代方法。　１．２标注集　引入标注集可把分词问题转化成序列标注问题，对于１个句子中的每个字给出相应的标签，等效地就知道了　分词结果。ＬＲＭＳ体系是一种常见的标注方法，每个字依据其在词中出现的位置给予不同标签，句子中的每个位　置被标注为ＬＲＭＳ　４个不同的标签之一。Ｌ（１ｅｆｔ）代表词的左边界，Ｒ（ｒｉｇｈｔ）代表词的右边界，Ｍ（ｍｉｄｄｌｅ）代表词的　中间部分，Ｓ（ｓｉｎｇｌｅ）代表单字成词。经过标注，分词问题就转化为序列标注问题。例如：　位于／ＸＸ／海域／活动／的／潜艇／。　Ｌ　Ｒ　Ｌ　Ｒ　Ｌ　Ｒ　Ｌ　Ｒ　Ｓ　Ｌ　Ｒ　Ｓ　标注ＬＲＭＳ　４个标签之一也等价于分类问题，可引入特征选择方法来评价特征，从而选取最有效特征来提升　效率。　１．３中文分词中模型使用的特征　中文分词常用特征分为ｕｎｉｇｒａｍ特征及ｂｉｇｒａｍ特征２类，用特征模　表１　ＰＫＵ０５上不同种类特征的分词结果　板表示，见表１第１列，其中ＵＯ０和ＵＯ１是特征序号，％ｘ【０，０］指的是　６ｌｅｌ　Ｒｅｓｕｌｔｓ　ｆｏｒ　ｄｉｆｆｅｒｅｎｔ　ｆｅａｔｕｒｅｓ　ｏｎ　ＰＫＵ０５　ｆｅａｔｕｒｅ　ｔｅｍｐｌａｔｅ　Ｆ１　ｖａｌｕｅ　当前字（ｕｎｉｇｒａｍ），％ｘ【１，０］指下１个字（ｕｎｉｇｒａｍ），％ｘ［＿１，Ｏ］／％ｘ［Ｏ，０］指的　ＵＯ０：％ｘ［－２．０１　０．６６２　是前１个字和当前字组成的二元组（ｂｉｇｒａｍ）。特征模板每１行代表一类　Ｕ０１：％Ｘ卜１，０１　０．７４３　Ｕ０２：％ｘ［Ｏ．０１　０．８４２　特征。观察位置遍历整个句子时即可产生这句话的所有特征，这些特征　ＵＯ３：％ｘ［１．０１　０．７６０　ＵＯ４：％ｘ［２．０１　０　６６７　中所包含的信息量是不同的，像（“艇。”，ｓ）对分词的贡献就较小，因为　ｕＯ５：％ｘ卜２，Ｏ］／％ｘ卜ｌ，Ｏ】　０－８　ｌ６　“ＵＯ６：％ｘ［一１，ｏ］／％ｘ［Ｏ，０】　Ｏ．９３３　。”大多数情况下都是作为单字词ｓ，无用特征会导致特征空间膨胀。　ＵＯ７：％ｘ［Ｏ，Ｏｌ／％ｘ［１，Ｏｌ　０．９３５　本文分别对各个模板所产生的特征进行分词试验，结果见表ｌ。可　ＵＯ８：％ｘ［１，０］／％ｘ［２，０】　Ｏ　８３　Ｉ　Ｕ０９：％ｘ［一１，Ｏｌ／％ｘ［１，０】０　８５１　以看出，ｕｎｉｇｒａｍ特征中最有效的是Ｕ０２，也就是待分类的位置上的字　ＵＩＯ：％ｘ［Ｏ．１］　０　５４４　Ｕ０２＋ＵＯ６　０．９５　１　本身，二元组特征中最有效的是Ｕ０６和Ｕ０７，是该位置向前１个字形成　ａｌ１　ｆｅａｔｕｒｅｓ　０．９６３　Ｕ０１＋Ｕ０２＋Ｕ０３＋Ｕ０６＋Ｕ０７＋Ｕ０９　０．９６５　的二元组和向后１个字形成的二元组。ＵＯ２＋Ｕ０６组成的特征模板所能达　到的性能和全部特征模板所能达到的性能相差无几，但特征数量却差好几个数量级。可见不同的特征对分词的贡　献是不同的。只有少部分特征起到了重要作用，一部分特征甚至有不利影响，而且特征多会导致训练时间及空间　呈指数关系增长。　１．４特征选择算法　由此本文引入特征选择算法来优化特征区间，此处特征选择　］是指选出分词能力强的特征组合。试验证明冗　余的特征会对效果产生干扰，此处根据标准选出缩减的特征子集使得分词任务达到和特征选择前近似甚至更好的　效果。通过选择算法删除无关或冗余的干扰特征，降低训练复杂性，简化的数据集会得到更精确的模型。常用的　特征选择算法包括分支定界法、聚类算法等。在文本分类领域【　１，　是比较常用的特征选择算法之一，在多　个数据集上有较好的分类效果。此处引用此算法，衡量特征单元ｔ和类别ｃ的程度，如果１个特征和某个类　１　８６　信息与电子工程　第１０卷　别非常相关，那么该特征在分词过程中的贡献比较大。　算法流程为：首先使用之前选定的特征模板产生特征全集，接着对全集中的每个特征，针对每个类别计算特　征选择算子，这样对于每个特征ｔ可计算出其与任意一个类别的关系权重，根据Ｃｈｉｍ　算法要求，计算方式如下：￣　ｆｚｆｆ’ｃ１：　！　二　．　（２）　（　＋Ｃ）（　＋Ｄ）（　＋　）（Ｃ’＋Ｄ）　式中：Ａ为该特征指向特定类别的次数；　为该特征指向其他类别的次数；Ｃ为特定类别中该特征没有出现的次　数；Ｄ为其他类别中不出现该特征的次数；Ｎ为以上４个变量的总和。针对每个特征单元可计算出其与所有类别　的关系度，选取其最大值代表该特征单元的重要程度：　Ｃｈｉｔｎ　ｉ（，）＝ｍ．ａｘＣｈｉ　（，，　）　（３）　式中：ｍ为类别数。　在用ＰＫＵ０５数据集训练出１个模型后，本文计算了所有特征　的Ｃｈｉｍ￣　，并按照这个值进行排序，统计发现只有很少一部分特征　具有较大的　，大部分的都很小。为了验证特征的有效性，选　表２　ＰＫＵ０５不同特征数量下的性能　Ｔｌａｈｌｅ２　Ｐｅｒｆｏｒｍａｎｃｅｓ　ｗｉｔｈ　ｄｉｆｉｅｒｅｎｔ　ｆｅａｔｕｒｅｓ　ｏｎ　ＰＫＵ０５　Ｎｏ．ｏｆｆｅａｔｕｒｅｓ　５００　０００　１　０００　０００　２　０００　０００　３　０００　０００　４　０００　０００　５　５０４　７３２　Ｆ．１　０．９３３　Ｏ．９５ｌ　０．９６４　０　９６５　０．９６３　取具有较大ＣｈｉｍＺ　的特征进行实验，全部特征都生成共有５　５０４　７３２　维，见表２。由此可知特征选择算法是有效的，只需使用３　０００　０００　维即可达到最高分词性能，只用了原有特征集合的一半，很大程　０　９６３　度上降低了算法的时间复杂度和空间复杂度。当维数再取高时性　能反而下降了，这说明增加的这些特征起到了干扰作用。使用特征选择算法可以在不损失分词性能的前提下提高　分词的效率。　１．５基于置信度的分词后处理　为进一步提高准确率¨　，本文引入ＣＲＦｓ置信度（ＣＲＦｓ　ｃｏｎｆｉｄｅｎｃｅ）来对模型的分词结果进行后处理，对于　ＣＲＦｓ给出的每个切分，可以计算置信度Ｉ】　。置信度本质是１个边缘概率，指对１个特定位置的切分的可能性。　首先通过标准的前向一后向算法计算得到整个序列的似然度，再通过受限的前向一后向算法算出指定切分时整个　序列的似然度，二者比值即为该切分的置信度。　通过在ＰＫＵ０５上进行统计发现，ＣＲＦｓ置信度和切分错误率呈反相关，即低置信度区间中出现切分错误的可　能性更大。这样只需对置信度低于设定阈值的片段进行处理，即可对分词错误进行有效修正。　后处理流程为：首先用ＣＲＦｓ切分得到置信度，然后按照设定的阈值，筛选出低置信候选片段，根据片段长　度的不同将其分类处理：　ａ）长度为２个字的低置信片段：这种类型的错误，一是可能将二字词错切为２个单字，二是可能将２个单　字合并成１个词。在训练集词表中搜索，若训练集中有该二字词，则将其合并为二字词；若没有该二字词则将其　标注为错划的二元组；　ｂ）长度为３个字的低置信片段：直接用词表重新切分处理，若结果与原切分结果不同，则进行修正，否则　保留原分词结果；　ｃ）长度为４个及４个字以上的低置信片段：只有在词表中有整个片段的成词时，才对之前的结果进行修复。　２　实验　实验采用Ｂａｋｅｏｆｆ２００５的ＰＫＵ　一　语料库，抽取７０％作为训练集，３０％　作为测试集，后处理词表为Ｂａｋｅｏｆｆ　２００５中ＰＫＵ训练集的词表。实验采　嚼一一　一二二二二二二二二二二二　　Ｌｋ　Ｉ　、　上　一　一西ｔｈ。　ｆ　ｙ　用ＣＲＦ＋＋工具包，标注集使用ＬＭＲＳ，　！：　竺！ｏｆ　竺竺Ｈ竺竺＿ｊ　特征选用Ｃｈｉｎｉｔ　排序后的前一半，在　取低置信区间时设定ＣＲＦｓ置信度　阂值为７０％，这个阈值是多次实验得　出的可获得最大分词性能的阈值。　｛。ｋｃｏｎⅢｉｆ　ｍｄｅｎｃｅ。Ｈ　　ｗｉ’１　ｔｈ　ＲＣ　ｍＦ。ｓ　ｃｐｏｅｒｅｆｏｆｅｒｍａｅｎｎｃｃｅ　ｃ。Ｈ　ｊＩ　ｏｕｒｅｄｆｇｅｅｒ　ｅｔｈｎｃｅ　ｅｌ　ｏａｗｒｅａ　Ｈ　１【ｐ………～１ｏｓ【．ｐｒ０ｃｅ　Ｈ　ｒ’………　ｄ¨ｓｃ　｝　Ｆｉｇ．１　Ｆｌｏｗ　ｃｈａｒｔ　ｏｆ　ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔ　图１实验流程冈　１¨　｛＝＝－　１｛１；１｛Ｕ　　第２期　顾佼佼等：基于条件随机场的中文分词算法改进　表３后处理算法与原算法性能比较　１８７　实验流程见图１。表３比较了经特征优化并后处理前后的　分词效率。实验证明后处理算法可以有效提高分词的正确　率，分词的召回率和准确率同时得到提升。　Ｔａｂ１ｅ３Ｐｅｒｆｏｒｍａｎｃｅｓ　ｗｉｔｈｏｕｔ　ａｎｄ　ｗｉｔｈ　ｔｈｅ　ｐｏｓｔ－ｐｒｏｃｅｓｓ　ｐｒｏｇｒｅ　３　结论　本文针对当前分词算法中存在的问题，分析各种特征，通过特征选择算法选取分词能力强的特征，构造有效　的特征子空间，有效降低分词的时间与空间开销。然后利用ＣＲＦｓ模型的置信度，对分词结果进行后处理，进一　步提高了分词精确度。实验证明该改进可以有效提高分词正确率，同时节省时间，分词性能得到综合提升。后期　将在作战命令分词中进行该算法的实际应用。　参考文献：　姜文志，蒋伟俊，范洪达．汉语分词技术在信息＿＿［程中的应用Ⅲ．信息与电子Ｔ程，２００７，５（５）：３８５—３８７．　周文帅，冯速．汉语分词技术研究现状与应用展望川．山西师范大学学报（自然科学版），２００６，２０（１）：２５—２９．　黄昌宁，赵海．中文分词十年回顾【ＪＪ．中文信息学报，２００７，２１（３）：８—１９．　岳中原．词典与统计相结合的中文分词的研究［Ｄ］．武汉：武汉理丁大学，２０１０：２３—３６．　崔和，龙玉峰．支持向量机学习算法的研究现状与展望『ＪＪ．信息与电子＿１二程，２００８，６ｆ５）：３２８—３３２．　刘群．汉英机器翻译若干关键技术研究［Ｍ　Ｊ．北京：清华大学出版社，２００８．　Ｃｈａｒｌｅｓ　Ｓｕｔｔｏｎ，Ａｎｄｒｅｗ　ＭｃＣａｌｌｕｍ．Ａｎ　Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ［Ｒ］．Ｆｏｕｎｄａｔｉｏｎｓ　ａｎｄ　Ｔｒｅｎｄｓ　ｉｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ．２０　１　Ｏ：１　８－２６．　韩雪冬．基于ＣＲＦｓ的中文分词算法研究与实现［Ｄ１．北京：北京邮电大学，２０１０：１４—２４．　吕峰，高春林．支持向量机在皮肤症状图像识别中的应用研究『Ｊ］．计算机仿真，２０１０，２７（１１）：２６７—２６９，３６２．　巩知乐，张德贤，胡明明．一种改进的支持向量机的文本分类算法ｌＪＪ．计算机仿真，２００９，２６ｆ７）：１６４—１６７．　李丽双，黄德根，陈春荣，等．ＳＶＭ与规则相结合的中文地名自动识别Ⅲ．中文信息学报，２００６，２０（５）：５１—５７．　Ｊｏｈｎ　Ｄ　Ｌａｆｆｅｒｔｙ，Ａｎｄｒｅｗ　ＭｃＣａｌｌｕｍ，Ｆｅｒｎａｎｄｏ　Ｃ　Ｎ　Ｐｅｒｅｉｒａ．Ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎｄｏｍ　ｆｉｅｌｄｓ：ｐｒｏｂａｂｉｌｉｓｔｉｃ　ｍｏｄｅｌｓ　ｆｏｒ　ｓｅｇｍｅｎｔｉｎｇ　ａｎｄ　ｌａｂｅｌｉｎｇ　ｓｅｑｕｅｎｃｅ　ｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＩＣＭＬ一２００１．Ｓａｎ　Ｆｒａｎｃｉｓｃｏ，ＣＡ，ＵＳＡ：Ｍｏｒｇａｎ　Ｋａｕｆｍａｎｎ　Ｐｕｂｌｉｓｈｅｒｓ　Ｉｎｃ．　２００１．２８２－２８９．　作者简介：　顾佼佼（１９８６一），男，山东省青岛市人，在　杨志宏（１９８０一），男，湖南省益阳市人，本科，　工程师，主要研究领域为导弹发射．　姜文志（１９６４一），男，山东省莱州市人，博士　读硕士研究生，主要研究领域为武器装备信息　化．ｅｍａｉｌ：ｖｘｇｕ８６＠ｈｏｔｍａｉｌ．ｔｏｍ．　生导师，主要研究领域为计算机科学与技术及其　现代化．　胡文萱ｆ１９８６一），女，山东省烟台市人，本科　主要研究领域为汉英翻译．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文