您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页主成分分析-支持向量机用于肝病分类模型

主成分分析-支持向量机用于肝病分类模型

来源:华佗小知识
维普资讯 http://www.cqvip.com

第20卷第2期 2008年2月 化学研究与应用 Chemical Research and Application Vo1.20.NO.2 Feb.,2008 文章编号:1004—1656(2008)02—0113-04 主成分分析一支持向量机用于肝病分类模型 张云佳 ,方亚平 ,黄田海 ,张 婧 ,谭福元 ,孙李娜 ,李梦龙 (1.四川大学化学学院,四川成都610064;2.第三二四医院检验科,重庆400020) 摘要:将主成分分析(PCA)用于肝功能检测数据特征提取,然后用支持向量机(SVM)对乙肝、丙肝、肝硬化、 正常人样本建立分类模型。采用高斯径向基函数(RBF)为核函数,调节核函数参数c及or以建立最佳支持 向量机模型。该模型对训练集的识别率为99.3%,对预测集的预测率为96.4%。结果表明:PCA—SVM法建 立的肝病分类模型能较好的区分乙肝、丙肝、肝硬化及正常人,且分类效果优于传统支持向量机及人工神经 网络(ANN)分类模型。 关键词:肝功能指标;主成分分析;支持向量机;人工神经网络 中图分类号:0657 文献标识码:A 肝炎是肝脏的一种常见疾病,流行较广,临床 上常用于肝功能检测的指标包括谷丙转氨酶 (ALT)、谷草转氨酶(AST)、总蛋白(TP)、白蛋白 第三二四医院所收治经临床确诊的病人, 包括183例乙肝(Hepatitis B virus,HBV)大三阳 (HBsAg、HBeAg、HBcAb阳性)、115例乙肝小三阳 (HBsAg、HBeAb、HBcAb阳性)、28例丙型 (Hepatitis C vius,HCV)肝炎、200例肝硬化 r(ALB)、总胆红素(TBIL)、直接胆红素(DBIL)、碱 性磷酸酶(ALP)、谷酰转肽酶(GGT)。在此基础 上,临床医生还要结合患者临床的症状和体征,与 其他检测手段相结合,从而对病情做出全面而正 确的评价。 目前,已有通过判别分析,模糊模式识别,逐 步回归等方法对临床肝功能指标进行研究的报 (Hepatocirrhosis),以及75例健康人。 对样本进行的临床肝功能检测项目为谷丙转 氨酶(ALT)、谷草转氨酶(AST)、总蛋白(TP)、白 蛋白(ALB)、总胆红素(TBIL)、直接胆红素 (DBIL)、碱性磷酸酶(ALP)、谷酰转肽酶(GGT)。 检测仪器为奥林巴斯全自动生化分析仪 道¨ 。支持向量机(Support vector machine, SVM)是建立在统计学习理论(Statistical learning theory,SLT)基础上的一种机器学习算法,具有无 局部最小点、预测可靠性高且泛化能力强的特 点 J。本文将主成分分析与支持向量机法结合, 用于上述肝功能指标对肝炎、肝硬化的分类识别, AU2700(日本产),肝功能指标数据用matlab7.0 软件进行编程及计算。数据统计结果(均值)见 表1。 1.2主成分分析 主成分分析法从可观测的变量中提取信息, 组成不可直接观测的隐含变量。它采用的主要原 则是使方差最大,尽可能多的保留原变量所包含 为医生对病人进行病情分析提供参考。 1数据收集与方法原理 1.1肝功能指标数据的收集 的信息,同时又用尽可能少的主成分替代原有变 量,从而使问题变得简单 。 样本为2005年l0月~2007年1月间重庆市 收稿日期:2007-09・10;修回日期:2007一II-23 基金项目:国家自然科学基金(29877016)资助项目 联系人简介:李梦龙(1962一),男,博士,教授,主要从事化学计量学研究。Email:liml@SCU.edu.CI1 维普资讯 http://www.cqvip.com

114 化学研究与应用 表1 乙肝、丙肝、肝硬化及正常人的检测结果 Table.1 The detected result of patients with HBV,HCV,hepatocirrhosis,and the norma1 第20卷 l-me ̄+ .丛 HBeAb+ 38(14—76)82:33 HepatocitMaoais 42(25—77) 25:3 Normal 36(18—48) 55:15 Age 34(13—68) 121:62 51(27~82) 152:48 sex(1llell:women) AI.T(U/L) AST(U/L) 120.I(23.0—891.O)48.2(5.0—412.O)91.2(11.0—421.O)62.O(15.0—495.0)19.5(6.0—152.0) 75.7(16.0—670.O)44.4(13.0—344.O)70.1(16.0—252.O)93.O(15.0—975.0) 22.0(7.0—65.0) 75.2(61 0—102.6)74.3(56.o-91.9) 74.2(58.6—91.O)64.6(38.8—93.8)77.O(59.9—137.5) 45.3(28.1—63.6)45.4(24.0—55.7)40.5(25.9—51.O)31.9(15.7—48.6)46.3(22.8—68.6) 21.4(6.3—47.4) 17.8(5.9—33.1)45.6(5.9—66.7) 50.4(7.8~221.0) 9.8(4.4—30.5) 、 砥’(g/L) ALB(g/L) TmL(umol/L) 6 7(I.6—23.7) 7.6(I.7一10.9) 24.7(I.3一III.4)25.O(I.2-266.O)4.I(0.6—8.4) DBIL(umol/L)  ALP(U/L) 96.0(29.0—340.0)82.5(14.0—270.O)82.3(42.0—150.0)148.0(42.0-532.0)74.0(41.0—131.0)40.4(8.0—129.0)36.1(7.0—181.O) 65.2(8.0—212.0)84.0(6.o~387.0) 26.8(8.o-68,O) GGT lWL) 1.3支持向量机 支持向量机是建立在统计学习理论 (Statistical learning theory,SLT)基础上的一种机 110例为预测集。 数据集中1至245为乙肝(1至155为乙肝大三 阳,156至245为乙肝小三阳),246至266为丙肝,267 至431为肝硬化,32至491为对照组的正常人。4 器学习算法。支持向量机是从线性可分情况下的 最优分类面发展而来的,所谓最优分类超平面就 由于数据之间差异较大,在主成分分析前对  是要求分类筒不但能将两类正确分开(训练错误 其进行标准化处理。标准化后的数据通过主成分分析,得出主成 率为0),而且使分类间隔最大。前者保证经验风 052、1.591、 险最小(为0),而后者实际上就是使推广性的界 分的特征根,由大到小依次为:3.中的置信范围最小,从而使得真实风险最小。距 1.483、0.962、0.504、0.239、0.151、0.019。分别计  离最优分类超平面最近的向量称为支持向量【8】。 算出每个特征根的贡献率为:38.143、19.8912。991、1.884、0.232。前四 本文采用的核函数是高斯径向基核函数(Radical 18.536、12.020、6.302、个方差累计贡献率为88.590%以上。由于方差贡 basis function iRBF): 献率在80%以上就已经能表征原始变量所能提供 1.4、人工神经网络 所以只需选择前四个主成分就 ^工神经网络(Artiifcial neural network,ANN)是 的绝大部分信息,种基于模仿人体神经系统结构和功能而建立的信 已经足够。这四个特征根对应的特征向量见表2 息分析处理系统,在医学数据处理E应用较广 。本 将这四个特征向量与原始数据相乘即得精简后的  文采用的BP神经网络分为三层,输入层、隐含层和 数据集。表2 4个特征根所对应的特征向量 输出层。将肝功能指标作为输入层的结点,类别数作 Table.2 EigelIvectors ofthe above four eigenvalues 为输出层神经元数。训练样本从输入层经隐含层向 PC1 PC2 pC3 Pc4 前传播到输出层,得到输出结果。如果输出结果不能 0.321 0.593 O.266 0.0Q5 0.371 0.522 0.047 0.233 达到期望值,那么网络转入反向传播过程,将误差信 0.240 0.408 0.O69 0.734 号沿原来的连接通路返回,通过修改各层神经元的权 0.364 0.42l 0.086 0.182 0.45l 0.1O7 0.379 值和阈值,逐次地向输入层传播进行计算,再经正向 0 338 0.446 0.088 0.403 0.317 传播过程,这两个过程的反复运用,直到达到预期精 0.239 0.097 0.680 0.185 度,网络训练结束。 0.332 0.064 0.466 0.23l _  。——一—————一—————————2结果与讨论 2.1 PCA对数据预处理 将样本分为两部分,训练集和预测集。随机 2.2 SVM的参数选择及预测 选择乙肝245例(大三阳155例、小三阳90例)、 丙肝2l例、肝硬化165例、正常人60例,总计491 例为训练集。乙肝53例(大三阳28例、小三阳25 例)、丙肝7例、肝硬化35例、正常人l5例,总计 将乙肝大三阳和小三阳样本合并为乙肝类, 与丙肝、肝硬化、正常人共四类进行训练。训练前 首先进行参数优化。SVM参数主要包括惩罚因子 C和核函数宽度s。在确定C以及s时,根据模型 分别对训练集和预测集的正确判别率,即识别率 和预测率,判断模型的优劣。而对于模型的优劣 而言,预测率比识别率更重要 。 维普资讯 http://www.cqvip.com 第2期 张云佳等:主成分分析一支持向量机用于肝病分类模型 1 15 >、0 85 i 0 80 《0 75 0 50 100 50 200 250 u 2 C a 图1 C与正确率的关系(or=0.6) 图2 or与正确率的关系(C=23) Fig.1 The relation between C(or=0.6) Fig.2 The relation betweentr(C=23) and the accuracy and the accuracy 图1和图2分别表示模型对训练集的识别率 化,优化后的模型其预测率分别为70.7%、 和预测集的预测率随C和s的变化关系图。 79.3%。预测效果不好,其原因可能在于这两者 图1可以看出,当C=25时,模型的识别率最 只用于区分HBeAg或HBeAb阳性,而对分类所选 高,为99.3%,随着C值的增加,识别率逐渐降低,}譬 ,uu《 0 0 O 0  用的指标没有太大意义。 但下降趋势比较平稳。对预测率而言,当C=23 根据SVM算法的理论,SVM对噪声比较敏 时,模型的预测率最高,为96.4%,此时的识别率 感。主成分分析作为一种投影方法,可以在互不 为98.9%。由于预测率对模型的重要性大于识别 相关且相互正交的新坐标轴构成的低维空间表示 率,选择参数C=23。 高维数据,进行数据压缩,由此大大降低了变量的 由图2可知,当s=0.5时,模型对识别率为最 维数。由于主成分分析的方差最大原则,主成分 优,当s=0.6时,模型对预测率为最优,综合考 能基本代表数据的结构,换句话说,可以通过少数 虑,选择s=0.6为模型参数。 的新变量重构数据,而并不损失原来的基本数据 当惩罚因子C=23,核函数宽度s=0.6时,利 信息。因此,可以用它来对肝功能指标进行特征 用建立的预测模型对预测集进行预测,预测率为 提取以达到压缩数据的目的。利用主成分提取数 96.4%。同样的,原始数据不经过PCA特征提取, 据特征后,代替原始数据进行计算,减少了噪声, 找其最优C值和s值,进行预测,其预测率为 提高了SVM模型的预测率。 93.7%。 2.3 BP神经网络预测 对乙肝类样本单独进行分类,随机选择150 利用BP神经网络,对主成分分析处理后的数 例大三阳和90例小三阳作为训练集,33例大三阳 据以及原始数据分别建立模型,并对其参数进行 和25例小三阳作为预测集。对原始数据和经主 优化。神经网络参数包括学习速率11,动量因子 成分提取后的数据建立的模型分别进行参数优 。神经网络优化后的参数及计算结果见表3。 表3 SVM与ANN计算参数及结果比较 Table.3 Comparison of classiifed result between SVM and ANN a.classify the patients of HBV:b.classify all patients and the norlTlal 维普资讯 http://www.cqvip.com

ll6 化学研究与应用 第2O卷 由此可见,无论是支持向量机还是神经网络, 通过主成分对数据降维后,均能提高分类正确率。 而神经网络的分类效果明显劣于支持向量机。究 其原因,在于一般神经网络在训练过程中出现了 过拟和问题,即把各个学习样本的细节,有时甚至 错误利用训练的权值保存了下来,难以区分噪声 和真实信号,容易出现局部极值问题。而支持向 指标识别中,对乙肝、丙肝及肝硬化进行分类识 别,效果比较令人满意。但由于模型只概括了8 个肝功能指标,而未考虑其他因素,如临床表现、 体征、病史及其他检测指标等,对于个别异常数 据,出现错分的情况是在所难免的。此外,由于部 队医院采集的样本多为男性患者,样本的性别以 及年龄等特征对模型是否有影响还有待更深入的 量机是一种基于结构风险最小化原理的分类技 研究。 术,本文将其与主成分分析相结合,应用到肝功能 参考文献: 『11 Kenii Ikeda。Satosh/Saitoh,Masahiro Kobayashi,et a1. brosis and/or fiver cirhosis’in Egyptina patients with Distinction between chronic hepatiits and liver cirrhosis chronic hepatiits c[J].Hepatology Research,2006,34 in patients with hepatitis C virus infectioIL Practical (2):163—169. discriminant function using connnon laboratory data[J 1. [5]Bermuan J.Multivariate analysis of pmgnotic factors in HepatologyResearch,2000,18(6):252-266. fulminant hepatiits B[J].Hepatology,1986,6:64. [2]林德馨 高永琳,黄伟明.逐步判别分析乙型病毒性肝 [6]范金城,梅长林.数据分析[M].北京:科学出版社, 炎血清学检测结果[J].福建医科大学学报2006,40 2002:25-28. (1) 4447. [7]樊家琨.应用多元分析[M].南京:河海大学出版社, [3] 苗菁,王润华.病毒性肝炎病情严重程度的计算机判 1993:145—146. 别诊断-常用肝功能指标逐步判别分析[J].重庆医科 [8]邓乃扬,田英杰.数据挖掘中的新方法:支持向量机 大学学报,2000,25(2):125—127. [M].北京:科学出版社,2004:3-10. [4]Abdelfan ̄M Attallah,Gamal E Shiha,Mohamed M [9]沈朋,康宇飞,程翼宇.乳腺癌代谢物组模式特征发现 Omrm A discriminant score based on four routine 方法及HPLC/MS/MS分析[J].高等学校化学学报, laboratory blood tests for accurate diagnosis of severe 2005.26(10):1798—1802. Principal component analysis・support vector machine used to classified model of liver disease ZHANG Yun.Jia ,FANG Ya.Ping ,HUANG Tian.Hai ,ZHANG Jing , TAN Fu.Yuan ,SUN Li-Na ,LI Meng—Long ’ (1.College of Chemistry,Siehuan University,Chengdu 610064,China; 2.Department fo Clinical Laboratory,324th Hospitla fo PLA,Chongqing 400020,Chian) Abstract:Principal eomponent analsyis(PCA)is used to feature selection of the fiver function testing resluts,and the classiifde model ofrmviHCV,hepatein-ehsis patients nad hte normal is based on Suppo ̄vector machine(SVM). e raidcal basis function (RBF)iS adoptde sa a kernel fnuction ofSVM,nad hte model ̄usts C and叮to build hte optimization clsasiifer,which makes hte correct classiifcation ratio ofthe training set to be 99.3%.while that of the testign set to be 96.4%.The result shows that the classiifde model of liver disease based on PCA-SVM Can clsasiifes the HBV.HCV.hepatocirrhosis patients and the normal more effeetivdy than the tradiitnoal SVM or ANN. Key words:ilver function tset;principal component analysis(PCA);support vector machine(SVM);artificila neural newtork(ANN) (责任编辑李方) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务