第7卷第9期 2011年9月 中全生产科学技术 Journal of Safety Science and Technology Vo1.7 No.9 Sep.2011 文章编号:1673—193X(2011)一09—0068—07 系术 烃类及其衍生物闪点、沸点的定量构效关 杨 惠 ,陈利平 ,谢传欣 ,石 宁。,陈网桦 (1.化学品安全控制国家重点实验室,青岛(2.南京理工大学化工学院安全工程系,南京266071) 210094) 摘要:基于定量结构一性质相关性(QSPR)原理,研究了烃类及其衍生物闪点、沸点与其分子结 构间的内在定量关系。应用CODESSA软件计算384种烃类及其衍生物的分子结构描述符,建立 了闪点和沸点的QSPR模型。用最佳多元线性回归(B.MLR)方法筛选得到的分子描述符建立了 线性回归模型。用B-MLR方法所选择的5个描述符作为支持向量机(SVM)的输入建立了非线性 模型。所有的化合物被分为训练集和测试集,对每个模型的训练集和测试集的复相关系数、交互 验证系数、均方根误差等进行了计算,并用测试集对模型的预测能力进行检验,预测结果表明:预 测值与实验值均符合良好,所建立的闪点模型稳健,泛化能力强,预测误差小,预测的效果令人满 意,但沸点的模型预测效果有待加强。相比烃类物质的模型,加了衍生物的模型性能均有所下降。 关键词:烃类及其衍生物;闪点;沸点;支持向量机;定量构效关系 中图分类号:0622.1 文献标识码:A QSPR study for predicting lfash points and boiling points of hydrocarbon and their derivatives YANG Hui , ,CHEN Li.ping ,XIE Chuan.xin ,SHI Ning’CHEN Wang.hua ,(1.State Key Laboratory of Chemical Safety and Control,Qingdao 266071,China) (2.Department of Safety Engineering,School of Chemical Engineering,Nanjing University of Science&Technology,Nanjing 210094,China) Abstract:The quantitative relationships existed between flash points,boiling points and molecular structures of hy— drocarbon and their derivatives were investigated based on the quantitative structure—property relationship(QSPR) study.384 molecular descriptors of hydrocarbon and their derivatives were calculated by CODESSA,and these de— scriptors were pre—selected by best muhilinear regression method.Then QSPR models about lfash points and boiling points were built.As a result,the five—descriptor linear models were developed to describe the relationship between the molecular structures and the flash points or the boiling points.The non-linear regression models were built based on support vector machine using the five descriptors selected by best muhilinear regression method.The com- pounds were divided into a training set and a test set.The squared correlation coeficient,cross—validatifon coeffi— cient and mean squared error of each model were calculated.The test set was used to validate the prediction per— formance of the resulting models.The predicted resuhs indicated that,the prediction results were in good agree— ment with the experimental Values.The models of flash points had robustness,strong generative ability and small prediction error.The predicted results were satisfactory.But the predicted results of boiling points remained to be improved.Compared to the models of hydrocarbons,the performance of the models which added derivatives was de— creased.It can be very helpful to expand the applied scope of QSPR study. Key words:hydrocarbon and their derivatives;flash point;boiling point;support vector machine(SVM);QSPR 第9期 中全生产科学技术 ・69・ 1 引言 定量结构一性质相关性(Quantitative structure— property relationship,QSPR)研究已成为近年来化 2研究方法 2.1样本数据说明 学、环境科学、生命科学等学科研究中的一个前沿领 域¨』。其基本原理 是通过物质分子的结构描述 样本集共包含384种烃类及其衍生物,其中含 284种烃类及100种烃类衍生物,烃类包括链烷烃、 环烷烃、烯烃、炔烃、芳香烃等,衍生物的种类包括 符与其某种性质相关联,采用数理统计方法揭示化 合物活性或物理化学特征与其分子结构之间的定量 变化规律,以达到根据物质的分子结构来预测其理 化性质的目的。 各种不同的建模方法如多元线性回归(MLR)、 偏最小二乘法(PLS)、遗传算法(GA)、人工神经网 络(ANN)以及支持向量机回归(SVM)等已被成功 地应用于QSPR研究中 4。。尤其是SVM,它作为一 种新型的机器学习方法 ,是近年来机器学习领域 的研究热点 J。SVM算法具有较好地解决小样本、 非线性、高维数、局部极小值等实际问题的优点 , 所以从众多建模方法中脱颖而出,已渐渐成为 QSPR研究中最广泛使用的方法。 沸点是化工设计和化工计算中常用的物性数据 之一,也常常作为预测其他性质的基础 J。而闪点 也是化合物一个很重要的热力学参数,它是衡量可 燃液体火灾和爆炸危险陛的重要特征值之一。通过 QSPR模型预测化学品的这些危险性参数,可以为 化学品危险性的评估和预期功能的预测节省时间、 精力和成本,为安全评估提供重要的参数。多年来, 许多研究学者提出了各种计算和预测闪点及沸点的 方法 。 ,但这些研究往往比较单一且只针对某一 类化合物,虽然预测值比较准确,但适用范围却受到 一定的。 本文采用最佳多元线性回归(B.MLR)和SVM 方法分别研究384种烃类及其衍生物闪点及沸点的 定量构效关系,并与使用同样方法所构造的烃类物 质的闪点和沸点的构效关系模型进行比较。 收稿日期:2011-01-06 作者简介:杨惠,硕士研究生。 基金项目:化学品安全控制国家重点实验室开放研究 基金 通讯作者:陈利平,女,博士。 醇、醚、酮、酸、酯、酸酐、腈、胺、硝基化合物、氨基化 合物、卤代烃、硫代烃等。为消除不同数据库中数据 的差异可能给实验预测结果造成的影响,故统一采 用美国阿克伦大学化学品数据库“ e Chemical Da— tabase”_l 中的烃类及其衍生物的闪点、沸点作为样 本数据集。在样本集中随机选择304种物质作为训 练集,剩下的80种作为测试集,训练集和测试集中 均包含一定比例的衍生物。训练集用于建立模型, 测试集则用于评估模型的预测能力。 2.2分析步骤 首先借助化学分子模拟软件Hyperchem8.0画 出384种烃类及其衍生物的二维分子结构,用半经 验方法PM3进行分子结构的初步优化。在此基础 上获得分子坐标以及原子电荷矩阵等信息,再导人 到CODESSA软件 14-15]中计算出组成描述符、拓扑 描述符、几何描述符、静电描述符、量化描述符以及 热力学描述符等六类共927种分子结构描述符,这 些描述符定量地表达出了分子的结构特征如原子之 间的联系,分子形状、分支、对称性,分子中电荷分布 的特征以及分子的量子化学结构特征等。 接下来对分子结构描述符进行筛选,以提取出 特征变量。在QSPR研究中,分子结构描述符的筛 选是至关重要的,它能直接影响预测结果的准确度。 本文主要用CODESSA软件中的B—MLR方法来筛选 描述符,并同时对物质的闪点或沸点与所选择的分 子描述符进行线性拟合,建立线性QSPR模型。 SVM的研究则直接采用B-MLR所筛选出的分子描 述符作为自变量来对物质的闪点或沸点进行训练, 以建立非线性模型。 2.3分子描述符的筛选原理 一般说来,所建立模型的好坏在很大程度上取 决于所选择的特征变量,也就是说分子描述符的筛 选是建立不同物质QSPR模型的基础。本文采用了 B.MLR来选择特征变量,它是CODESSA软件中的 ・70・ 中全生产科学技术 第7卷 一种变量筛选方法¨引。首先对所有的描述符进行 复相关系数要尽可能的大,但是建立模型的分子描 预处理,将数据集中数值不全以及完全相同的描述 符去除,然后按照下述步骤筛选多元参数的回归模 型:①在给定的数据集中搜索所有满足条件的正交 述符个数却不能无限多。为了得到建立模型的最佳 描述符个数,考察了描述符个数对模型复相关系数 的影响。当增加一个描述符而模型的性能没有显著 增加时,说明描述符的个数已经达到最优。为了避 描述符对i, (R < );②用这些成对的描述符与 物质的性能联合得到二元线性回归模型,得出回归 系数最高的前Ⅳc(<=400)个方程进行下一步计 免模型中参数过多,造成过拟合,当 值的增加小 于0.O2_1副时,不再增加描述符的个数。从图1可以 看出,最佳描述符的个数确定为5时,模型的 变 化不大,说明参数个数为5是比较合适的。因此,下 文选用5个描述符构建闪点的线性和非线性QSPR 模型,结果如下。 算;③向二元回归方程中加入非共线性描述符K (Ri2<尺 ,RE<R2)得到三参数回归方程。如果在 给定的概率Fisher检验准则水平下,三参数的F值 小于最佳的二参数模型的F值,则计算中止,并把 最佳二参数模型保存为输出结果。否则,输出回归 系数最高的前Nc(<=400)个三参数模型进行进一 步的回归分析。④再次加入非共线性描述符,步骤 与③类似,重复加入描述符,一直到n+1参数模型 的F值小于最佳的二参数模型的F值时,程序运行 中止。⑤最后程序输出具有最大F值以及最大交 互验证系数 的2一n元最佳回归方程用于预测物 质的性能。 B—MLR方法的筛选速度较快,对数据集的大小 没有,也比较容易得到全局最优解,这就保证了 所建立模型的可靠性。B.MLR不仅是一种有效的 筛选方法,同时也是一种线性的模型拟合方法。非 线性的SVM建模也直接采用了B—MLR方法所选择 的分子描述符。 图1分子描述符个数与模型复相关系数的关系 3.1.1 B—MLR方法预测闪点 B.MLR方法所得的闪点( )回归模型如下: FP=一185.65+0.119 x 1+44095× 一 18.892×X3+433.42×X4+4.257× S=11.7443,F=1838.2825,n=304 (1) R =0.9686,Q 。=0.9223,RMSE=11.6278, 3模型的构建与讨论 3.1 烃类及其衍生物的闪点QSPR模型 首先采用B—MLR方法对计算得到的所有分子 描述符进行筛选。随着人选的分子描述符个数的增 加,模型的复相关系数是增大的。虽然追求模型的 式中, 为闪点值, 为复相关系数,Q 为“留一法” 交互验证的复相关系数,RMSE为均方根误差,.s为模 型的标准误差,F为Fisher标准检验值,凡为模型中的 样本数目。模型中各分子描述符的定义及其统计学参 数见表1,所得的闪点预测值与实验值的比较见图2。 表1 B-MLR模型中的分子描述符及其统计学参数 第9期 中全生产科学技术 ・71・ 在烃类闪点的模型 中,再次证明了这个描述符对 物质闪点的重要影响。判断每个描述符对于闪点的 影响程度,可以用模型中各描述符的系数来进行比 较,描述符前面的系数为正,说明此描述符与闪点正 相关,为负则说明负相关,并且系数越大说明其相关 程度越高。 3.1.2 SVM方法预测闪点 图2 B—MLR方法对测试集所得闪点与实验值的比较 为了得到更加精确的模型,用同样的描述符建 立了SVM非线性模型。为了得到影响SVM预测精 度的最佳相关参数,选择了应用最为广泛的RBF作 为核函数,采用格点搜索(Gs)的方法来选择最佳的 参数组合。惩罚系数c和RBF核函数的宽度 的 搜索范围为[2~,2。],步长为2,并根据对训练集进 行“留一法”交互验证所得的Q 。来确定最佳的模型 参数。最终选择的最优参数为:惩罚系数C=256, 核函数的宽度 =5.6569, 一不敏感损失函数 = 通过对模型中描述符的分析,可以找出那些对 烃类及其衍生物的闪点起决定作用的因素。在模型 的5个参数中,有1个静电描述符,1个热力学描述 符和3个组成描述符,这些描述符分别反映了分子 结构不同方面的特征。可以看出,在所有的描述符 中,组成描述符占了主导地位,它们分别是重力指 数、分子中所含F原子的个数以及苯环的相对数 量。重力指数不仅表示分子的原子量的大小,还表 示它们在分子空间的分布情况。而所含F原子以 0.1。SVM所得闪点的预测值与实验值的比较见图 3。同时,为了比较两种方法得到模型的性能优劣, 将两种方法所得模型的主要性能参数列于表2。 及苯环的数目都与分子的亲电性有关,因为,原子 和苯环都具有较强的电负性。相比于烃类物质所选 出的描述符 J,加了衍生物之后的样本集在筛选描 述符时更偏重于选择组成描述符,这似乎也很容易 理解,因为加了衍生物之后,样本的种类变多了,在 分子的组成上有了很大的区别,而分子的组成可能 是造成其闪点差异的主要因素。模型中的静电描述 符是指氢键供体原子的表面电荷的权重面积,与分 子间氢键作用的大小有关。热力学描述符是指 300K时的转动熵,与分子的能量有关。同样可以 发现,Rotationalentropy(300K)这个描述符也曾出现 表2各模型的主要性能参数 图3 SVM方法对测试集所得闪点与实验值的比较 烃类及其衍生物 性能参数 B—MLR SVM B.MLR 烃类 SVM 训练集 R 0.9686 测试集 0.9585 训练集 0.9863 测试集 0.9556 训练集 0.9823 测试集 0.9812 训练集 0.9850 测试集 0.9882 Q 。0.9223 —0.9863 一 0.9824—一0.9850—一 Q RMSE 一11.6278 0.9667 9.1626 —7.6182 0.9652 9.3703 一 8.5714 0.98l4 11.1041 —7.9075 0.9884 8.7570 /7, 3O4 80 3O4 80 240 60 240 60 从图2、图3可以看出,两种方法对测试集的预 测值与实验值均有较好的一致性,预测效果令人满 ・72・ 中全生产科学技术 第7卷 意。比较表2中两种方法所得的训练集和测试集的 复相关系数,各子集的复相关系数均比较高,预测误 差较低,而且比较接近,这说明所建立的模型不但具 备较强的预测能力,而且具有较强的泛化推广性能。 但是模型中测试集的复相关系数均比训练集要低, 说明模型的预测性能有所下降。相比烃类物质的模 型L】’],加入衍生物之后,模型的复相关系数等性能 1 斗K j映c 参数均有所下降,测试集的复相关系数也低于训练 集,说明模型的预测能力有所降低,分析其原因,可 能是衍生物的种类太多,结构较复杂,而所筛选出来 的分子描述符个数有限,不足以解释所有的分子结 构信息,从而导致得出的模型结果不尽理想。 3.2 烃类及其衍生物的沸点QSPR模型 图4分子描述符个数与模型复相关系数的关系 3.2.1 B—MLR方法预测沸点 B—MLR方法所得的沸点(BP)回归模型如下: BP=82.204—171.5×y1+66.987×y + 与烃类及其衍生物的闪点研究方法相同,样本 集以及训练集和测试集的划分均与闪点的研究一 致。同样采用了B—MLR和SVM方法,并按照上述 181.91×Y3—0.597×Y4—5.197×y5(2) R :0.9384,p2,0o=0.9223,RMSE=11.6278, S:11.7443,F=907.19.n=304 确定最佳分子描述符的个数的方法最终确定最佳描 述符个数为5(图4),模型结果如下。 模型中各分子描述符的定义及其统计学参数见表 3,所得的沸点预测值与实验值的比较见图5。 表3 B-MLR模型中的分子描述符及其统计学参数 描述符 类型 定义 系数 系数标准误差t检验值 分析模型中的描述符,可以找出那些对烃类及 其衍生物的沸点起决定作用的因素。在模型的5个 参数中,有1个组成描述符,1个拓扑描述符和3个 静电描述符。Y1为组成描述符,指单键的相对数 量, 为拓扑描述符,由分子图论二维结构计算获 得,是指1阶Kier&Hal1分子连接性指数,表征了分 子对于由分子间化学键导致的分子问相互作用的贡 p ∞ 弓 U 等 等 献,描述了诸如原子连接、分子分支以及环化程度等 分子结构信息,在一定程度上体现了分子问的色散 力。另外三个静电描述符中, 指电荷加权的氢键 供体表面积,它与分子间的静电和氢键相互作用有 关。yd指电荷加权化的偏正与偏负表面积之差,它 图5 B-MLR方法对测试集所得沸点与实验值的比较 第9期 中全生产科学技术 ・73・ 取决于分子中的电荷分布,反映了分子问的极性相 互作用以及氢键相互作用。y5指负电荷加权部分 的表面积与分子总表面积的比值,描述了负电荷在 分子中分布的效应,可以用来衡量化合物的极性大 小,也反映了分子中偏原子电荷的贡献。由上述描 述符的系数大小可以知道,y3与yI对沸点的影响 最大,其次是y2、y5、y4。 3.2.2 SVM方法预测沸点 p ∞ q 等 暑 U 建立SVM模型的最优参数为:惩罚系数C= 22.6274,核函数的宽度 =0.5,占一不敏感损失函 数 =0.1。所得沸点的预测值与实验值的比较见 图6,模型的主要性能参数见表4。 图6 SVM方法对测试集所得沸点与实验值的比较 表4各模型的主要性能参数 烃类及其衍生物 性能参数 R 烃类 SVM B.MLR SVM B-MLR 训练集 0.9384 测试集 0.8466 训练集 0.9489 测试集 0.8372 训练集 0.9842 测试集 0.9821 训练集 0.9905 测试集 0.9938 Q 。Q 兄 E /1. 0.9384 一25.0501 3O4 —0.8771 26.O735 80 0.9488 —22.8392 3O4 一 0.8656 27.2586 80 0.9842———13.1058 236 —一0.982214.0130 60 0.9904———10.2295 236 —一 0.9937 8.3263 60 从图5、图6可以看出,两种方法所得的预测 表5沸点预测异常值 值与实验值有较好的一致性,但有个别偏离实验 值较远,导致预测误差增大,Q 值降低。异常值 见表5,这两个误差最大的物质均属于卤代烃,分 析了下原因,因样本中所含的卤代烃数目较少, 训练时并没有提取出相应的卤代原子的结构信 息。但是事实上,卤代原子对沸点值具有很大的 影响,所以导致预测误差增大。两种模型的Q 。 均在0.93以上,也满足QSPR模型的基本要求 (Q 。>0.500)。与烃类及其衍生物闪点的预测 名称 实验值. B.MLR SVM 预测值残差预测值残差 2,4-Dimethylbenzyl 33.O0 198.27 165.27 208.97 175.97 chloride (2-Bromopropy1) benzene 107.00 228.85 121.85 240.97 133.97 4 结论 分别采用B—MLR和SVM方法对384种烃类及 结果相似,加了衍生物之后,模型的复相关系数 等性能参数均有所下降,测试集的复相关系数也 远远低于训练集,说明模型的预测能力有所降 其衍生物的闪点和沸点进行了QSPR研究,建立了闪 点和沸点的构效关系模型。从模型的结果看来,闪点 低。模型性能下降的原因也与闪点预测的情况 相似:衍生物的种类太多,有不同的基团以及取 代原子,而所筛选出来的分子描述符个数有限, 的模型效果较好,可以达到预测的要求,但沸点的预 测效果不尽理想。与使用同样方法所构造的烃类物 质的闪点和沸点的构效关系模型进行比较,加了衍生 物之后的模型性能均有所降低,特别是沸点的模型。 分析其原因,可能是衍生物的种类太多,结构较复杂, 而所筛选出来的分子描述符个数有限,不足以解释所 不足以解释所有的分子结构信息,所以得出的模 型结果不尽理想。 ・74・ 中全生产科学技术 第7卷 有的分子结构信息,导致预测信息不全面。 正如前文所说,已有的大量文献均研究的是某一 类化合物的闪点或沸点的构效关系,这类文献的预测 精度都较高,但适用范围受到一定的。本文采用 了烃类及多种衍生物种类作为样本,适用范围更广。 所构建的模型中,闪点的预测效果较好,沸点还有待 提高。可能是因为样本的数目不够,各种结构类型的 puters and Applied Chemisty,r2008,25(6):717-720 [9] 王青松,刘娟,徐美荣,等.不饱和链烃沸点的QSPR研 究[J].武汉理工大学学报,2006,28(3):117.120 WANG Qing-song,LIU Juan,XU Mei-rong,et a1.QSPR research on the boiling points of unsaturated chain hydro・ carbons[J].Journal of Wuhan University of Technology, 2006,28(3):117—120 [10] 潘勇,蒋军成.电性拓扑状态指数预测烃类物质闪点 化合物的分布不够合理和具有代表陛,导致模型的结 果不尽理想。这可以作为以后构效关系研究进行改 进的方向,以获得更全面、精度更高的性质预测。 参考文献 [1] Jyrki Taskinen,Jouko Yliruusi.Prediction of physico— chemical properties based on neural network modeling [J].Adv Drug Delivery Rev,2003,55:1163—1183 [2] 蒋军成,潘勇.QSPR在有机物燃烧特性预测中的应用 和进展[J].南京工业大学学报,2007,29(6):102・110 JIANG Jun—cheng,PAN Yong.Advances and applica— tions of quantitative sturcture property relationship studies in prediction of flammabile characteristic of compounds [J].Journal of Nanjing University of Technology,2007, 29(6):102・110 [3]Farhad Gharagheizi.Prediction of upper lfammability limit percent of pure compounds from their molecular sturctures [J].Journal ofHazardous Materials,2009,167:507-510 [4]PAN Yong,JIANG Jun—cheng,WANG Rui,et a1.Ad— vantages of support vector machine in QSPR studies for predicting auto・・ignition temperatures of organic corn-- pounds[J].Chemometrics and Intelligent Laboratory Sys— tems,2008,92:169-178 [5]Vapnik V.Statistical Leanring Theory[M].New York: Wiley,1998 [6] 吴少雄,黄恩洲.基于支持向量机的控制图模式识别 [J].计算机应用,2007,27(1):61—64 WU Shao—xiong,HUANG En—zhou.Control chart patterns recognition based on support vector machine[J].Journal of Computer Applications,2007,27(1):61—64 [7]Gunn S R,Brown M,Bossley K M.Network performance assessment for neurofuzzy data modeling[J].Lecture Notes in Computer Science,1997,1280:313・323 [8] 周新奇,何勤,赵晨曦,等.结构多样性化合物沸点 QSPR模型研究[J].计算机与应用化学,2008,25 (6):717-720 ZHOU Xin-qi,HE Qin,ZHAO Chen—xi,et a1.QSPR study for compounds with diversity structures[J].Corn- [J].石油学报(石油加工),2007,23(6):70-74. PAN Yong,JIANG Jun—cheng.Prediction of flsah point of hydrocarbon by electrotopologicla state indices[J]. ACTA Petrolei Sinica(Petorleum processing section), 2007,23(6):7O_74 [11]Suhani J.Patel,Dedy Ng,M.Sam Mannan.QSPR Fla・ sh Point Prediction of Solvents Using Topological Indices for Application in Computer Aided Molecular Design [J].Ind.Eng.Chem.Res,2009,48:7378-7387 [12] Alan R.Katritzky,Iva B.Stoyanova—Slavova,Dimitar A.Dobchev.QSPR modeling of lfash points:An update [J].Journal of Moleculra Graphics and Modelling, 2007,26:529-536 [1 3]Department of chemistyr of university of akron.The Che— mical Datbaase[OB/OL].[2010-01-16].http://ul1. chemistyr.uakron.edu/erd/ [14]Katirtzky A.R,Perumal S,Peturkhin R,et 1a.CODE— SSA--Base theoretical QSPR model for hydantoin HPLC-・ RT[J].J.Chem.Inf.Comput.Sci,2001,41:569-574 [15] Katritzky A.R,Lobanov V.S,Karelson M.CODESSA Version 2.0 Reference Manual『J 1.University of Florida [16] Katritzky A.R,Kuanar M.,Fara D.C et a1.QSPR treatment of rat blood:air,saline:air and olive oil:air partition coefficients using theoretical molecular de— scriptors[J].Bioorganic&Medicinal Chemistyr,2004, 12:4735-4748 [17]杨惠,陈利平,谢传欣,等.烃类物质闪点定量构效的 关系[J].计算机与应用化学,2011,28(4):465-468 YANG Hui,CHEN Li-ping,XIE Chuan—xin,et a1. Quantitative sturcture-property relationships for flash points of hydrocarbon compounds[J].Computesr and Applied Chemistyr,201 1,28(4):465-468 [18]杨惠,陈利平,谢传欣,等.烃类沸点的定量构效关系 研究[J].火灾科学,2011,20(1):62-67 YANG Hui,CHEN Li—ping,XIE Chuan-xin,et a1. Quantitative sturcture-property relationships for boiling points of hydrocarbon compounds based on SVM[J]. Fire Safety Science,2011,2O(1):62-67