计算机应用 2018 38 11 3105-3111 3118文章编号:1001 ̄9081(2018)11 ̄3105 ̄07
ISSN1001 ̄9081
CODENJYIIDU2018 ̄11 ̄10
http //www.joca.cn
DOI:10.11772/j.issn.1001 ̄9081.2018041275
基于粗糙集的数据流多标记分布特征选择
1.安庆师范大学计算机与信息学院 安徽安庆246011 2.安徽省智能感知与计算重点实验室 安徽安庆246011
3.数据科学与智能应用福建省高校重点实验室 福建漳州363000
∗通信作者电子邮箱chengyshaq@163.com
程玉胜1 2 3 陈 飞1 王一宾1 2
∗
摘 要:针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题ꎬ提出了基于粗糙集的数据流多标记分布特征选择算法ꎮ首先ꎬ将在线流特征选择框架引入多标记学习中ꎻ其次ꎬ用粗糙集中的依赖度替代原有的条件概率ꎬ仅仅利用数据自身的信息计算ꎬ使得数据流特征选择算法更加高效快捷ꎻ最后ꎬ由于在现实世界中ꎬ每个标记对实例的描述程度并不相同ꎬ为更加准确地描述实例ꎬ将传统的逻辑标记用标记分布的形式进行刻画ꎮ在多组数据集上的实验表明ꎬ所提算法能保留与标记空间有着较高相关性的特征ꎬ使得分类精度相较于未进行特征选择的有一定程度的提高ꎮ
关键词:粗糙集ꎻ多标记ꎻ数据流ꎻ特征选择ꎻ标记分布中图分类号:TP391 文献标志码:A
Featureselectionformulti ̄labeldistributionlearningwith
streamingdatabasedonroughset
1.SchoolofComputerandInformation AnqingNormalUniversity AnqingAnhui246011 China
2.UniversityKeyLaboratoryofIntelligentPerceptionandComputingofAnhuiProvince AnqingAnhui246011 China 3.KeyLaboratoryofDataScienceandIntelligenceApplication FujianProvinceUniversity ZhangzhouFujian363000 China
CHENGYusheng1 2 3 CHENFei1 WANGYibin1 2
∗
complicatedandthedescriptionoftheinstanceisnotaccurateenough.Amulti ̄labelDistributionlearningFeatureSelectionwithStreamingDataUsingRoughSet FSSRS wasproposedtosolvetheaboveproblem.Firstly theonlinestreamingfeatureselectionframeworkwasintroducedintomulti ̄labellearning.Secondly theoriginalconditionalprobabilitywasreplacedbythedependencyinroughsettheory whichmadethestreamingdatafeatureselectionalgorithmmoreefficientandfasterthanbeforebyonlyusingtheinformationcalculationofthedataitself.Finally sinceeachlabelhasadifferentdegreeofdescriptionforthesameinstanceinrealclassificationaccuracyisimprovedtoacertainextentcomparedwiththatwithoutfeatureselection.
Keywords roughset multi ̄label streamingdata featureselection labeldistribution
world tomakethedescriptionoftheinstancemoreaccurate labeldistributionwasusedtoinsteadoftraditionallogicallabels.Theexperimentalresultsshowthattheproposedalgorithmcanretainthefeatureswithhighcorrelationwiththelabelspace sothatthe
Abstract Traditionalfeatureselectionalgorithmcannotprocessstreamingfeaturedata theredundancycalculationis
0 引言
多标记学习作为机器学习研究热点ꎬ对现实世界中多义性对象的研究具有重要意义[1]ꎬ并且多标记学习对象在日常生活中广泛存在ꎮ在多标记学习框架之下ꎬ数据往往面临多标记性和高维性等多种问题ꎬ使得手工标记一般费时费力ꎮ同时随着数据维数的不断增加ꎬ分类器的分类精度也在不断下降ꎬ因此探究高效的分类算法就显得尤为重要ꎮ近年来ꎬ相关学者在此问题上的研究已经取得了卓越的成绩ꎬ提出了多种算法[2-5]ꎮ在现有的多标记分类算法中ꎬ与实例相关的标记重要程度被视作相同ꎬ然而在现实世界中ꎬ不同的标记对于同一个实例的描述程度并不都是相同的ꎮ例如在一幅自然风景图中ꎬ如果出现大量的“蓝天”ꎬ那么出现大量“白云”的概
率也就高ꎬ其他标记的可能性也就比较低ꎬ这种现象被称为标记的不平衡性ꎮ针对这种标记的不平衡性ꎬGeng等[6]提出了一种标记分布学习(LabelDistributionLearningꎬLDL)范式ꎬ将传统的逻辑标记用概率分布的形式来进行描述ꎬ更加准确地反映了实例的相关内容ꎮ目前也有很多学者在标记分布学习范式下对人年龄[7-8]、人脸面部识别[9]、文本情感分类[10]等领域进行研究ꎮ
然而ꎬ无论是传统的多标记学习还是标记分布学习ꎬ其特征选择方法都假定从一开始就可以获得所有实例的特征数据ꎮ但是在许多情况下ꎬ往往无法一次性获取实例的所有特征数据ꎬ更多呈现动态生成并记录相应特征数据ꎬ这种情况获取的特征称为流特征ꎬ相应的特征选择算法称为流特征选择算法[11]ꎮ例如ꎬ对一篇小说进行分类并标上标记ꎬ需要提取
收稿日期:2018 ̄04 ̄28ꎻ修回日期:2018 ̄06 ̄20ꎻ录用日期:2018 ̄06 ̄29ꎮ
基金项目:安徽省高校重点科研项目(KJ2017A352)ꎻ数据科学与智能应用福建省高校重点实验室开放课题(D1801)ꎮ
作者简介:程玉胜(1969—)ꎬ男ꎬ安徽桐城人ꎬ教授ꎬ博士ꎬ主要研究方向:粗糙集、机器学习、数据挖掘ꎻ 陈飞(1994—)ꎬ男ꎬ安徽铜陵人ꎬ硕士研究生ꎬCCF会员ꎬ主要研究方向:多标记学习、粗糙集ꎻ 王一宾(1970—)ꎬ男ꎬ安徽安庆人ꎬ教授ꎬ硕士ꎬCCF会员ꎬ主要研究方向:机器学习、多标记学习ꎮ
31 06 计算机应用
1.2 标记分布学习
D={(TjꎬLj)|1≤j≤iꎬTj∈TꎬLj∈L}
第38卷
(1)
小说里面所有的高频词特征ꎮ如果小说的篇幅比较长则提取所有特征就需要耗费大量的时间ꎬ等所有的特征全部提取完之后再进行分类训练是不可能的ꎬ更可取的方法是一次一个地生成候选特征ꎬ从生成的候选特征中选择特征集合较小并且分类效果也好的特征集合作为最后的特征ꎬ这种做法不仅会节省大量的资源ꎬ同时分类精度也得到了保证ꎮ基于此ꎬWu等
[11]
传统的多标记学习是将每一个标记对实例的重要程度都
看成一样的ꎬ用1和-1的逻辑标记来表示是否有相关标记ꎮ但是在真实的世界中ꎬ由于标记的不平衡性导致不同的标记对实例的描述程度是不同的ꎬ例如人类脸上的表情并不能用单一的开心或者不开心来表示ꎮ为了更好地对实例进行描述ꎬGeng等[6]提出了标记分布学习范式ꎬ用概率来代替传统
j的逻辑标记ꎮ对于一个有m个标记的实例xꎬdyx表示第j个标j
记对实例x的描述程度ꎬ为了不失一般性dyx∈[0ꎬ1]且
SelectionꎬOSFS)ꎬ通过对特征的相关性和冗余性进行分析ꎬ得到满足条件的特征集合ꎬ并在文献[12]中设计出了一系列的算法ꎬ取得了十分明显的效果ꎮ但是ꎬ文献[12]中所提到的算法主要适用于离散的数据ꎬ且为单个逻辑标记的数据集ꎬ提出了在线流特征选择(OnlineStreamingFeature
myyy对于多个逻辑标记及其标记分布并不适用ꎮ
另外ꎬ上述算法无论是逻辑标记还是标记分布ꎬ在对特征进行选择时考虑更多的是特征与标记之间的相关性ꎬ如:张振海等[13]利用信息熵进行多标记的特征选择ꎻLee等[4]提出一种使用多变量互信息对特征进行选择ꎬ但对特征之间的冗余性考虑不充分ꎬ属性约简不够充分ꎮOSFS虽然考虑了特征间的冗余性ꎬ但计算过程较为复杂ꎬ算法效率较低ꎬ而粗糙集最大的贡献就是进行属性约简ꎬ去除冗余属性ꎮ
粗糙集理论是Pawlak[14]提出的一种处理不精确、不确定的数学工具ꎬ自提出以来在人工智能、机器学习、数据挖掘等领域得到了成功应用ꎮ相较于其他的特征选择算法ꎬ粗糙集方法不需要先验知识ꎬ计算过程简单高效ꎬ仅仅利用数据本身所提供的信息发现问题的规律
[15]
下近似来对知识进行描述ꎬ通过下近似与全体论域之间的比ꎮ粗糙集理论通过构建上
值来刻画属性的依赖度从而判断属性的冗余性ꎮ一般来说ꎬ下近似越大ꎬ属性间的依赖度越大ꎬ冗余性也就越大ꎮ目前利用粗糙集进行属性约简和特征选择是多标记学习的一个热点ꎬYu等
[16-17]
将粗糙集的扩展邻域粗糙集应用在多标记分
类问题上ꎬ取得了显著的成绩ꎻ段洁等[18]
利用邻域粗糙集实
现了多标记分类任务的特征选择算法ꎮ但上述算法都应用在逻辑标记且特征数据是静态的环境下ꎬ对现实世界中的数据流的情况并不适用ꎮ
目前ꎬ针对流特征数据的研究更加具有现实意义ꎬ同时ꎬ标记分布比传统的逻辑标记更能反映样本标记的真实情况ꎮ由此(ꎬ本文提出了基于粗糙集的数据流多标记分布特征选择Streamingmulti ̄label
Distribution
learning
Feature
Selection
with
征选择算法应用在多标记学习框架之下DataUsingRoughSetꎬFSSRS)算法ꎬ其次将传统的逻辑ꎮ首先将在线特标记转换成标记分布形式进行学习ꎬ同时利用粗糙集中的依赖度来度量特征之间的相关性ꎬ从而去除冗余属性ꎬ保证最终的特征子集的分类效果ꎮ实验结果表明该方法是有效的ꎮ
1 1.1 相关工作
多标记学习是针对现实生活中普遍存在的多义性对象而
传统多标记学习
提出的一种学习框架ꎬ在这个框架之下ꎬ样本由多个特征和多个标记构成ꎬ学习的目的是将未知的实例对应上更多正确的标记[19]tꎮ假设T是含有n个特征的特征集合T={t1ꎬt2ꎬꎬ1n}ꎬ表示有该标记L是由m个标记组成的标记集合ꎬ而-1表示没有该标记L=ꎬ则含有{l1ꎬl2ꎬꎬi个样本的多
lm}ꎬ其中标记数据集可以表示为:
xj
=1ꎮ如果dxj
=0则表示实例x没有该标记ꎻ如果dxj=
1∑j=表示该标记可以完全描述实例1
d
确地对实例进行描述ꎬ也符合现实生活中的情况xꎮ利用标记分布可以更加准1.3 传统的多标记学习中数据流特征选择
ꎮ
ꎬ所有实例的特征数据都是完整的ꎬ
并可以一次性获得ꎬ从而进行相应的分类学习ꎮ但是ꎬ在一些情况下ꎬ同一实例的不同特征数据往往是实时生成并记录的ꎬ并且这些特征的生成是无序的ꎬ有些特征数据甚至是无穷的ꎮ如果用传统的多标记特征选择算法无疑会浪费大量的时间和精力ꎬ对于那些特征数据是无穷的实例ꎬ传统方法更是无法进行特征选择ꎮ解决这个问题最好的方法就是从实时产生的特征数据中选择符合一定条件的特征构成候选特征子集ꎬ利用这个特征子集进行相应的训练和测试ꎬ这种方法被称为在线流特征选择(OSFS)[11]择标准总共分成两部分ꎮ:1)在特征与标记之间相关性OSFS框架之下ꎬ对特征子集的选ꎻ2)特征与特征之间的冗余性ꎮ根据上述两种情况ꎬ候选的特征集合又可以分为以下4个部分:1)不相关的特征ꎻ2)强相关的特征ꎻ3)弱相关非冗余特征ꎻ4)弱相关冗余特征ꎮ
通过计算特征与标记之间的相关性舍弃不相关特征并保留强相关特征ꎬ对于弱相关的特征再进行特征之间冗余性判断ꎬ舍弃冗余属性ꎮ由此ꎬ最终的特征子集应包括强相关特征1.和弱相关但非冗余特征4 粗糙集理论ꎮ
粗糙集理论是一种处理不精确、不确定的数学工具ꎬ自提
出便广泛应用到人工智能、机器学习等领域ꎮ在粗糙集理论中ꎬ对于一个信息系统IS=‹UꎬQꎬVꎬf›ꎬ其中:U表示全体论域ꎬ即样本集合ꎻQ表示属性集合(包括条件属性C和决策属性D)ꎻV表示属性的值域ꎻf表示一种映射ꎮ在分类过程中ꎬ差别不大的样本被划成一类ꎬ它们的关系被称为相容关系或者等价关系ꎮ为方便问题描述ꎬ本文仅仅考虑了等价关系ꎮ对于任何一个属性集合Cꎬ其等价关系可以用下面不可分辨关系IND来表示ꎬ定义如下:
IND(C)={(xꎬy)∈U×U:f(xꎬa)=f(yꎬa)ꎬa∈(2)
C}不可分辨关系也就是U上的等价关系ꎬ可以用U/C来表示ꎮ粗糙集理论中ꎬ用上下近似来对知识进行描述ꎬ假设B⊆CꎬX⊆Uꎬ则B的上近似与B的下近似定义如下:BX
={x|[x]BX={x|[x]B∩X≠∅}B通过上下近似可以定义正域⊆X}
(3)(POS)、负域(NEG)和边界(4)域(BNG):
第11期
POSB(X)=BXNEGB(X)=U-BX-BXBNDB(X)=BX
程玉胜等:基于粗糙集的数据流多标记分布特征选择
(5)(6)(7)
107 3
间的条件概率对特征的冗余性进行判断ꎬ对于特征X、S和标记Tꎬ如果P(T|XꎬS)=P(T|S)ꎬ则表示特征X对标记T是冗余的ꎮ这种判断方法需要知道特征空间、标记空间和每个特征的先验知识且计算复杂ꎬ而粗糙集方法可以很好地解决这个问题ꎮ在粗糙集理论中ꎬ条件属性与决策属性之间的依赖度可以很好地刻画两者之间的依赖程度ꎮ将依赖度引入到特征选择中对两个特征之间进行冗余性判断ꎮ计算流入特征与已确定特征之间的依赖度ꎬ若两者依赖度越大ꎬ性越2.3 基于粗糙集的数据流多标记分布特征选择
FSSRS算法对于实时产生的特征数据进行十折离散小ꎬ冗余性也就越大ꎮ
发现属性之间的依赖关系也是数据分析中十分重要的一个问题ꎮ在粗糙集理论中ꎬ可以利用依赖度(Dep)来表示两个属性之间的依赖程度ꎮ假设B⊆Cꎬ则决策属性D对条件属性B的依赖程度用式(8)进行计算:
Dep(BꎬD)=其中:POSB(D)=
POSB(D)
U
(8)
X∈U/D
据式(8)可知Dep的取值为0~1ꎬ当Dep=1时ꎬ表示D的取∪
BXꎬ|∗|表示集合中元素的个数ꎮ根
值完全取决于Bꎬ此时两者的依赖度最大ꎮ
如表1所示ꎬ对于条件属性cU/c1ꎬ不可分辨关系为IND(c1)=
1={{1}ꎬ{2ꎬ4}ꎬ{3}}ꎬ决策属性d的不可分辨关系为
IND(d)=U/d={{1ꎬ4}ꎬ{2}ꎬ{3}}ꎮ关于D的上近似为CD
=∅ꎬ边界域为=令C=cCD
BNGCD=={1ꎬ2ꎬ3ꎬ4}ꎬ{1ꎬ3}ꎬ负域为下近似为1NEGCDꎬD=={1ꎬ3}ꎬdꎬ则C
正域为POSC(D)C(D)=(CꎬD)=
POS=CD-CD={2ꎬ4}ꎬ两者的依U-
C赖度为Dep(D)C表1 粗糙集示例(D)/U=2/4=1/2ꎮ
x∈UcTab.1 cExampledataofroughset
2ccd1211132223244
011322
2
12
132
12
2 2.1 数据流多标记分布特征选择算法
在多标记学习框架之下特征与标记的相关性
ꎬ标记的准确性常常与特征的个数有着密切的联系ꎮ在一定的范围内特征越多标记准确性也就越高ꎬ但随着特征数目的不断增加ꎬ次要特征和冗余特征也随之增多ꎬ这就会导致分类器的精度下降ꎬ所以选择与标记相关的特征就显得尤为重要ꎮ在目前的多标记特征选择中ꎬ大多数学者利用信息熵来度量特征与标记之间的相关性ꎬ选择信息熵较大的特征作为重要特征[20-22]只能处理离散型数据ꎬ对于标记分布中标记空间的连续型概ꎬ但是ꎬ传统的信息熵率分布数据并不适用ꎮ
在统计学中ꎬ皮尔逊相关系数(Pearson)常常用于度量两个连续变量X和Y之间的相关性ꎬ其值为-1~1ꎮ其中正值表示正相关ꎬ反之则为负相关ꎻ皮尔逊相关系数绝对值越大则表示两个变量的相关性越大ꎮ并且规定ꎬ若相关系数大于0.6则为强相关ꎬ相关系数小于0.2则为弱相关或不相关[23]
尔逊相关系数可以通过式(9)进行计算:
ꎮ皮
PearsonXꎬY=Covσ(XꎬY)E((X-μσXXσY=X)(σY
Y-μY))=
E(E(X2
-XYE)(X-E(XE)(EY(Y))
2
)
2
-E2
(Y)
(9)
2.其中2 :在传统的特征之间的冗余性
E表示数学期望)ꎬCov表示协方差ꎮ
OSFS框架[11]之下ꎬ往往是利用特征与标记之
化[24]判断ꎬꎬ对于强相关的特征直接保留进入最终的特征子集中利用皮尔逊相关系数对特征与标记之间的相关性进行ꎬ不相关的特征则直接舍弃ꎬ弱相关的特征暂时保留在弱相关子集中ꎬ在下一个弱相关特征流入时进行冗余性判断ꎮ
(8)对于流入的弱相关特征ꎬ的同时也确保了最小的特征子集计算冗余性ꎬ将冗余的属性直接舍弃与弱相关子集中的特征利用式ꎮ
ꎬ在保证分类器精度由于数据是实时产生并记录的ꎬ需要提前设置好相关参数:α为强相关系数ꎬβ为不相关系数ꎬγ为冗余性系数ꎮ
在线特征相关性 在t时刻获取特征fti关系数进行计算特征与标记的相关性计算:如果ꎬ利用皮尔逊相Pearsontα则为强相关性特征ꎬ直接存到最终的特征子集中ꎻ如i≥果
Pearsonti≤β则为不相关特征直接舍弃ꎬ如果α<Pearsont则暂时保留进行冗余性选择ꎮ
i<β在线特征冗余性 对于暂时保留的特征fti计算与tꎬ利用式(8)
Depi-1时刻确定的最终特征子集进行依赖度计算ꎬ如果ti则舍弃该特征≤γ则表示没有冗余性ꎮ
ꎬ该特征存到最终特征子集中ꎬ否通过相关性与冗余性的判断之后输出最终的特征子集ꎬ并利用此特征子集进行训练与测试ꎮ该算法的伪代码如下所示:
算法 基于粗糙集的数据流多标记分布特征选择ꎮ
输入 fti为ti时刻的特征数据ꎬα为强相关系数ꎬβ为不相关系数ꎬγ为冗余性系数ꎮ
输出 选择后的特征子集FSꎮ
1)2)repeat3)
利用皮尔逊相关系数计算在ti时刻得到一个新的特征数据ftiꎻ
4)5)6) IF 将Pearsont时刻的相关性Pearsontiꎻfti≥αti加入到FS中ꎻ7) 8) 跳转到步骤17)ꎻ9)
ELSE 舍弃IFfPearsonti≤βti10) ꎻ
11) ELSE
12) 利用式 IF 将Dep(8)计算特征间的依赖度Deptiꎻfti≤γ13)ti加入到FS中ꎻ14) 15) Else
舍弃ft16) Endiꎻ
17) EndIF并跳转到步骤IF并跳转到步骤17)ꎻ17)ꎻ18) 直到没有新的特征流入算法流程如图输出特征子集ꎻ1所示FS
ꎮ
31 08 计算机应用
5)Cosine相似度(↑):
^)=Cosine(TDꎬD
第38卷
6)Intersection相似度(↑):
^)=Intersetion(TDꎬD
nj=1
∑d
nj=1
∑d
nj=12
j
j
^dj^∑d
j=1n2j
3 实验结果及分析
Fig.1 FlowchartofFSSRSalgorithm
图1 FSSRS算法流程
3.1 评价指标
标记分布输出的是一个概率分布ꎬ不同于传统的多标记学习逻辑标记ꎮ评价算法表现优劣的指标就是预测的标记分布与真实分布之间的平均距离或相似度ꎮ根据文献[6]选出以下6个标记分布评价指标:Chebyshev距离、Clark距离、Canberra距离、Kullback ̄Leibler散度(KL ̄div)、余弦相关系数(Cosine)和交叉相似度(Intersection)ꎮ其中ꎬ前4个指标为平均距离ꎬ值越小越好ꎬ后2个指标为相似度ꎬ值越大越好ꎮ假设有n个标记的实例ꎬ真实标记分布为TD=(d1ꎬd2ꎬꎬdn)ꎬ
^=(d^ꎬd^ꎬꎬd^)ꎬ则6个指标计算公式预测标记分布为D12n
如下所示ꎬ其中↓表示值越小越好ꎬ↑表示值越大越好:
1)Chebyshev距离(↓):
3.2 实验数据集
本文所有实验均运行在3.4GHz处理器ꎬ8.00GB内存及MatlabR2016a的实验平台上ꎮ实验数据来源于标记分布常用数据集(http://ldl.herokuapp.com/download)ꎬ选取其中12个数据集进行对比实验ꎬ其基本信息如表2所示ꎮ3.3 实验结果与分析
为验证算法的有效性ꎬ与耿新提出的AA ̄kNN(AlgorithmAdaptationk ̄NearestNeighbors)、PT ̄SVM(ProblemTransformationSVM)和SA ̄IIS(SpecializedAlgorithmImprovedIterativeScaling)进行对比ꎬ对比实验采用10折交叉验证ꎮ表2中也列出了各数据集特征选择的数量ꎬ表3~8则给出了11个数据集在三种不同算法上的实验结果(平均值±标准差)ꎬ实验中ꎬα=0.8ꎬβ=0.3ꎬγ=0.5ꎮ表9和表10是在Yeast ̄dtt数据集上ꎬ分类器选择kNNꎬ当γ=0.5时ꎬα、β不同取值时的结果(说明:表中黑色加粗的数字表示在该指标上特征选择后的数据优于原始数据ꎻ数据括号中的数字为该值在评价指标中的排名情况)ꎮ
表2 实验数据集及实验中各自的特征选择的数量Tab.2 Datasetsandselectedfeaturesinexperiments数据集名称Yeast ̄coldYeast ̄alphaYeast ̄diauYeast ̄heatYeast ̄spoemSBU_3DFESJAFFEYeast ̄spoYeast ̄eluYeast ̄dttYeast ̄cdc
样本数2465246524652465246524652465246524652500213
特征数242424242424242424324324
标记数15187466666144
选择特征数
192315112016422122234
^)
∑min(dꎬd
j
j
2)Clark距离(↓):
^)=Clark(TDꎬD
^)=max^Chebshev(TDꎬDdj-djj
3)Canberra距离(↓):^)=Canberra(TDꎬD^)=KL ̄div(TDꎬD
∑nj=1nj=1
^)2
(dj-dj
^(dj+dj)2
^dj-dj
4)KL ̄div散度(↓):
n
∑
^dj+dj
^)
∑djln(dj/dj
j=1
数据集Yeast ̄coldYeast ̄alphaYeast ̄diauYeast ̄heatYeast ̄spoemSBU_3DFESJAFFEYeast ̄spoYeast ̄eluYeast ̄dttYeast ̄cdc
kNN
0.0607±0.00900.0186±0.00200.0147±0.00010.0422±0.00330.0431±0.00390.0186±0.00150.0486±0.00530.0715±0.01050.0940±0.00560.1330±0.01940.1505±0.0144
原始
特征选择后
Tab.3 ResultsofChebyshev
原始
SVM
特征选择后
原始
表3 Chebyshev实验结果
IIS
0.0567±0.00210.0176±0.00010.0146±0.00010.0394±0.00010.0392±0.00120.0176±0.00010.0450±0.00150.0630±0.00150.0937±0.00390.0959±0.00670.1290±0.0045
0.0559±0.00390.0172±0.00010.0141±0.00010.0457±0.00340.0392±0.00130.0169±0.00010.0439±0.00150.0624±0.00200.0923±0.00530.1229±0.00960.1392±0.0073
0.0170±0.00010.0138±0.00010.0432±0.00310.0378±0.00170.0437±0.00130.1214±0.0127
0.0561±0.00360.0622±0.00210.0233±0.00010.0202±0.00010.0454±0.00110.0497±0.00160.0239±0.00010.0526±0.00130.0652±0.00170.0929±0.00270.1164±0.01240.1344±0.0037
0.0569±0.00230.0198±0.00010.0436±0.00130.0475±0.00190.0510±0.00240.0611±0.00240.0882±0.0037
特征选择后
0.0231±0.0001
0.0170±0.00010.0632±0.00420.0928±0.00550.1395±0.0073
0.0240±0.0001
0.1345±0.0047
0.1194±0.0118
第11期程玉胜等:基于粗糙集的数据流多标记分布特征选择
表4 Clark实验结果
kNN
原始
0.1630±0.02190.2495±0.02590.2321±0.01030.2282±0.02060.1163±0.00960.2288±0.01460.2072±0.01870.2884±0.03280.1385±0.00740.4714±0.05160.4634±0.0436
特征选择后0.1538±0.00590.2371±0.00620.2305±0.00400.2123±0.00530.1064±0.00390.2170±0.00560.1955±0.00670.2687±0.00550.1390±0.00570.3392±0.01760.4069±0.0124
Tab.4 ResultsofClark原始
0.1517±0.00990.2279±0.00890.2244±0.00510.2438±0.01530.1065±0.00330.2110±0.00450.1898±0.00660.2643±0.00770.1363±0.00850.4509±0.03390.4251±0.0150
SVM
特征选择后0.1520±0.01060.2253±0.00580.2206±0.00680.2339±0.01380.1029±0.00480.2121±0.00520.1889±0.00550.2670±0.01630.1368±0.00780.4357±0.02340.4258±0.0147
原始
0.1665±0.00560.2928±0.00670.3035±0.00450.2413±0.00710.1322±0.00430.2754±0.00630.2237±0.00590.2778±0.00780.1378±0.00450.4196±0.01790.4139±0.0068
IIS
109 3
数据集Yeast ̄cold
Yeast ̄cdcYeast ̄alphaYeast ̄diauYeast ̄dttYeast ̄eluYeast ̄heatYeast ̄spoYeast ̄spoemSJAFFESBU_3DFE
特征选择后0.1537±0.00570.2918±0.00650.3022±0.00560.2297±0.00760.1266±0.00500.2753±0.00290.2182±0.00850.2614±0.01120.1311±0.00590.4247±0.01760.4140±0.0047
数据集Yeast ̄coldYeast ̄cdcYeast ̄alphaYeast ̄diauYeast ̄dttYeast ̄eluYeast ̄heatYeast ̄spoYeast ̄spoemSJAFFESBU_3DFE
kNN
原始
0.2810±0.03950.7530±0.07810.7584±0.04000.4903±0.04210.1998±0.01780.6805±0.04920.4140±0.03430.5873±0.06520.1933±0.01060.9638±0.09920.9510±0.0617
Tab.5 ResultsofCanberra
原始
0.2609±0.01630.6832±0.02590.7336±0.01730.5237±0.03460.1824±0.00520.6235±0.01240.3802±0.01300.5454±0.01780.1900±0.01160.9315±0.07070.9201±0.0297
SVM
特征选择后0.2631±0.01870.6752±0.01620.7221±0.02180.5036±0.02830.1767±0.00780.6272±0.01390.3778±0.01130.5509±0.03570.1908±0.01100.9127±0.05070.9214±0.0284
原始
0.2885±0.00970.8989±0.01881.0138±0.01370.5264±0.01550.2298±0.00790.8237±0.01970.4548±0.01160.5721±0.01700.1919±0.00600.8688±0.04740.8977±0.0160
表5 Canberra实验结果
特征选择后0.2653±0.00100.7173±0.01790.7532±0.01600.4562±0.01110.1830±0.00710.6411±0.01600.3930±0.01340.5546±0.01010.1936±0.00800.6939±0.04060.8373±0.0268
IIS
特征选择后0.2661±0.01060.8976±0.01651.0137±0.01790.4965±0.01850.2191±0.00950.8226±0.01120.4421±0.01730.5381±0.02300.1824±0.00800.8858±0.04490.8975±0.0185
数据集Yeast ̄coldYeast ̄alphaYeast ̄diauYeast ̄heatYeast ̄spoemSBU_3DFESJAFFEYeast ̄spoYeast ̄eluYeast ̄dttYeast ̄cdc
kNN
0.0151±0.00650.0083±0.00340.0058±0.00210.0074±0.00290.0074±0.00280.0149±0.00610.0306±0.01400.0268±0.01050.0938±0.02090.1100±0.02360.0155±0.0061
原始
Tab.6 ResultsofKullback ̄Leibler
特征选择后
原始
SVM
特征选择后
原始
表6 Kullback ̄Leibler实验结果
IIS
0.0131±0.00480.0075±0.00260.0059±0.00210.0133±0.00470.0065±0.00240.0066±0.00240.0130±0.00470.0263±0.00930.0262±0.00950.0525±0.00670.0830±0.0053
0.0123±0.00450.0007±0.00250.0055±0.00200.0166±0.00630.0064±0.00230.0061±0.00220.0123±0.00440.0253±0.00900.0247±0.00930.0796±0.01030.0879±0.0074
0.0068±0.00240.0053±0.00190.0153±0.00570.0060±0.00220.0122±0.00430.0269±0.01020.0768±0.0110
0.0126±0.00470.0155±0.00560.0116±0.00410.0104±0.00370.1660±0.00590.0101±0.00360.0108±0.00380.0171±0.00610.0266±0.00950.0252±0.00910.0703±0.00910.0822±0.0027
0.0131±0.00470.0114±0.00400.0103±0.00360.0153±0.00550.0092±0.00330.0162±0.00580.0241±0.00870.0228±0.00830.0821±0.00370.0728±0.00890.0109±0.0038
特征选择后
0.0062±0.00220.0271±0.01020.0881±0.0073
数据集Yeast ̄coldYeast ̄cdcYeast ̄alphaYeast ̄diauYeast ̄dttYeast ̄eluYeast ̄heatYeast ̄spoYeast ̄spoemSJAFFESBU_3DFE
kNN
原始
0.9866±0.01450.9912±0.00190.9936±0.00010.9842±0.00250.9920±0.00130.9921±0.00110.9843±0.00300.9678±0.00820.9742±0.00400.9091±0.02170.8937±0.0218
特征选择后0.9862±0.00120.9920±0.00010.9936±0.00010.9862±0.00010.9931±0.00010.9929±0.00010.9861±0.00100.9725±0.00010.9748±0.00190.9502±0.00530.9189±0.0050
Tab.7 ResultsinCosine原始
0.9867±0.00150.9925±0.00010.9940±0.00010.9826±0.00220.9932±0.00010.9934±0.00010.9868±0.00010.9732±0.00200.9756±0.00310.9248±0.00950.9150±0.0066
SVM
特征选择后0.9863±0.00190.9927±0.00010.9942±0.00010.9840±0.00190.9936±0.00010.9933±0.00010.9870±0.00010.9724±0.00390.9744±0.00370.9276±0.01120.9148±0.0065
原始
0.9833±0.00120.9870±0.00010.9881±0.00010.9821±0.00010.9890±0.00010.9877±0.00010.9813±0.00010.9716±0.00150.9760±0.00150.9338±0.00890.9200±0.0026
表7 Cosine实验结果
IIS
特征选择后0.9862±0.00110.9872±0.00010.9882±0.00010.9838±0.00110.9901±0.00010.9876±0.00010.9824±0.00130.9750±0.00190.9781±0.00160.9314±0.00910.9201±0.0035
31 10 计算机应用
表8 Intersection实验结果
kNN
0.9301±0.01040.9503±0.00520.9581±0.00220.9318±0.00540.9505±0.00460.9519±0.00370.9319±0.00580.9023±0.01120.9060±0.00560.8307±0.02040.8239±0.0149
原始
特征选择后
Tab.8 ResultsinIntersection
0.9356±0.00410.9550±0.00160.9595±0.00010.9268±0.00500.9550±0.00130.9560±0.00010.9375±0.00210.9098±0.00300.9077±0.00530.8411±0.01240.8350±0.0058
原始
SVM
0.9348±0.0047特征选择后
0.9281±0.00240.9363±0.00130.9428±0.00010.9258±0.00210.9427±0.00200.9406±0.00130.9242±0.00190.9051±0.00280.9071±0.00270.8393±0.00300.8525±0.0096
原始
IIS
第38卷
数据集Yeast ̄coldYeast ̄alphaYeast ̄diauYeast ̄heatYeast ̄spoemSBU_3DFESJAFFEYeast ̄spoYeast ̄eluYeast ̄dttYeast ̄cdc
0.9345±0.00240.9528±0.00110.9584±0.00010.9366±0.00160.9548±0.00010.9547±0.00110.9355±0.00220.9085±0.00150.9063±0.00390.8799±0.00800.8466±0.0052
0.9555±0.00010.9601±0.00120.9298±0.00400.9564±0.00180.9557±0.00010.9379±0.00180.8439±0.0116
0.9341±0.00270.9397±0.00110.9428±0.00100.9303±0.00260.9454±0.00240.9406±0.00010.9265±0.00290.9112±0.00370.9118±0.00370.8393±0.00380.8491±0.0098
特征选择后
0.9089±0.00610.9072±0.00550.8347±0.0056
Tab.9 ResultswithdifferentparameteronYeast ̄dtt(β=0.3ꎬγ=0.5)
评价指标ChebyshevCanberraKL ̄divCosineIntersectionClark
AA ̄kNN0.0411±0.0350(4)0.1118±0.0095(4)0.1919±0.0172(4)0.0070±0.0027(4)0.9925±0.0012(4)0.9526±0.0042(4)
α=0.8
0.0391±0.0001(1)0.1062±0.0029(2)0.1828±0.0051(1)0.0065±0.0025(2)0.9931±0.0001(1)0.9549±0.0011(2)
α=0.7
0.0391±0.0012(1)0.1060±0.0039(1)0.1824±0.0065(2)0.0064±0.0023(1)0.9931±0.0001(1)0.9550±0.0015(1)
α=0.6
0.0392±0.0015(3)0.1066±0.0041(3)0.1831±0.0068(3)0.0065±0.0024(2)0.9931±0.0001(1)0.9548±0.0016(3)
表9 Yeast ̄dtt数据集不同参数实验结果(β=0.3ꎬγ=0.5)
Tab.10 ResultswithdifferentparameteronYeast ̄dtt(β=0.2ꎬγ=0.5)
评价指标ChebyshevCanberraKL ̄divCosineIntersectionClark
AA ̄kNN0.0411±0.0350(4)0.1118±0.0095(4)0.1919±0.0172(4)0.0070±0.0027(4)0.9925±0.0012(4)0.9526±0.0042(4)
α=0.8
0.0390±0.0015(1)0.1058±0.0042(1)0.1819±0.0073(2)0.0065±0.0023(1)0.9931±0.0001(1)0.9551±0.0018(1)
α=0.7
0.3910±0.0015(2)0.1059±0.0042(2)0.1818±0.0070(1)0.0065±0.0024(1)0.9931±0.0001(1)0.9551±0.0017(1)
α=0.6
0.3950±0.0015(3)0.1070±0.0033(3)0.1826±0.0058(3)0.0065±0.0024(1)0.9930±0.0001(3)0.9547±0.0011(3)
表10 Yeast ̄dtt数据集不同参数实验结果(β=0.2ꎬγ=0.5)
从实验结果来看ꎬ在11个数据集6个评价指标共66个SVM有56.1%的结果优于原始数据ꎬSA ̄IIS有83.3%的结果优于原始数据ꎮ
从表9和表10可知:当β=0.3时ꎬα=0.7取得更多最优结果ꎻ当β=0.2时ꎬα=0.8取得更多最优结果ꎻ所有特征选择的结果都优于原始数据ꎮ
图2~图3是Yeast ̄cold数据集在不同参数下的实验结果对比ꎮ由图2可以看出ꎬ特征选择数目与弱相关系数有着密切的关系ꎻ由图3可以看出ꎬ经过特征选择后的分类效果要优于原始特征ꎬ结果也较为稳定ꎮ
了保证ꎬ多组实验证明了该算法的有效性ꎮ
实验结果上ꎬAA ̄kNN有95.5%的结果优于原始数据ꎬPT ̄
4 结语
针对传统多标记学习框架的逻辑标记和静态特征的情况ꎬ提出了基于粗糙集的数据流多标记分布特征选择算法ꎬ为了更加准确地对样本进行描述ꎬ将传统的逻辑标记转换成概率的形式ꎮ同时对实时产生的特征数据利用皮尔逊相关系数与粗糙集中的依赖度进行处理ꎬ保留符合条件的特征构成特征子集进行训练ꎬ在节约资源的情况下又使得分类精度得到
Fig.2 Numberofselectionwithdifferentparameters(Yeast ̄cold)
图2 不同参数特征选择个数(Yeast ̄cold)
但是本文仍存在一些问题ꎬ如FSSRS算法在进行冗余性判断时ꎬ对于已经是强相关性的特征没有进行冗余性检查ꎬ以后将对此进行改进ꎻ同时本文的参数是人为设定ꎬ今后将继续完善参数选择ꎬ使得算法更加高效ꎮ
第11期程玉胜等:基于粗糙集的数据流多标记分布特征选择111 3
Fig.3 ResultsofYeast ̄coldwithdifferentparameters
图3 Yeast ̄cold数据集不同参数实验结果
参考文献(References)
1 ZHANGML ZHOUZH.Areviewonmulti ̄labellearningalgo ̄
2014 26 8 1819-1837.
rithms J .IEEETransactionsonKnowledge&DataEngineering
11 WUX YUK WANGH etal.Onlinestreamingfeatureselection
tionalConferenceonMachineLearning. S.l. Omnipress C //Proceedingsofthe27thInternationalConferenceonInterna ̄
anthology/D/D16/D16 ̄1061.pdf.
2 ZHANGML.LIFT multi ̄labellearningwithlabel ̄specificfeatures
tificialIntelligence.MenloPark CA AAAIPress 2011 1609- C //Proceedingsofthe22ndInternationalJointConferenceonAr ̄
12 YUK DINGW WUX.LOFS alibraryofonlinestreamingfea ̄ 13 张振海 李士宁 李志刚 等.一类基于信息熵的多标签特征选
择算法 J .计算机研究与发展 2013 50 6 1177-1184. ZHANGZH LISN LIZG etal.Multi ̄labelfeatureselectionResearchandDevelopment 2013 50 6 1177-1184. tureselection J .Knowledge ̄BasedSystems 2016 113 1-3.
2010 1159-1166.
3 ZHANGML ZHOUZH.ML ̄KNN alazylearningapproachto
2048.
multi ̄labellearning J .PatternRecognition 2007 40 7 2038-
1614.
4 LEEJ KIMDW.Featureselectionformulti ̄labelclassification
ters 2013 34 3 349-357.
usingmultivariatemutualinformation J .PatternRecognitionLet ̄
algorithmbasedoninformationentropy J .JournalofComputer
14 PAWLAKZ.RoughSets TheoreticalAspectsofReasoningabout 15 杨传健 葛浩 汪志圣.基于粗糙集的属性约简方法研究综述
J .计算机应用研究 2012 29 1 16-20. YANGCJ GE J .ApplicationResearchofComputers 2012 29 1 16-20. H WANGZS.Overviewofattributereductionbasedonroughset
16 YUY PEDRYCZW MIAOD.Neighborhoodroughsetsbased
nationalJournalofApproximateReasoning 2013 54 9 1373-multi ̄labelclassificationforautomaticimageannotation J .Inter ̄Data M .Boston KluwerAcademicPublishers 1991 9-32.
5 ZHANGY ZHOUZH.Multi ̄labeldimensionalityreductionvia
dependencemaximization C //Proceedingsofthe23rdNationalPress 2008 1503-1505.
ConferenceonArtificialIntelligence.MenloPark CA AAAI 6 GENGX JIR.Labeldistributionlearning J .IEEETransactions 7 HEZ LIX ZHANGZ etal.Data ̄dependentlabeldistribution
ing 2017 26 8 3846-3858.
learningforageestimation J .IEEETransactionsonImageProcess ̄onKnowledge&DataEngineering 2016 28 7 1734-1748.
8 GENGX ZHOUZH SMITH ̄MILESK.Automaticageestimation
basedonfacialagingpatterns J .IEEETransactionsonPatternAnalysis&MachineIntelligence 2007 29 12 2234-2240.
17 YUY PEDRYCZW MIAOD.Multi ̄labelclassificationbyex ̄
2014 41 6 2989-3004.
ploitinglabelcorrelations J .ExpertSystemswithApplications
1387.
9 GENGX ZHOUZH SMITH ̄MILESK.Individualstablespace
anapproachtofacerecognitionunderuncontrolledconditions J .IEEETransactionsonNeuralNetworks 2008 19 8 1354-68.
18 段洁 胡清华 张灵均 等.基于邻域粗糙集的多标记分类特
征选择算法 J .计算机研究与发展 2015 52 1 56-65. DUJ HUQH ZHANGLJ etal.Featureselectionformulti ̄labelclassificationbasedonneighborhoodroughsets J .JournalofComputerResearchandDevelopment 2015 52 1 56-65.
10 ZHOUD ZHANGX ZHOUY etal.Emotiondistributionlearn ̄
ingfromtexts EB/OL . 2018 ̄03 ̄20 .http //www.aclweb.org/
下转第3118页
31 18 计算机应用第38卷
featureselectionbasedoncooperativecoevolutionwithnearestneighborrule J .PatternRecognition 2010 43 6 2082-
faultdetectionmethodbasedonstatisticalpatternandlocalnearest 3 ARIFM AKRAMMU MINHASFAA.PrunedfuzzyK ̄nearest
neighborclassifierforbeatclassification J .JournalofBiomedicalScience&Engineering 2010 3 4 380-389.
algorithmforbigdata J .Neurocomputing 2016 195 C 143- 4 DENGZ ZHUX CHENGD etal.EfficientkNNclassification
2018 38 4 965-970.
neighborhoodstandardization J .JournalofComputerApplications
-970. FENGLW ZHANGC LIY etal.Localoutlierfactor
13 DERRACJ TRIGUEROI GARCIAS etal.Integratinginstance
selection instanceweighting andfeatureweightingfornearestneighborclassifiersbycoevolutionaryalgorithms J .IEEETrans ̄actionsonSystems Man&Cybernetics PartB 2012 42 5
2105.
5 FAYEDHA ATIYAAF.Anoveltemplatereductionapproachfor
theK ̄nearestneighbormethod J .IEEETransactionsonNeuralNetworks 2009 20 5 890-896.
6 ZHANGS LIX MINGZ etal.EfficientkNNclassificationwith
differentnumbersofnearestneighbors J .IEEETransactionsonNeuralNetworks&LearningSystems 2017 29 5 1774-1785. 7 GILPITAR YAOX.Evolvingeditedk ̄nearestneighborclassifiers 8 XIEH LIANGD ZHANGZ etal.Anovelpre ̄classification
ternationalConferenceonDataMiningWorkshops.Piscataway NJ IEEE 2017 1269-1275.Computing 1998 82 1 1-6.
basedkNNalgorithm C //Proceedingsofthe2016IEEE16thIn ̄467.
J .InternationalJournalofNeuralSystems 2009 18 6 459-
148.
14 DERRACJ CORNELISC GARCÍAS etal.Enhancingevolu ̄
73-92.-77.
basedfeatureselection J .InformationSciences 2012 186 1
1383-1397.
tionaryinstanceselectionalgorithmsbymeansoffuzzyroughset
15 WITTENIH FRANKE.Datamining practicalmachinelearning
toolsandtechniques J .ACMSIGMODRecord 2005 31 1 76
16 HANLEYJA MCNEILBJ.Themeaninganduseoftheareaun ̄
deraReceiverOperatingCharacteristic ROC curve J .Radiolo ̄gy 1982 143 1 29.
17 COHENJ.Acoefficientofagreementfornominalscales J .Edu ̄ 18 WILCOXONF.Individualcomparisonsbyrankingmethods J .
ProceedingsoftheBiometricsBulletin 1945 1 6 80-83.ThisworkispartiallysupportedbytheNationalNaturalScienceFoun ̄cational&PsychologicalMeasurement 1960 20 1 37-46.
9 EIBENAE SCHOENAUERM.Evolutionarycomputing J .Soft 10 DONGCR CHANPPK NGWWY etal.2 ̄stageinstance
chineLearningandCybernetics.Piscataway NJ IEEE 2010 C //Proceedingsofthe2010InternationalConferenceonMa ̄selectionalgorithmforKNNbasedonnearestunlikeneighbors
dationofChina 61563012 61203109 theGuangxiNaturalSciencegxiKeyLaboratoryofEmbeddedTechnologyandIntelligentSystemFoun ̄dation.
Foundation 2014GXNSFAA118371 2015GXNSFBA139260 theGuan ̄
11 ACAMPORAG TORTORAG VITIELLOA.ApplyingSPEA2to
ceedingsofthe2016IEEEInternationalConferenceonSystems 3929.
prototypeselectionfornearestneighborclassification C //Pro ̄Man andCybernetics.Piscataway NJ IEEE 2017 3924-
134-140.
telligentcomputing machinelearning.
HUANGYuyang bornin1996.Hisresearchinterestsincludein ̄DONGMinggang bornin1977 Ph.D. professor.HisresearchJINGChao bornin1983 Ph.D. lecturer.Hisresearchinterests
interestsincludeintelligentcomputing machinelearning.learning.
12 DERRACJ GARCíAS HERRERAF.IFS ̄Coco Instanceand
includepoweroptimizationonclouddatacenters deepreinforcement
(上接第3111页)
19 李志欣 卓亚琦 张灿龙 等.多标记学习研究综述 J .计算机
应用研究 2014 31 6 1601-1605. LIZX ZHUOYQ ResearchofComputers 2014 31 6 1601-1605.
ZHANGCL etal.Surveyonmulti ̄labellearning J .Application
20 刘景华 林梦雷 王晨曦 等.基于局部子空间的多标记特征
选择算法 J .模式识别与人工智能 2016 29 3 240-251. LIUJH LINML WANGCX etal.Multi ̄labelfeatureselec ̄ArtificialIntelligence 2016 29 3 240-251.
24 DOUGHERTYJ KOHAVIR SAHAMIM.Supervisedandunsu ̄
RenminUniversityPress 2012 268-270.
perviseddiscretizationofcontinuousfeatures C //ProceedingsoftheTwelfthInternationalConferenceonMachineLearning.SanFrancisco CA MorganKaufmannPublishers 1995 194-202.
tionalgorithmbasedonlocalsubspace J .PatternRecognitionand
21 LIF MIAOD PEDRYCZW.Granularmulti ̄labelfeatureselec ̄
67 C 410-423.
tionbasedonmutualinformation J .PatternRecognition 2017
FundsofEducationDepartmentofAnhuiProvince KJ2017A352 theinceUniversity D1801 .
KeyLaboratoryofDataScienceandIntelligenceApplication FujianProv ̄
ThisworkispartiallysupportedbytheNaturalScienceResearch
CHENGYusheng bornin1969.Ph.D. professor.Hisresearchinterestsincluderoughsets machinelearning datamining.includemulti ̄labellearning roughset.
CHENFei bornin1994.M.S.candidate.HisresearchinterestsWANGYibin bornin1970.M.S. associateprofessor.Hisre ̄
22 LEEJ KIMDW.Mutualinformation ̄basedmulti ̄labelfeature
plications 2015 42 4 2013-2025.
selectionusinginteractioninformation J .ExpertSystemswithAp ̄
23 贾俊平.统计学 M .5版.北京 中国人民大学出版社 2012
268-270. JIAJP.Statistics M .5thed.Beijing Chinasearchinterestsincludemachinelearning multi ̄labellearning.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务