您的当前位置：首页基于粗糙集的数据流多标记分布特征选择

基于粗糙集的数据流多标记分布特征选择

来源：华佗小知识

ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ

计算机应用２０１８３８１１３１０５－３１１１３１１８文章编号:１００１￣９０８１(２０１８)１１￣３１０５￣０７

ＩＳＳＮ１００１￣９０８１

ＣＯＤＥＮＪＹＩＩＤＵ２０１８￣１１￣１０

ｈｔｔｐ //ｗｗｗ.ｊｏｃａ.ｃｎ

ＤＯＩ:１０.１１７７２/ｊ.ｉｓｓｎ.１００１￣９０８１.２０１８０４１２７５

基于粗糙集的数据流多标记分布特征选择

１.安庆师范大学计算机与信息学院安徽安庆２４６０１１　２.安徽省智能感知与计算重点实验室安徽安庆２４６０１１

３.数据科学与智能应用福建省高校重点实验室福建漳州３６３０００

∗通信作者电子邮箱ｃｈｅｎｇｙｓｈａｑ＠１６３.ｃｏｍ

程玉胜１２３陈　飞１王一宾１２

∗

摘　要:针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题ꎬ提出了基于粗糙集的数据流多标记分布特征选择算法ꎮ首先ꎬ将在线流特征选择框架引入多标记学习中ꎻ其次ꎬ用粗糙集中的依赖度替代原有的条件概率ꎬ仅仅利用数据自身的信息计算ꎬ使得数据流特征选择算法更加高效快捷ꎻ最后ꎬ由于在现实世界中ꎬ每个标记对实例的描述程度并不相同ꎬ为更加准确地描述实例ꎬ将传统的逻辑标记用标记分布的形式进行刻画ꎮ在多组数据集上的实验表明ꎬ所提算法能保留与标记空间有着较高相关性的特征ꎬ使得分类精度相较于未进行特征选择的有一定程度的提高ꎮ

关键词:粗糙集ꎻ多标记ꎻ数据流ꎻ特征选择ꎻ标记分布中图分类号:ＴＰ３９１　　文献标志码:Ａ

Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒｍｕｌｔｉ￣ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｗｉｔｈ

ｓｔｒｅａｍｉｎｇｄａｔａｂａｓｅｄｏｎｒｏｕｇｈｓｅｔ

１.ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＡｎｑｉｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙＡｎｑｉｎｇＡｎｈｕｉ２４６０１１Ｃｈｉｎａ

２.ＵｎｉｖｅｒｓｉｔｙＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｔｅｌｌｉｇｅｎｔＰｅｒｃｅｐｔｉｏｎａｎｄＣｏｍｐｕｔｉｎｇｏｆＡｎｈｕｉＰｒｏｖｉｎｃｅＡｎｑｉｎｇＡｎｈｕｉ２４６０１１Ｃｈｉｎａ３.ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＤａｔａＳｃｉｅｎｃｅａｎｄＩｎｔｅｌｌｉｇｅｎｃｅＡｐｐｌｉｃａｔｉｏｎＦｕｊｉａｎＰｒｏｖｉｎｃｅＵｎｉｖｅｒｓｉｔｙＺｈａｎｇｚｈｏｕＦｕｊｉａｎ３６３０００Ｃｈｉｎａ

ＣＨＥＮＧＹｕｓｈｅｎｇ１２３ＣＨＥＮＦｅｉ１ＷＡＮＧＹｉｂｉｎ１２

∗

ｃｏｍｐｌｉｃａｔｅｄａｎｄｔｈｅｄｅｓｃｒｉｐｔｉｏｎｏｆｔｈｅｉｎｓｔａｎｃｅｉｓｎｏｔａｃｃｕｒａｔｅｅｎｏｕｇｈ.Ａｍｕｌｔｉ￣ｌａｂｅｌＤｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎｗｉｔｈＳｔｒｅａｍｉｎｇＤａｔａＵｓｉｎｇＲｏｕｇｈＳｅｔＦＳＳＲＳｗａｓｐｒｏｐｏｓｅｄｔｏｓｏｌｖｅｔｈｅａｂｏｖｅｐｒｏｂｌｅｍ.Ｆｉｒｓｔｌｙｔｈｅｏｎｌｉｎｅｓｔｒｅａｍｉｎｇｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｆｒａｍｅｗｏｒｋｗａｓｉｎｔｒｏｄｕｃｅｄｉｎｔｏｍｕｌｔｉ￣ｌａｂｅｌｌｅａｒｎｉｎｇ.Ｓｅｃｏｎｄｌｙｔｈｅｏｒｉｇｉｎａｌｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙｗａｓｒｅｐｌａｃｅｄｂｙｔｈｅｄｅｐｅｎｄｅｎｃｙｉｎｒｏｕｇｈｓｅｔｔｈｅｏｒｙｗｈｉｃｈｍａｄｅｔｈｅｓｔｒｅａｍｉｎｇｄａｔａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｍｏｒｅｅｆｆｉｃｉｅｎｔａｎｄｆａｓｔｅｒｔｈａｎｂｅｆｏｒｅｂｙｏｎｌｙｕｓｉｎｇｔｈｅｉｎｆｏｒｍａｔｉｏｎｃａｌｃｕｌａｔｉｏｎｏｆｔｈｅｄａｔａｉｔｓｅｌｆ.Ｆｉｎａｌｌｙｓｉｎｃｅｅａｃｈｌａｂｅｌｈａｓａｄｉｆｆｅｒｅｎｔｄｅｇｒｅｅｏｆｄｅｓｃｒｉｐｔｉｏｎｆｏｒｔｈｅｓａｍｅｉｎｓｔａｎｃｅｉｎｒｅａｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｉｓｉｍｐｒｏｖｅｄｔｏａｃｅｒｔａｉｎｅｘｔｅｎｔｃｏｍｐａｒｅｄｗｉｔｈｔｈａｔｗｉｔｈｏｕｔｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ.

Ｋｅｙｗｏｒｄｓｒｏｕｇｈｓｅｔｍｕｌｔｉ￣ｌａｂｅｌｓｔｒｅａｍｉｎｇｄａｔａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎ

ｗｏｒｌｄｔｏｍａｋｅｔｈｅｄｅｓｃｒｉｐｔｉｏｎｏｆｔｈｅｉｎｓｔａｎｃｅｍｏｒｅａｃｃｕｒａｔｅｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｗａｓｕｓｅｄｔｏｉｎｓｔｅａｄｏｆｔｒａｄｉｔｉｏｎａｌｌｏｇｉｃａｌｌａｂｅｌｓ.Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｃａｎｒｅｔａｉｎｔｈｅｆｅａｔｕｒｅｓｗｉｔｈｈｉｇｈｃｏｒｒｅｌａｔｉｏｎｗｉｔｈｔｈｅｌａｂｅｌｓｐａｃｅｓｏｔｈａｔｔｈｅ

ＡｂｓｔｒａｃｔＴｒａｄｉｔｉｏｎａｌｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｃａｎｎｏｔｐｒｏｃｅｓｓｓｔｒｅａｍｉｎｇｆｅａｔｕｒｅｄａｔａｔｈｅｒｅｄｕｎｄａｎｃｙｃａｌｃｕｌａｔｉｏｎｉｓ

０　引言

多标记学习作为机器学习研究热点ꎬ对现实世界中多义性对象的研究具有重要意义[１]ꎬ并且多标记学习对象在日常生活中广泛存在ꎮ在多标记学习框架之下ꎬ数据往往面临多标记性和高维性等多种问题ꎬ使得手工标记一般费时费力ꎮ同时随着数据维数的不断增加ꎬ分类器的分类精度也在不断下降ꎬ因此探究高效的分类算法就显得尤为重要ꎮ近年来ꎬ相关学者在此问题上的研究已经取得了卓越的成绩ꎬ提出了多种算法[２－５]ꎮ在现有的多标记分类算法中ꎬ与实例相关的标记重要程度被视作相同ꎬ然而在现实世界中ꎬ不同的标记对于同一个实例的描述程度并不都是相同的ꎮ例如在一幅自然风景图中ꎬ如果出现大量的“蓝天”ꎬ那么出现大量“白云”的概

率也就高ꎬ其他标记的可能性也就比较低ꎬ这种现象被称为标记的不平衡性ꎮ针对这种标记的不平衡性ꎬＧｅｎｇ等[６]提出了一种标记分布学习(ＬａｂｅｌＤｉｓｔｒｉｂｕｔｉｏｎＬｅａｒｎｉｎｇꎬＬＤＬ)范式ꎬ将传统的逻辑标记用概率分布的形式来进行描述ꎬ更加准确地反映了实例的相关内容ꎮ目前也有很多学者在标记分布学习范式下对人年龄[７－８]、人脸面部识别[９]、文本情感分类[１０]等领域进行研究ꎮ

然而ꎬ无论是传统的多标记学习还是标记分布学习ꎬ其特征选择方法都假定从一开始就可以获得所有实例的特征数据ꎮ但是在许多情况下ꎬ往往无法一次性获取实例的所有特征数据ꎬ更多呈现动态生成并记录相应特征数据ꎬ这种情况获取的特征称为流特征ꎬ相应的特征选择算法称为流特征选择算法[１１]ꎮ例如ꎬ对一篇小说进行分类并标上标记ꎬ需要提取

　　收稿日期:２０１８￣０４￣２８ꎻ修回日期:２０１８￣０６￣２０ꎻ录用日期:２０１８￣０６￣２９ꎮ

　　基金项目:安徽省高校重点科研项目(ＫＪ２０１７Ａ３５２)ꎻ数据科学与智能应用福建省高校重点实验室开放课题(Ｄ１８０１)ꎮ

　　作者简介:程玉胜(１９６９—)ꎬ男ꎬ安徽桐城人ꎬ教授ꎬ博士ꎬ主要研究方向:粗糙集、机器学习、数据挖掘ꎻ　陈飞(１９９４—)ꎬ男ꎬ安徽铜陵人ꎬ硕士研究生ꎬＣＣＦ会员ꎬ主要研究方向:多标记学习、粗糙集ꎻ　王一宾(１９７０—)ꎬ男ꎬ安徽安庆人ꎬ教授ꎬ硕士ꎬＣＣＦ会员ꎬ主要研究方向:机器学习、多标记学习ꎮ

　３１　０６　　计算机应用

１.２　标记分布学习

Ｄ＝{(ＴｊꎬＬｊ)｜１≤ｊ≤ｉꎬＴｊ∈ＴꎬＬｊ∈Ｌ}

第３８卷

(１)

小说里面所有的高频词特征ꎮ如果小说的篇幅比较长则提取所有特征就需要耗费大量的时间ꎬ等所有的特征全部提取完之后再进行分类训练是不可能的ꎬ更可取的方法是一次一个地生成候选特征ꎬ从生成的候选特征中选择特征集合较小并且分类效果也好的特征集合作为最后的特征ꎬ这种做法不仅会节省大量的资源ꎬ同时分类精度也得到了保证ꎮ基于此ꎬＷｕ等

[１１]

传统的多标记学习是将每一个标记对实例的重要程度都

看成一样的ꎬ用１和－１的逻辑标记来表示是否有相关标记ꎮ但是在真实的世界中ꎬ由于标记的不平衡性导致不同的标记对实例的描述程度是不同的ꎬ例如人类脸上的表情并不能用单一的开心或者不开心来表示ꎮ为了更好地对实例进行描述ꎬＧｅｎｇ等[６]提出了标记分布学习范式ꎬ用概率来代替传统

ｊ的逻辑标记ꎮ对于一个有ｍ个标记的实例ｘꎬｄｙｘ表示第ｊ个标ｊ

记对实例ｘ的描述程度ꎬ为了不失一般性ｄｙｘ∈[０ꎬ１]且

ＳｅｌｅｃｔｉｏｎꎬＯＳＦＳ)ꎬ通过对特征的相关性和冗余性进行分析ꎬ得到满足条件的特征集合ꎬ并在文献[１２]中设计出了一系列的算法ꎬ取得了十分明显的效果ꎮ但是ꎬ文献[１２]中所提到的算法主要适用于离散的数据ꎬ且为单个逻辑标记的数据集ꎬ提出了在线流特征选择(ＯｎｌｉｎｅＳｔｒｅａｍｉｎｇＦｅａｔｕｒｅ

ｍｙｙｙ对于多个逻辑标记及其标记分布并不适用ꎮ

另外ꎬ上述算法无论是逻辑标记还是标记分布ꎬ在对特征进行选择时考虑更多的是特征与标记之间的相关性ꎬ如:张振海等[１３]利用信息熵进行多标记的特征选择ꎻＬｅｅ等[４]提出一种使用多变量互信息对特征进行选择ꎬ但对特征之间的冗余性考虑不充分ꎬ属性约简不够充分ꎮＯＳＦＳ虽然考虑了特征间的冗余性ꎬ但计算过程较为复杂ꎬ算法效率较低ꎬ而粗糙集最大的贡献就是进行属性约简ꎬ去除冗余属性ꎮ

粗糙集理论是Ｐａｗｌａｋ[１４]提出的一种处理不精确、不确定的数学工具ꎬ自提出以来在人工智能、机器学习、数据挖掘等领域得到了成功应用ꎮ相较于其他的特征选择算法ꎬ粗糙集方法不需要先验知识ꎬ计算过程简单高效ꎬ仅仅利用数据本身所提供的信息发现问题的规律

[１５]

下近似来对知识进行描述ꎬ通过下近似与全体论域之间的比ꎮ粗糙集理论通过构建上

值来刻画属性的依赖度从而判断属性的冗余性ꎮ一般来说ꎬ下近似越大ꎬ属性间的依赖度越大ꎬ冗余性也就越大ꎮ目前利用粗糙集进行属性约简和特征选择是多标记学习的一个热点ꎬＹｕ等

[１６－１７]

将粗糙集的扩展邻域粗糙集应用在多标记分

类问题上ꎬ取得了显著的成绩ꎻ段洁等[１８]

利用邻域粗糙集实

现了多标记分类任务的特征选择算法ꎮ但上述算法都应用在逻辑标记且特征数据是静态的环境下ꎬ对现实世界中的数据流的情况并不适用ꎮ

目前ꎬ针对流特征数据的研究更加具有现实意义ꎬ同时ꎬ标记分布比传统的逻辑标记更能反映样本标记的真实情况ꎮ由此(ꎬ本文提出了基于粗糙集的数据流多标记分布特征选择Ｓｔｒｅａｍｉｎｇｍｕｌｔｉ￣ｌａｂｅｌ

Ｄｉｓｔｒｉｂｕｔｉｏｎ

ｌｅａｒｎｉｎｇ

Ｆｅａｔｕｒｅ

Ｓｅｌｅｃｔｉｏｎ

ｗｉｔｈ

征选择算法应用在多标记学习框架之下ＤａｔａＵｓｉｎｇＲｏｕｇｈＳｅｔꎬＦＳＳＲＳ)算法ꎬ其次将传统的逻辑ꎮ首先将在线特标记转换成标记分布形式进行学习ꎬ同时利用粗糙集中的依赖度来度量特征之间的相关性ꎬ从而去除冗余属性ꎬ保证最终的特征子集的分类效果ꎮ实验结果表明该方法是有效的ꎮ

１　１.１　相关工作

多标记学习是针对现实生活中普遍存在的多义性对象而

传统多标记学习

提出的一种学习框架ꎬ在这个框架之下ꎬ样本由多个特征和多个标记构成ꎬ学习的目的是将未知的实例对应上更多正确的标记[１９]ｔꎮ假设Ｔ是含有ｎ个特征的特征集合Ｔ＝{ｔ１ꎬｔ２ꎬ􀆺ꎬ１ｎ}ꎬ表示有该标记Ｌ是由ｍ个标记组成的标记集合ꎬ而－１表示没有该标记Ｌ＝ꎬ则含有{ｌ１ꎬｌ２ꎬ􀆺ꎬｉ个样本的多

ｌｍ}ꎬ其中标记数据集可以表示为:

ｘｊ

＝１ꎮ如果ｄｘｊ

＝０则表示实例ｘ没有该标记ꎻ如果ｄｘｊ＝

１∑ｊ＝表示该标记可以完全描述实例１

ｄ

确地对实例进行描述ꎬ也符合现实生活中的情况ｘꎮ利用标记分布可以更加准１.３　传统的多标记学习中数据流特征选择

ꎮ

ꎬ所有实例的特征数据都是完整的ꎬ

并可以一次性获得ꎬ从而进行相应的分类学习ꎮ但是ꎬ在一些情况下ꎬ同一实例的不同特征数据往往是实时生成并记录的ꎬ并且这些特征的生成是无序的ꎬ有些特征数据甚至是无穷的ꎮ如果用传统的多标记特征选择算法无疑会浪费大量的时间和精力ꎬ对于那些特征数据是无穷的实例ꎬ传统方法更是无法进行特征选择ꎮ解决这个问题最好的方法就是从实时产生的特征数据中选择符合一定条件的特征构成候选特征子集ꎬ利用这个特征子集进行相应的训练和测试ꎬ这种方法被称为在线流特征选择(ＯＳＦＳ)[１１]择标准总共分成两部分ꎮ:１)在特征与标记之间相关性ＯＳＦＳ框架之下ꎬ对特征子集的选ꎻ２)特征与特征之间的冗余性ꎮ根据上述两种情况ꎬ候选的特征集合又可以分为以下４个部分:１)不相关的特征ꎻ２)强相关的特征ꎻ３)弱相关非冗余特征ꎻ４)弱相关冗余特征ꎮ

通过计算特征与标记之间的相关性舍弃不相关特征并保留强相关特征ꎬ对于弱相关的特征再进行特征之间冗余性判断ꎬ舍弃冗余属性ꎮ由此ꎬ最终的特征子集应包括强相关特征１.和弱相关但非冗余特征４　粗糙集理论ꎮ

粗糙集理论是一种处理不精确、不确定的数学工具ꎬ自提

出便广泛应用到人工智能、机器学习等领域ꎮ在粗糙集理论中ꎬ对于一个信息系统ＩＳ＝‹ＵꎬＱꎬＶꎬｆ›ꎬ其中:Ｕ表示全体论域ꎬ即样本集合ꎻＱ表示属性集合(包括条件属性Ｃ和决策属性Ｄ)ꎻＶ表示属性的值域ꎻｆ表示一种映射ꎮ在分类过程中ꎬ差别不大的样本被划成一类ꎬ它们的关系被称为相容关系或者等价关系ꎮ为方便问题描述ꎬ本文仅仅考虑了等价关系ꎮ对于任何一个属性集合Ｃꎬ其等价关系可以用下面不可分辨关系ＩＮＤ来表示ꎬ定义如下:

ＩＮＤ(Ｃ)＝{(ｘꎬｙ)∈Ｕ×Ｕ:ｆ(ｘꎬａ)＝ｆ(ｙꎬａ)ꎬａ∈(２)

Ｃ}不可分辨关系也就是Ｕ上的等价关系ꎬ可以用Ｕ/Ｃ来表示ꎮ粗糙集理论中ꎬ用上下近似来对知识进行描述ꎬ假设Ｂ⊆ＣꎬＸ⊆􀭵Ｕꎬ则Ｂ的上近似与Ｂ的下近似定义如下:ＢＸ

＝{ｘ｜[ｘ]ＢＸ＝{ｘ｜[ｘ]Ｂ∩Ｘ≠∅}Ｂ通过上下近似可以定义正域⊆Ｘ}

(３)(ＰＯＳ)、负域(ＮＥＧ)和边界(４)域(ＢＮＧ):

第１１期

ＰＯＳＢ(Ｘ)＝ＢＸ􀭵ＮＥＧＢ(Ｘ)＝Ｕ－ＢＸ􀭵－ＢＸＢＮＤＢ(Ｘ)＝ＢＸ

程玉胜等:基于粗糙集的数据流多标记分布特征选择

(５)(６)(７)

１０７　　３　　

间的条件概率对特征的冗余性进行判断ꎬ对于特征Ｘ、Ｓ和标记Ｔꎬ如果Ｐ(Ｔ｜ＸꎬＳ)＝Ｐ(Ｔ｜Ｓ)ꎬ则表示特征Ｘ对标记Ｔ是冗余的ꎮ这种判断方法需要知道特征空间、标记空间和每个特征的先验知识且计算复杂ꎬ而粗糙集方法可以很好地解决这个问题ꎮ在粗糙集理论中ꎬ条件属性与决策属性之间的依赖度可以很好地刻画两者之间的依赖程度ꎮ将依赖度引入到特征选择中对两个特征之间进行冗余性判断ꎮ计算流入特征与已确定特征之间的依赖度ꎬ若两者依赖度越大ꎬ性越２.３　基于粗糙集的数据流多标记分布特征选择

ＦＳＳＲＳ算法对于实时产生的特征数据进行十折离散小ꎬ冗余性也就越大ꎮ

发现属性之间的依赖关系也是数据分析中十分重要的一个问题ꎮ在粗糙集理论中ꎬ可以利用依赖度(Ｄｅｐ)来表示两个属性之间的依赖程度ꎮ假设Ｂ⊆Ｃꎬ则决策属性Ｄ对条件属性Ｂ的依赖程度用式(８)进行计算:

Ｄｅｐ(ＢꎬＤ)＝其中:ＰＯＳＢ(Ｄ)＝

ＰＯＳＢ(Ｄ)

Ｕ

(８)

Ｘ∈Ｕ/Ｄ

据式(８)可知Ｄｅｐ的取值为０~１ꎬ当Ｄｅｐ＝１时ꎬ表示Ｄ的取∪

ＢＸꎬ｜∗｜表示集合中元素的个数ꎮ根

值完全取决于Ｂꎬ此时两者的依赖度最大ꎮ

如表１所示ꎬ对于条件属性ｃＵ/ｃ１ꎬ不可分辨关系为ＩＮＤ(ｃ１)＝

１＝{{１}ꎬ{２ꎬ４}ꎬ{３}}ꎬ决策属性ｄ的不可分辨关系为

ＩＮＤ(ｄ)＝Ｕ/ｄ＝{{１ꎬ４}ꎬ{２}ꎬ{３}}ꎮ关于Ｄ的上近似为􀭵ＣＤ

＝∅ꎬ边界域为＝􀭵令Ｃ＝ｃＣＤ

ＢＮＧＣＤ＝＝{１ꎬ２ꎬ３ꎬ４}ꎬ{１ꎬ３}ꎬ负域为下近似为１ＮＥＧＣＤꎬＤ＝＝{１ꎬ３}ꎬｄꎬ则Ｃ

正域为ＰＯＳＣ(Ｄ)Ｃ(Ｄ)＝(ＣꎬＤ)＝

ＰＯＳ＝ＣＤ􀭵－ＣＤ＝{２ꎬ４}ꎬ两者的依Ｕ－

Ｃ赖度为Ｄｅｐ(Ｄ)Ｃ表１　粗糙集示例(Ｄ)/Ｕ＝２/４＝１/２ꎮ

ｘ∈ＵｃＴａｂ.１　ｃＥｘａｍｐｌｅｄａｔａｏｆｒｏｕｇｈｓｅｔ

２ｃｃｄ１２１１１３２２２３２４４

０１１３２２

２

１２

１３２

１２

２　２.１　数据流多标记分布特征选择算法

在多标记学习框架之下特征与标记的相关性

ꎬ标记的准确性常常与特征的个数有着密切的联系ꎮ在一定的范围内特征越多标记准确性也就越高ꎬ但随着特征数目的不断增加ꎬ次要特征和冗余特征也随之增多ꎬ这就会导致分类器的精度下降ꎬ所以选择与标记相关的特征就显得尤为重要ꎮ在目前的多标记特征选择中ꎬ大多数学者利用信息熵来度量特征与标记之间的相关性ꎬ选择信息熵较大的特征作为重要特征[２０－２２]只能处理离散型数据ꎬ对于标记分布中标记空间的连续型概ꎬ但是ꎬ传统的信息熵率分布数据并不适用ꎮ

在统计学中ꎬ皮尔逊相关系数(Ｐｅａｒｓｏｎ)常常用于度量两个连续变量Ｘ和Ｙ之间的相关性ꎬ其值为－１~１ꎮ其中正值表示正相关ꎬ反之则为负相关ꎻ皮尔逊相关系数绝对值越大则表示两个变量的相关性越大ꎮ并且规定ꎬ若相关系数大于０.６则为强相关ꎬ相关系数小于０.２则为弱相关或不相关[２３]

尔逊相关系数可以通过式(９)进行计算:

ꎮ皮

ＰｅａｒｓｏｎＸꎬＹ＝Ｃｏｖσ(ＸꎬＹ)Ｅ((Ｘ－μσＸＸσＹ＝Ｘ)(σＹ

Ｙ－μＹ))＝

Ｅ(Ｅ(Ｘ２

－ＸＹＥ)(Ｘ－Ｅ(ＸＥ)(ＥＹ(Ｙ))

２

)

２

－Ｅ２

(Ｙ)

(９)

２.其中２　:在传统的特征之间的冗余性

Ｅ表示数学期望)ꎬＣｏｖ表示协方差ꎮ

ＯＳＦＳ框架[１１]之下ꎬ往往是利用特征与标记之

化[２４]判断ꎬꎬ对于强相关的特征直接保留进入最终的特征子集中利用皮尔逊相关系数对特征与标记之间的相关性进行ꎬ不相关的特征则直接舍弃ꎬ弱相关的特征暂时保留在弱相关子集中ꎬ在下一个弱相关特征流入时进行冗余性判断ꎮ

(８)对于流入的弱相关特征ꎬ的同时也确保了最小的特征子集计算冗余性ꎬ将冗余的属性直接舍弃与弱相关子集中的特征利用式ꎮ

ꎬ在保证分类器精度由于数据是实时产生并记录的ꎬ需要提前设置好相关参数:α为强相关系数ꎬβ为不相关系数ꎬγ为冗余性系数ꎮ

在线特征相关性　在ｔ时刻获取特征ｆｔｉ关系数进行计算特征与标记的相关性计算:如果ꎬ利用皮尔逊相Ｐｅａｒｓｏｎｔα则为强相关性特征ꎬ直接存到最终的特征子集中ꎻ如ｉ≥果

Ｐｅａｒｓｏｎｔｉ≤β则为不相关特征直接舍弃ꎬ如果α<Ｐｅａｒｓｏｎｔ则暂时保留进行冗余性选择ꎮ

ｉ<β在线特征冗余性　对于暂时保留的特征ｆｔｉ计算与ｔꎬ利用式(８)

Ｄｅｐｉ－１时刻确定的最终特征子集进行依赖度计算ꎬ如果ｔｉ则舍弃该特征≤γ则表示没有冗余性ꎮ

ꎬ该特征存到最终特征子集中ꎬ否通过相关性与冗余性的判断之后输出最终的特征子集ꎬ并利用此特征子集进行训练与测试ꎮ该算法的伪代码如下所示:

算法　基于粗糙集的数据流多标记分布特征选择ꎮ

输入　ｆｔｉ为ｔｉ时刻的特征数据ꎬα为强相关系数ꎬβ为不相关系数ꎬγ为冗余性系数ꎮ

输出　选择后的特征子集ＦＳꎮ

１)２)ｒｅｐｅａｔ３)　

　　利用皮尔逊相关系数计算在ｔｉ时刻得到一个新的特征数据ｆｔｉꎻ

４)５)６)　ＩＦ　将Ｐｅａｒｓｏｎｔ时刻的相关性Ｐｅａｒｓｏｎｔｉꎻｆｔｉ≥αｔｉ加入到ＦＳ中ꎻ７)　８)　　跳转到步骤１７)ꎻ９)

　ＥＬＳＥ　舍弃ＩＦｆＰｅａｒｓｏｎｔｉ≤βｔｉ１０)　ꎻ

１１)　ＥＬＳＥ

１２)　　　　利用式　ＩＦ　将Ｄｅｐ(８)计算特征间的依赖度Ｄｅｐｔｉꎻｆｔｉ≤γ１３)ｔｉ加入到ＦＳ中ꎻ１４)　　１５)　　　　Ｅｌｓｅ

　舍弃ｆｔ１６)　　Ｅｎｄｉꎻ

１７)　ＥｎｄＩＦ并跳转到步骤ＩＦ并跳转到步骤１７)ꎻ１７)ꎻ１８)　直到没有新的特征流入算法流程如图输出特征子集ꎻ１所示ＦＳ

ꎮ

　３１　０８　　计算机应用

　　５)Ｃｏｓｉｎｅ相似度(↑):

＾)＝Ｃｏｓｉｎｅ(ＴＤꎬＤ

第３８卷

６)Ｉｎｔｅｒｓｅｃｔｉｏｎ相似度(↑):

＾)＝Ｉｎｔｅｒｓｅｔｉｏｎ(ＴＤꎬＤ

ｎｊ＝１

∑ｄ

ｎｊ＝１

∑ｄ

ｎｊ＝１２

ｊ

＾ｄｊ＾∑ｄ

ｊ＝１ｎ２ｊ

３　实验结果及分析

Ｆｉｇ.１　ＦｌｏｗｃｈａｒｔｏｆＦＳＳＲＳａｌｇｏｒｉｔｈｍ

图１　ＦＳＳＲＳ算法流程

３.１　评价指标

标记分布输出的是一个概率分布ꎬ不同于传统的多标记学习逻辑标记ꎮ评价算法表现优劣的指标就是预测的标记分布与真实分布之间的平均距离或相似度ꎮ根据文献[６]选出以下６个标记分布评价指标:Ｃｈｅｂｙｓｈｅｖ距离、Ｃｌａｒｋ距离、Ｃａｎｂｅｒｒａ距离、Ｋｕｌｌｂａｃｋ￣Ｌｅｉｂｌｅｒ散度(ＫＬ￣ｄｉｖ)、余弦相关系数(Ｃｏｓｉｎｅ)和交叉相似度(Ｉｎｔｅｒｓｅｃｔｉｏｎ)ꎮ其中ꎬ前４个指标为平均距离ꎬ值越小越好ꎬ后２个指标为相似度ꎬ值越大越好ꎮ假设有ｎ个标记的实例ꎬ真实标记分布为ＴＤ＝(ｄ１ꎬｄ２ꎬ􀆺ꎬｄｎ)ꎬ

＾＝(ｄ＾ꎬｄ＾ꎬ􀆺ꎬｄ＾)ꎬ则６个指标计算公式预测标记分布为Ｄ１２ｎ

如下所示ꎬ其中↓表示值越小越好ꎬ↑表示值越大越好:

１)Ｃｈｅｂｙｓｈｅｖ距离(↓):

３.２　实验数据集

本文所有实验均运行在３.４ＧＨｚ处理器ꎬ８.００ＧＢ内存及ＭａｔｌａｂＲ２０１６ａ的实验平台上ꎮ实验数据来源于标记分布常用数据集(ｈｔｔｐ://ｌｄｌ.ｈｅｒｏｋｕａｐｐ.ｃｏｍ/ｄｏｗｎｌｏａｄ)ꎬ选取其中１２个数据集进行对比实验ꎬ其基本信息如表２所示ꎮ３.３　实验结果与分析

为验证算法的有效性ꎬ与耿新提出的ＡＡ￣ｋＮＮ(ＡｌｇｏｒｉｔｈｍＡｄａｐｔａｔｉｏｎｋ￣ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ)、ＰＴ￣ＳＶＭ(ＰｒｏｂｌｅｍＴｒａｎｓｆｏｒｍａｔｉｏｎＳＶＭ)和ＳＡ￣ＩＩＳ(ＳｐｅｃｉａｌｉｚｅｄＡｌｇｏｒｉｔｈｍＩｍｐｒｏｖｅｄＩｔｅｒａｔｉｖｅＳｃａｌｉｎｇ)进行对比ꎬ对比实验采用１０折交叉验证ꎮ表２中也列出了各数据集特征选择的数量ꎬ表３~８则给出了１１个数据集在三种不同算法上的实验结果(平均值±标准差)ꎬ实验中ꎬα＝０.８ꎬβ＝０.３ꎬγ＝０.５ꎮ表９和表１０是在Ｙｅａｓｔ￣ｄｔｔ数据集上ꎬ分类器选择ｋＮＮꎬ当γ＝０.５时ꎬα、β不同取值时的结果(说明:表中黑色加粗的数字表示在该指标上特征选择后的数据优于原始数据ꎻ数据括号中的数字为该值在评价指标中的排名情况)ꎮ

表２　实验数据集及实验中各自的特征选择的数量Ｔａｂ.２　Ｄａｔａｓｅｔｓａｎｄｓｅｌｅｃｔｅｄｆｅａｔｕｒｅｓｉｎｅｘｐｅｒｉｍｅｎｔｓ数据集名称Ｙｅａｓｔ￣ｃｏｌｄＹｅａｓｔ￣ａｌｐｈａＹｅａｓｔ￣ｄｉａｕＹｅａｓｔ￣ｈｅａｔＹｅａｓｔ￣ｓｐｏｅｍＳＢＵ＿３ＤＦＥＳＪＡＦＦＥＹｅａｓｔ￣ｓｐｏＹｅａｓｔ￣ｅｌｕＹｅａｓｔ￣ｄｔｔＹｅａｓｔ￣ｃｄｃ

样本数２４６５２４６５２４６５２４６５２４６５２４６５２４６５２４６５２４６５２５００２１３

特征数２４２４２４２４２４２４２４２４２４３２４３２４

标记数１５１８７４６６６６６１４４

选择特征数

１９２３１５１１２０１６４２２１２２２３４

＾)

∑ｍｉｎ(ｄꎬｄ

ｊ

２)Ｃｌａｒｋ距离(↓):

＾)＝Ｃｌａｒｋ(ＴＤꎬＤ

＾)＝ｍａｘ＾Ｃｈｅｂｓｈｅｖ(ＴＤꎬＤｄｊ－ｄｊｊ

３)Ｃａｎｂｅｒｒａ距离(↓):＾)＝Ｃａｎｂｅｒｒａ(ＴＤꎬＤ＾)＝ＫＬ￣ｄｉｖ(ＴＤꎬＤ

∑ｎｊ＝１ｎｊ＝１

＾)２

(ｄｊ－ｄｊ

＾(ｄｊ＋ｄｊ)２

＾ｄｊ－ｄｊ

４)ＫＬ￣ｄｉｖ散度(↓):

ｎ

∑

＾ｄｊ＋ｄｊ

＾)

∑ｄｊｌｎ(ｄｊ/ｄｊ

ｊ＝１

数据集Ｙｅａｓｔ￣ｃｏｌｄＹｅａｓｔ￣ａｌｐｈａＹｅａｓｔ￣ｄｉａｕＹｅａｓｔ￣ｈｅａｔＹｅａｓｔ￣ｓｐｏｅｍＳＢＵ＿３ＤＦＥＳＪＡＦＦＥＹｅａｓｔ￣ｓｐｏＹｅａｓｔ￣ｅｌｕＹｅａｓｔ￣ｄｔｔＹｅａｓｔ￣ｃｄｃ

ｋＮＮ

０.０６０７±０.００９００.０１８６±０.００２００.０１４７±０.０００１０.０４２２±０.００３３０.０４３１±０.００３９０.０１８６±０.００１５０.０４８６±０.００５３０.０７１５±０.０１０５０.０９４０±０.００５６０.１３３０±０.０１９４０.１５０５±０.０１４４

原始

特征选择后

Ｔａｂ.３　ＲｅｓｕｌｔｓｏｆＣｈｅｂｙｓｈｅｖ

原始

ＳＶＭ

特征选择后

原始

表３　Ｃｈｅｂｙｓｈｅｖ实验结果

ＩＩＳ

０.０５６７±０.００２１０.０１７６±０.０００１０.０１４６±０.０００１０.０３９４±０.０００１０.０３９２±０.００１２０.０１７６±０.０００１０.０４５０±０.００１５０.０６３０±０.００１５０.０９３７±０.００３９０.０９５９±０.００６７０.１２９０±０.００４５

０.０５５９±０.００３９０.０１７２±０.０００１０.０１４１±０.０００１０.０４５７±０.００３４０.０３９２±０.００１３０.０１６９±０.０００１０.０４３９±０.００１５０.０６２４±０.００２００.０９２３±０.００５３０.１２２９±０.００９６０.１３９２±０.００７３

０.０１７０±０.０００１０.０１３８±０.０００１０.０４３２±０.００３１０.０３７８±０.００１７０.０４３７±０.００１３０.１２１４±０.０１２７

０.０５６１±０.００３６０.０６２２±０.００２１０.０２３３±０.０００１０.０２０２±０.０００１０.０４５４±０.００１１０.０４９７±０.００１６０.０２３９±０.０００１０.０５２６±０.００１３０.０６５２±０.００１７０.０９２９±０.００２７０.１１６４±０.０１２４０.１３４４±０.００３７

０.０５６９±０.００２３０.０１９８±０.０００１０.０４３６±０.００１３０.０４７５±０.００１９０.０５１０±０.００２４０.０６１１±０.００２４０.０８８２±０.００３７

特征选择后

０.０２３１±０.０００１

０.０１７０±０.０００１０.０６３２±０.００４２０.０９２８±０.００５５０.１３９５±０.００７３

０.０２４０±０.０００１

０.１３４５±０.００４７

０.１１９４±０.０１１８

第１１期程玉胜等:基于粗糙集的数据流多标记分布特征选择

表４　Ｃｌａｒｋ实验结果

ｋＮＮ

原始

０.１６３０±０.０２１９０.２４９５±０.０２５９０.２３２１±０.０１０３０.２２８２±０.０２０６０.１１６３±０.００９６０.２２８８±０.０１４６０.２０７２±０.０１８７０.２８８４±０.０３２８０.１３８５±０.００７４０.４７１４±０.０５１６０.４６３４±０.０４３６

特征选择后０.１５３８±０.００５９０.２３７１±０.００６２０.２３０５±０.００４００.２１２３±０.００５３０.１０６４±０.００３９０.２１７０±０.００５６０.１９５５±０.００６７０.２６８７±０.００５５０.１３９０±０.００５７０.３３９２±０.０１７６０.４０６９±０.０１２４

Ｔａｂ.４　ＲｅｓｕｌｔｓｏｆＣｌａｒｋ原始

０.１５１７±０.００９９０.２２７９±０.００８９０.２２４４±０.００５１０.２４３８±０.０１５３０.１０６５±０.００３３０.２１１０±０.００４５０.１８９８±０.００６６０.２６４３±０.００７７０.１３６３±０.００８５０.４５０９±０.０３３９０.４２５１±０.０１５０

ＳＶＭ

特征选择后０.１５２０±０.０１０６０.２２５３±０.００５８０.２２０６±０.００６８０.２３３９±０.０１３８０.１０２９±０.００４８０.２１２１±０.００５２０.１８８９±０.００５５０.２６７０±０.０１６３０.１３６８±０.００７８０.４３５７±０.０２３４０.４２５８±０.０１４７

原始

０.１６６５±０.００５６０.２９２８±０.００６７０.３０３５±０.００４５０.２４１３±０.００７１０.１３２２±０.００４３０.２７５４±０.００６３０.２２３７±０.００５９０.２７７８±０.００７８０.１３７８±０.００４５０.４１９６±０.０１７９０.４１３９±０.００６８

ＩＩＳ

１０９　　３　　

数据集Ｙｅａｓｔ￣ｃｏｌｄ

Ｙｅａｓｔ￣ｃｄｃＹｅａｓｔ￣ａｌｐｈａＹｅａｓｔ￣ｄｉａｕＹｅａｓｔ￣ｄｔｔＹｅａｓｔ￣ｅｌｕＹｅａｓｔ￣ｈｅａｔＹｅａｓｔ￣ｓｐｏＹｅａｓｔ￣ｓｐｏｅｍＳＪＡＦＦＥＳＢＵ＿３ＤＦＥ

特征选择后０.１５３７±０.００５７０.２９１８±０.００６５０.３０２２±０.００５６０.２２９７±０.００７６０.１２６６±０.００５００.２７５３±０.００２９０.２１８２±０.００８５０.２６１４±０.０１１２０.１３１１±０.００５９０.４２４７±０.０１７６０.４１４０±０.００４７

数据集Ｙｅａｓｔ￣ｃｏｌｄＹｅａｓｔ￣ｃｄｃＹｅａｓｔ￣ａｌｐｈａＹｅａｓｔ￣ｄｉａｕＹｅａｓｔ￣ｄｔｔＹｅａｓｔ￣ｅｌｕＹｅａｓｔ￣ｈｅａｔＹｅａｓｔ￣ｓｐｏＹｅａｓｔ￣ｓｐｏｅｍＳＪＡＦＦＥＳＢＵ＿３ＤＦＥ

ｋＮＮ

原始

０.２８１０±０.０３９５０.７５３０±０.０７８１０.７５８４±０.０４０００.４９０３±０.０４２１０.１９９８±０.０１７８０.６８０５±０.０４９２０.４１４０±０.０３４３０.５８７３±０.０６５２０.１９３３±０.０１０６０.９６３８±０.０９９２０.９５１０±０.０６１７

Ｔａｂ.５　ＲｅｓｕｌｔｓｏｆＣａｎｂｅｒｒａ

原始

０.２６０９±０.０１６３０.６８３２±０.０２５９０.７３３６±０.０１７３０.５２３７±０.０３４６０.１８２４±０.００５２０.６２３５±０.０１２４０.３８０２±０.０１３００.５４５４±０.０１７８０.１９００±０.０１１６０.９３１５±０.０７０７０.９２０１±０.０２９７

ＳＶＭ

特征选择后０.２６３１±０.０１８７０.６７５２±０.０１６２０.７２２１±０.０２１８０.５０３６±０.０２８３０.１７６７±０.００７８０.６２７２±０.０１３９０.３７７８±０.０１１３０.５５０９±０.０３５７０.１９０８±０.０１１００.９１２７±０.０５０７０.９２１４±０.０２８４

原始

０.２８８５±０.００９７０.８９８９±０.０１８８１.０１３８±０.０１３７０.５２６４±０.０１５５０.２２９８±０.００７９０.８２３７±０.０１９７０.４５４８±０.０１１６０.５７２１±０.０１７００.１９１９±０.００６００.８６８８±０.０４７４０.８９７７±０.０１６０

表５　Ｃａｎｂｅｒｒａ实验结果

特征选择后０.２６５３±０.００１００.７１７３±０.０１７９０.７５３２±０.０１６００.４５６２±０.０１１１０.１８３０±０.００７１０.６４１１±０.０１６００.３９３０±０.０１３４０.５５４６±０.０１０１０.１９３６±０.００８００.６９３９±０.０４０６０.８３７３±０.０２６８

ＩＩＳ

特征选择后０.２６６１±０.０１０６０.８９７６±０.０１６５１.０１３７±０.０１７９０.４９６５±０.０１８５０.２１９１±０.００９５０.８２２６±０.０１１２０.４４２１±０.０１７３０.５３８１±０.０２３００.１８２４±０.００８００.８８５８±０.０４４９０.８９７５±０.０１８５

ｋＮＮ

０.０１５１±０.００６５０.００８３±０.００３４０.００５８±０.００２１０.００７４±０.００２９０.００７４±０.００２８０.０１４９±０.００６１０.０３０６±０.０１４００.０２６８±０.０１０５０.０９３８±０.０２０９０.１１００±０.０２３６０.０１５５±０.００６１

原始

Ｔａｂ.６　ＲｅｓｕｌｔｓｏｆＫｕｌｌｂａｃｋ￣Ｌｅｉｂｌｅｒ

特征选择后

原始

ＳＶＭ

特征选择后

原始

表６　Ｋｕｌｌｂａｃｋ￣Ｌｅｉｂｌｅｒ实验结果

ＩＩＳ

０.０１３１±０.００４８０.００７５±０.００２６０.００５９±０.００２１０.０１３３±０.００４７０.００６５±０.００２４０.００６６±０.００２４０.０１３０±０.００４７０.０２６３±０.００９３０.０２６２±０.００９５０.０５２５±０.００６７０.０８３０±０.００５３

０.０１２３±０.００４５０.０００７±０.００２５０.００５５±０.００２００.０１６６±０.００６３０.００６４±０.００２３０.００６１±０.００２２０.０１２３±０.００４４０.０２５３±０.００９００.０２４７±０.００９３０.０７９６±０.０１０３０.０８７９±０.００７４

０.００６８±０.００２４０.００５３±０.００１９０.０１５３±０.００５７０.００６０±０.００２２０.０１２２±０.００４３０.０２６９±０.０１０２０.０７６８±０.０１１０

０.０１２６±０.００４７０.０１５５±０.００５６０.０１１６±０.００４１０.０１０４±０.００３７０.１６６０±０.００５９０.０１０１±０.００３６０.０１０８±０.００３８０.０１７１±０.００６１０.０２６６±０.００９５０.０２５２±０.００９１０.０７０３±０.００９１０.０８２２±０.００２７

０.０１３１±０.００４７０.０１１４±０.００４００.０１０３±０.００３６０.０１５３±０.００５５０.００９２±０.００３３０.０１６２±０.００５８０.０２４１±０.００８７０.０２２８±０.００８３０.０８２１±０.００３７０.０７２８±０.００８９０.０１０９±０.００３８

特征选择后

０.００６２±０.００２２０.０２７１±０.０１０２０.０８８１±０.００７３

ｋＮＮ

原始

０.９８６６±０.０１４５０.９９１２±０.００１９０.９９３６±０.０００１０.９８４２±０.００２５０.９９２０±０.００１３０.９９２１±０.００１１０.９８４３±０.００３００.９６７８±０.００８２０.９７４２±０.００４００.９０９１±０.０２１７０.８９３７±０.０２１８

特征选择后０.９８６２±０.００１２０.９９２０±０.０００１０.９９３６±０.０００１０.９８６２±０.０００１０.９９３１±０.０００１０.９９２９±０.０００１０.９８６１±０.００１００.９７２５±０.０００１０.９７４８±０.００１９０.９５０２±０.００５３０.９１８９±０.００５０

Ｔａｂ.７　ＲｅｓｕｌｔｓｉｎＣｏｓｉｎｅ原始

０.９８６７±０.００１５０.９９２５±０.０００１０.９９４０±０.０００１０.９８２６±０.００２２０.９９３２±０.０００１０.９９３４±０.０００１０.９８６８±０.０００１０.９７３２±０.００２００.９７５６±０.００３１０.９２４８±０.００９５０.９１５０±０.００６６

ＳＶＭ

特征选择后０.９８６３±０.００１９０.９９２７±０.０００１０.９９４２±０.０００１０.９８４０±０.００１９０.９９３６±０.０００１０.９９３３±０.０００１０.９８７０±０.０００１０.９７２４±０.００３９０.９７４４±０.００３７０.９２７６±０.０１１２０.９１４８±０.００６５

原始

０.９８３３±０.００１２０.９８７０±０.０００１０.９８８１±０.０００１０.９８２１±０.０００１０.９８９０±０.０００１０.９８７７±０.０００１０.９８１３±０.０００１０.９７１６±０.００１５０.９７６０±０.００１５０.９３３８±０.００８９０.９２００±０.００２６

表７　Ｃｏｓｉｎｅ实验结果

ＩＩＳ

特征选择后０.９８６２±０.００１１０.９８７２±０.０００１０.９８８２±０.０００１０.９８３８±０.００１１０.９９０１±０.０００１０.９８７６±０.０００１０.９８２４±０.００１３０.９７５０±０.００１９０.９７８１±０.００１６０.９３１４±０.００９１０.９２０１±０.００３５

　３１　１０　　计算机应用

表８　Ｉｎｔｅｒｓｅｃｔｉｏｎ实验结果

ｋＮＮ

０.９３０１±０.０１０４０.９５０３±０.００５２０.９５８１±０.００２２０.９３１８±０.００５４０.９５０５±０.００４６０.９５１９±０.００３７０.９３１９±０.００５８０.９０２３±０.０１１２０.９０６０±０.００５６０.８３０７±０.０２０４０.８２３９±０.０１４９

原始

特征选择后

Ｔａｂ.８　ＲｅｓｕｌｔｓｉｎＩｎｔｅｒｓｅｃｔｉｏｎ

０.９３５６±０.００４１０.９５５０±０.００１６０.９５９５±０.０００１０.９２６８±０.００５００.９５５０±０.００１３０.９５６０±０.０００１０.９３７５±０.００２１０.９０９８±０.００３００.９０７７±０.００５３０.８４１１±０.０１２４０.８３５０±０.００５８

原始

ＳＶＭ

０.９３４８±０.００４７特征选择后

０.９２８１±０.００２４０.９３６３±０.００１３０.９４２８±０.０００１０.９２５８±０.００２１０.９４２７±０.００２００.９４０６±０.００１３０.９２４２±０.００１９０.９０５１±０.００２８０.９０７１±０.００２７０.８３９３±０.００３００.８５２５±０.００９６

原始

ＩＩＳ

第３８卷

０.９３４５±０.００２４０.９５２８±０.００１１０.９５８４±０.０００１０.９３６６±０.００１６０.９５４８±０.０００１０.９５４７±０.００１１０.９３５５±０.００２２０.９０８５±０.００１５０.９０６３±０.００３９０.８７９９±０.００８００.８４６６±０.００５２

０.９５５５±０.０００１０.９６０１±０.００１２０.９２９８±０.００４００.９５６４±０.００１８０.９５５７±０.０００１０.９３７９±０.００１８０.８４３９±０.０１１６

０.９３４１±０.００２７０.９３９７±０.００１１０.９４２８±０.００１００.９３０３±０.００２６０.９４５４±０.００２４０.９４０６±０.０００１０.９２６５±０.００２９０.９１１２±０.００３７０.９１１８±０.００３７０.８３９３±０.００３８０.８４９１±０.００９８

特征选择后

０.９０８９±０.００６１０.９０７２±０.００５５０.８３４７±０.００５６

Ｔａｂ.９　ＲｅｓｕｌｔｓｗｉｔｈｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｏｎＹｅａｓｔ￣ｄｔｔ(β＝０.３ꎬγ＝０.５)

评价指标ＣｈｅｂｙｓｈｅｖＣａｎｂｅｒｒａＫＬ￣ｄｉｖＣｏｓｉｎｅＩｎｔｅｒｓｅｃｔｉｏｎＣｌａｒｋ

ＡＡ￣ｋＮＮ０.０４１１±０.０３５０(４)０.１１１８±０.００９５(４)０.１９１９±０.０１７２(４)０.００７０±０.００２７(４)０.９９２５±０.００１２(４)０.９５２６±０.００４２(４)

α＝０.８

０.０３９１±０.０００１(１)０.１０６２±０.００２９(２)０.１８２８±０.００５１(１)０.００６５±０.００２５(２)０.９９３１±０.０００１(１)０.９５４９±０.００１１(２)

α＝０.７

０.０３９１±０.００１２(１)０.１０６０±０.００３９(１)０.１８２４±０.００６５(２)０.００６４±０.００２３(１)０.９９３１±０.０００１(１)０.９５５０±０.００１５(１)

α＝０.６

０.０３９２±０.００１５(３)０.１０６６±０.００４１(３)０.１８３１±０.００６８(３)０.００６５±０.００２４(２)０.９９３１±０.０００１(１)０.９５４８±０.００１６(３)

表９　Ｙｅａｓｔ￣ｄｔｔ数据集不同参数实验结果(β＝０.３ꎬγ＝０.５)

Ｔａｂ.１０　ＲｅｓｕｌｔｓｗｉｔｈｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｏｎＹｅａｓｔ￣ｄｔｔ(β＝０.２ꎬγ＝０.５)

评价指标ＣｈｅｂｙｓｈｅｖＣａｎｂｅｒｒａＫＬ￣ｄｉｖＣｏｓｉｎｅＩｎｔｅｒｓｅｃｔｉｏｎＣｌａｒｋ

α＝０.８

０.０３９０±０.００１５(１)０.１０５８±０.００４２(１)０.１８１９±０.００７３(２)０.００６５±０.００２３(１)０.９９３１±０.０００１(１)０.９５５１±０.００１８(１)

α＝０.７

０.３９１０±０.００１５(２)０.１０５９±０.００４２(２)０.１８１８±０.００７０(１)０.００６５±０.００２４(１)０.９９３１±０.０００１(１)０.９５５１±０.００１７(１)

α＝０.６

０.３９５０±０.００１５(３)０.１０７０±０.００３３(３)０.１８２６±０.００５８(３)０.００６５±０.００２４(１)０.９９３０±０.０００１(３)０.９５４７±０.００１１(３)

表１０　Ｙｅａｓｔ￣ｄｔｔ数据集不同参数实验结果(β＝０.２ꎬγ＝０.５)

　　从实验结果来看ꎬ在１１个数据集６个评价指标共６６个ＳＶＭ有５６.１％的结果优于原始数据ꎬＳＡ￣ＩＩＳ有８３.３％的结果优于原始数据ꎮ

从表９和表１０可知:当β＝０.３时ꎬα＝０.７取得更多最优结果ꎻ当β＝０.２时ꎬα＝０.８取得更多最优结果ꎻ所有特征选择的结果都优于原始数据ꎮ

图２~图３是Ｙｅａｓｔ￣ｃｏｌｄ数据集在不同参数下的实验结果对比ꎮ由图２可以看出ꎬ特征选择数目与弱相关系数有着密切的关系ꎻ由图３可以看出ꎬ经过特征选择后的分类效果要优于原始特征ꎬ结果也较为稳定ꎮ

了保证ꎬ多组实验证明了该算法的有效性ꎮ

实验结果上ꎬＡＡ￣ｋＮＮ有９５.５％的结果优于原始数据ꎬＰＴ￣

４　结语

针对传统多标记学习框架的逻辑标记和静态特征的情况ꎬ提出了基于粗糙集的数据流多标记分布特征选择算法ꎬ为了更加准确地对样本进行描述ꎬ将传统的逻辑标记转换成概率的形式ꎮ同时对实时产生的特征数据利用皮尔逊相关系数与粗糙集中的依赖度进行处理ꎬ保留符合条件的特征构成特征子集进行训练ꎬ在节约资源的情况下又使得分类精度得到

Ｆｉｇ.２　Ｎｕｍｂｅｒｏｆｓｅｌｅｃｔｉｏｎｗｉｔｈｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｓ(Ｙｅａｓｔ￣ｃｏｌｄ)

图２　不同参数特征选择个数(Ｙｅａｓｔ￣ｃｏｌｄ)

但是本文仍存在一些问题ꎬ如ＦＳＳＲＳ算法在进行冗余性判断时ꎬ对于已经是强相关性的特征没有进行冗余性检查ꎬ以后将对此进行改进ꎻ同时本文的参数是人为设定ꎬ今后将继续完善参数选择ꎬ使得算法更加高效ꎮ

第１１期程玉胜等:基于粗糙集的数据流多标记分布特征选择１１１　　３　　

Ｆｉｇ.３　ＲｅｓｕｌｔｓｏｆＹｅａｓｔ￣ｃｏｌｄｗｉｔｈｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｓ

图３　Ｙｅａｓｔ￣ｃｏｌｄ数据集不同参数实验结果

参考文献(Ｒｅｆｅｒｅｎｃｅｓ)

１　ＺＨＡＮＧＭＬＺＨＯＵＺＨ.Ａｒｅｖｉｅｗｏｎｍｕｌｔｉ￣ｌａｂｅｌｌｅａｒｎｉｎｇａｌｇｏ￣

２０１４２６８１８１９－１８３７.

ｒｉｔｈｍｓＪ .ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅ＆ＤａｔａＥｎｇｉｎｅｅｒｉｎｇ

１１　ＷＵＸＹＵＫＷＡＮＧＨｅｔａｌ.Ｏｎｌｉｎｅｓｔｒｅａｍｉｎｇｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ

ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ. Ｓ.ｌ. ＯｍｎｉｐｒｅｓｓＣ //Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｒｎａ￣

ａｎｔｈｏｌｏｇｙ/Ｄ/Ｄ１６/Ｄ１６￣１０６１.ｐｄｆ.

２　ＺＨＡＮＧＭＬ.ＬＩＦＴｍｕｌｔｉ￣ｌａｂｅｌｌｅａｒｎｉｎｇｗｉｔｈｌａｂｅｌ￣ｓｐｅｃｉｆｉｃｆｅａｔｕｒｅｓ

ｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ.ＭｅｎｌｏＰａｒｋＣＡＡＡＡＩＰｒｅｓｓ２０１１１６０９－Ｃ //Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒ￣

１２　ＹＵＫＤＩＮＧＷＷＵＸ.ＬＯＦＳａｌｉｂｒａｒｙｏｆｏｎｌｉｎｅｓｔｒｅａｍｉｎｇｆｅａ￣１３　张振海李士宁李志刚等.一类基于信息熵的多标签特征选

择算法Ｊ .计算机研究与发展２０１３５０６１１７７－１１８４. ＺＨＡＮＧＺＨＬＩＳＮＬＩＺＧｅｔａｌ.Ｍｕｌｔｉ￣ｌａｂｅｌｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ２０１３５０６１１７７－１１８４. ｔｕｒｅｓｅｌｅｃｔｉｏｎＪ .Ｋｎｏｗｌｅｄｇｅ￣ＢａｓｅｄＳｙｓｔｅｍｓ２０１６１１３１－３.

２０１０１１５９－１１６６.

３　ＺＨＡＮＧＭＬＺＨＯＵＺＨ.ＭＬ￣ＫＮＮａｌａｚｙｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｔｏ

２０４８.

ｍｕｌｔｉ￣ｌａｂｅｌｌｅａｒｎｉｎｇＪ .ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ２００７４０７２０３８－

１６１４.

４　ＬＥＥＪＫＩＭＤＷ.Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒｍｕｌｔｉ￣ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ

ｔｅｒｓ２０１３３４３３４９－３５７.

ｕｓｉｎｇｍｕｌｔｉｖａｒｉａｔｅｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎＪ .ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔ￣

ａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙＪ .ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ

１４　ＰＡＷＬＡＫＺ.ＲｏｕｇｈＳｅｔｓＴｈｅｏｒｅｔｉｃａｌＡｓｐｅｃｔｓｏｆＲｅａｓｏｎｉｎｇａｂｏｕｔ１５　杨传健葛浩汪志圣.基于粗糙集的属性约简方法研究综述

Ｊ .计算机应用研究２０１２２９１１６－２０. ＹＡＮＧＣＪＧＥＪ .ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ２０１２２９１１６－２０. ＨＷＡＮＧＺＳ.Ｏｖｅｒｖｉｅｗｏｆａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｂａｓｅｄｏｎｒｏｕｇｈｓｅｔ

１６　ＹＵＹＰＥＤＲＹＣＺＷＭＩＡＯＤ.Ｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｓｂａｓｅｄ

ｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＡｐｐｒｏｘｉｍａｔｅＲｅａｓｏｎｉｎｇ２０１３５４９１３７３－ｍｕｌｔｉ￣ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｆｏｒａｕｔｏｍａｔｉｃｉｍａｇｅａｎｎｏｔａｔｉｏｎＪ .Ｉｎｔｅｒ￣ＤａｔａＭ .ＢｏｓｔｏｎＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ１９９１９－３２.

５　ＺＨＡＮＧＹＺＨＯＵＺＨ.Ｍｕｌｔｉ￣ｌａｂｅｌｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎｖｉａ

ｄｅｐｅｎｄｅｎｃｅｍａｘｉｍｉｚａｔｉｏｎＣ //Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＮａｔｉｏｎａｌＰｒｅｓｓ２００８１５０３－１５０５.

ＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ.ＭｅｎｌｏＰａｒｋＣＡＡＡＡＩ６　ＧＥＮＧＸＪＩＲ.ＬａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇＪ .ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ７　ＨＥＺＬＩＸＺＨＡＮＧＺｅｔａｌ.Ｄａｔａ￣ｄｅｐｅｎｄｅｎｔｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎ

ｉｎｇ２０１７２６８３８４６－３８５８.

ｌｅａｒｎｉｎｇｆｏｒａｇｅｅｓｔｉｍａｔｉｏｎＪ .ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓ￣ｏｎＫｎｏｗｌｅｄｇｅ＆ＤａｔａＥｎｇｉｎｅｅｒｉｎｇ２０１６２８７１７３４－１７４８.

８　ＧＥＮＧＸＺＨＯＵＺＨＳＭＩＴＨ￣ＭＩＬＥＳＫ.Ａｕｔｏｍａｔｉｃａｇｅｅｓｔｉｍａｔｉｏｎ

ｂａｓｅｄｏｎｆａｃｉａｌａｇｉｎｇｐａｔｔｅｒｎｓＪ .ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓ＆ＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ２００７２９１２２２３４－２２４０.

１７　ＹＵＹＰＥＤＲＹＣＺＷＭＩＡＯＤ.Ｍｕｌｔｉ￣ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｂｙｅｘ￣

２０１４４１６２９８９－３００４.

ｐｌｏｉｔｉｎｇｌａｂｅｌｃｏｒｒｅｌａｔｉｏｎｓＪ .ＥｘｐｅｒｔＳｙｓｔｅｍｓｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ

１３８７.

９　ＧＥＮＧＸＺＨＯＵＺＨＳＭＩＴＨ￣ＭＩＬＥＳＫ.Ｉｎｄｉｖｉｄｕａｌｓｔａｂｌｅｓｐａｃｅ

ａｎａｐｐｒｏａｃｈｔｏｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｕｎｄｅｒｕｎｃｏｎｔｒｏｌｌｅｄｃｏｎｄｉｔｉｏｎｓＪ .ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ２００８１９８１３５４－６８.

１８　段洁胡清华张灵均等.基于邻域粗糙集的多标记分类特

征选择算法Ｊ .计算机研究与发展２０１５５２１５６－６５. ＤＵＪＨＵＱＨＺＨＡＮＧＬＪｅｔａｌ.Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒｍｕｌｔｉ￣ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｓＪ .ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ２０１５５２１５６－６５.

１０　ＺＨＯＵＤＺＨＡＮＧＸＺＨＯＵＹｅｔａｌ.Ｅｍｏｔｉｏｎｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎ￣

ｉｎｇｆｒｏｍｔｅｘｔｓＥＢ/ＯＬ . ２０１８￣０３￣２０ .ｈｔｔｐ //ｗｗｗ.ａｃｌｗｅｂ.ｏｒｇ/

下转第３１１８页　

　３１　１８　　计算机应用第３８卷

ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂａｓｅｄｏｎｃｏｏｐｅｒａｔｉｖｅｃｏｅｖｏｌｕｔｉｏｎｗｉｔｈｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｒｕｌｅＪ .ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ２０１０４３６２０８２－

ｆａｕｌｔｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｓｔａｔｉｓｔｉｃａｌｐａｔｔｅｒｎａｎｄｌｏｃａｌｎｅａｒｅｓｔ３　ＡＲＩＦＭＡＫＲＡＭＭＵＭＩＮＨＡＳＦＡＡ.ＰｒｕｎｅｄｆｕｚｚｙＫ￣ｎｅａｒｅｓｔ

ｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｅｒｆｏｒｂｅａｔｃｌａｓｓｉｆｉｃａｔｉｏｎＪ .ＪｏｕｒｎａｌｏｆＢｉｏｍｅｄｉｃａｌＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ２０１０３４３８０－３８９.

ａｌｇｏｒｉｔｈｍｆｏｒｂｉｇｄａｔａＪ .Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ２０１６１９５Ｃ１４３－４　ＤＥＮＧＺＺＨＵＸＣＨＥＮＧＤｅｔａｌ.ＥｆｆｉｃｉｅｎｔｋＮＮｃｌａｓｓｉｆｉｃａｔｉｏｎ

２０１８３８４９６５－９７０.

ｎｅｉｇｈｂｏｒｈｏｏｄｓｔａｎｄａｒｄｉｚａｔｉｏｎＪ .ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ

－９７０. ＦＥＮＧＬＷＺＨＡＮＧＣＬＩＹｅｔａｌ.Ｌｏｃａｌｏｕｔｌｉｅｒｆａｃｔｏｒ

１３　ＤＥＲＲＡＣＪＴＲＩＧＵＥＲＯＩＧＡＲＣＩＡＳｅｔａｌ.Ｉｎｔｅｇｒａｔｉｎｇｉｎｓｔａｎｃｅ

ｓｅｌｅｃｔｉｏｎｉｎｓｔａｎｃｅｗｅｉｇｈｔｉｎｇａｎｄｆｅａｔｕｒｅｗｅｉｇｈｔｉｎｇｆｏｒｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｅｒｓｂｙｃｏｅｖｏｌｕｔｉｏｎａｒｙａｌｇｏｒｉｔｈｍｓＪ .ＩＥＥＥＴｒａｎｓ￣ａｃｔｉｏｎｓｏｎＳｙｓｔｅｍｓＭａｎ＆ＣｙｂｅｒｎｅｔｉｃｓＰａｒｔＢ２０１２４２５

２１０５.

５　ＦＡＹＥＤＨＡＡＴＩＹＡＡＦ.Ａｎｏｖｅｌｔｅｍｐｌａｔｅｒｅｄｕｃｔｉｏｎａｐｐｒｏａｃｈｆｏｒ

ｔｈｅＫ￣ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｍｅｔｈｏｄＪ .ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ２００９２０５８９０－８９６.

６　ＺＨＡＮＧＳＬＩＸＭＩＮＧＺｅｔａｌ.ＥｆｆｉｃｉｅｎｔｋＮＮｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈ

ｄｉｆｆｅｒｅｎｔｎｕｍｂｅｒｓｏｆｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓＪ .ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ＆ＬｅａｒｎｉｎｇＳｙｓｔｅｍｓ２０１７２９５１７７４－１７８５. ７　ＧＩＬＰＩＴＡＲＹＡＯＸ.Ｅｖｏｌｖｉｎｇｅｄｉｔｅｄｋ￣ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｅｒｓ８　ＸＩＥＨＬＩＡＮＧＤＺＨＡＮＧＺｅｔａｌ.Ａｎｏｖｅｌｐｒｅ￣ｃｌａｓｓｉｆｉｃａｔｉｏｎ

ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇＷｏｒｋｓｈｏｐｓ.ＰｉｓｃａｔａｗａｙＮＪＩＥＥＥ２０１７１２６９－１２７５.Ｃｏｍｐｕｔｉｎｇ１９９８８２１１－６.

ｂａｓｅｄｋＮＮａｌｇｏｒｉｔｈｍＣ //Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１６ＩＥＥＥ１６ｔｈＩｎ￣４６７.

Ｊ .ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＮｅｕｒａｌＳｙｓｔｅｍｓ２００９１８６４５９－

１４８.

１４　ＤＥＲＲＡＣＪＣＯＲＮＥＬＩＳＣＧＡＲＣÍＡＳｅｔａｌ.Ｅｎｈａｎｃｉｎｇｅｖｏｌｕ￣

７３－９２.－７７.

ｂａｓｅｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎＪ .ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅｓ２０１２１８６１

１３８３－１３９７.

ｔｉｏｎａｒｙｉｎｓｔａｎｃｅｓｅｌｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｓｂｙｍｅａｎｓｏｆｆｕｚｚｙｒｏｕｇｈｓｅｔ

１５　ＷＩＴＴＥＮＩＨＦＲＡＮＫＥ.Ｄａｔａｍｉｎｉｎｇｐｒａｃｔｉｃａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇ

ｔｏｏｌｓａｎｄｔｅｃｈｎｉｑｕｅｓＪ .ＡＣＭＳＩＧＭＯＤＲｅｃｏｒｄ２００５３１１７６

１６　ＨＡＮＬＥＹＪＡＭＣＮＥＩＬＢＪ.Ｔｈｅｍｅａｎｉｎｇａｎｄｕｓｅｏｆｔｈｅａｒｅａｕｎ￣

ｄｅｒａＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃＲＯＣｃｕｒｖｅＪ .Ｒａｄｉｏｌｏ￣ｇｙ１９８２１４３１２９.

１７　ＣＯＨＥＮＪ.ＡｃｏｅｆｆｉｃｉｅｎｔｏｆａｇｒｅｅｍｅｎｔｆｏｒｎｏｍｉｎａｌｓｃａｌｅｓＪ .Ｅｄｕ￣１８　ＷＩＬＣＯＸＯＮＦ.ＩｎｄｉｖｉｄｕａｌｃｏｍｐａｒｉｓｏｎｓｂｙｒａｎｋｉｎｇｍｅｔｈｏｄｓＪ .

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＢｉｏｍｅｔｒｉｃｓＢｕｌｌｅｔｉｎ１９４５１６８０－８３.ＴｈｉｓｗｏｒｋｉｓｐａｒｔｉａｌｌｙｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎ￣ｃａｔｉｏｎａｌ＆ＰｓｙｃｈｏｌｏｇｉｃａｌＭｅａｓｕｒｅｍｅｎｔ１９６０２０１３７－４６.

９　ＥＩＢＥＮＡＥＳＣＨＯＥＮＡＵＥＲＭ.ＥｖｏｌｕｔｉｏｎａｒｙｃｏｍｐｕｔｉｎｇＪ .Ｓｏｆｔ１０　ＤＯＮＧＣＲＣＨＡＮＰＰＫＮＧＷＷＹｅｔａｌ.２￣ｓｔａｇｅｉｎｓｔａｎｃｅ

ｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＣｙｂｅｒｎｅｔｉｃｓ.ＰｉｓｃａｔａｗａｙＮＪＩＥＥＥ２０１０Ｃ //Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１０ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａ￣ｓｅｌｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒＫＮＮｂａｓｅｄｏｎｎｅａｒｅｓｔｕｎｌｉｋｅｎｅｉｇｈｂｏｒｓ

ｄａｔｉｏｎｏｆＣｈｉｎａ６１５６３０１２６１２０３１０９ｔｈｅＧｕａｎｇｘｉＮａｔｕｒａｌＳｃｉｅｎｃｅｇｘｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＥｍｂｅｄｄｅｄＴｅｃｈｎｏｌｏｇｙａｎｄＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍＦｏｕｎ￣ｄａｔｉｏｎ.

Ｆｏｕｎｄａｔｉｏｎ２０１４ＧＸＮＳＦＡＡ１１８３７１２０１５ＧＸＮＳＦＢＡ１３９２６０ｔｈｅＧｕａｎ￣

１１　ＡＣＡＭＰＯＲＡＧＴＯＲＴＯＲＡＧＶＩＴＩＥＬＬＯＡ.ＡｐｐｌｙｉｎｇＳＰＥＡ２ｔｏ

ｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１６ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｙｓｔｅｍｓ３９２９.

ｐｒｏｔｏｔｙｐｅｓｅｌｅｃｔｉｏｎｆｏｒｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎＣ //Ｐｒｏ￣ＭａｎａｎｄＣｙｂｅｒｎｅｔｉｃｓ.ＰｉｓｃａｔａｗａｙＮＪＩＥＥＥ２０１７３９２４－

１３４－１４０.

ｔｅｌｌｉｇｅｎｔｃｏｍｐｕｔｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇ.

ＨＵＡＮＧＹｕｙａｎｇｂｏｒｎｉｎ１９９６.Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｉｎ￣ＤＯＮＧＭｉｎｇｇａｎｇｂｏｒｎｉｎ１９７７Ｐｈ.Ｄ. ｐｒｏｆｅｓｓｏｒ.ＨｉｓｒｅｓｅａｒｃｈＪＩＮＧＣｈａｏｂｏｒｎｉｎ１９８３Ｐｈ.Ｄ. ｌｅｃｔｕｒｅｒ.Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓ

ｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｉｎｔｅｌｌｉｇｅｎｔｃｏｍｐｕｔｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇ.ｌｅａｒｎｉｎｇ.

１２　ＤＥＲＲＡＣＪＧＡＲＣíＡＳＨＥＲＲＥＲＡＦ.ＩＦＳ￣ＣｏｃｏＩｎｓｔａｎｃｅａｎｄ

ｉｎｃｌｕｄｅｐｏｗｅｒｏｐｔｉｍｉｚａｔｉｏｎｏｎｃｌｏｕｄｄａｔａｃｅｎｔｅｒｓｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔ

(上接第３１１１页)

１９　李志欣卓亚琦张灿龙等.多标记学习研究综述Ｊ .计算机

应用研究２０１４３１６１６０１－１６０５. ＬＩＺＸＺＨＵＯＹＱＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ２０１４３１６１６０１－１６０５.

ＺＨＡＮＧＣＬｅｔａｌ.Ｓｕｒｖｅｙｏｎｍｕｌｔｉ￣ｌａｂｅｌｌｅａｒｎｉｎｇＪ .Ａｐｐｌｉｃａｔｉｏｎ

２０　刘景华林梦雷王晨曦等.基于局部子空间的多标记特征

选择算法Ｊ .模式识别与人工智能２０１６２９３２４０－２５１. ＬＩＵＪＨＬＩＮＭＬＷＡＮＧＣＸｅｔａｌ.Ｍｕｌｔｉ￣ｌａｂｅｌｆｅａｔｕｒｅｓｅｌｅｃ￣ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ２０１６２９３２４０－２５１.

２４　ＤＯＵＧＨＥＲＴＹＪＫＯＨＡＶＩＲＳＡＨＡＭＩＭ.Ｓｕｐｅｒｖｉｓｅｄａｎｄｕｎｓｕ￣

ＲｅｎｍｉｎＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ２０１２２６８－２７０.

ｐｅｒｖｉｓｅｄｄｉｓｃｒｅｔｉｚａｔｉｏｎｏｆｃｏｎｔｉｎｕｏｕｓｆｅａｔｕｒｅｓＣ //ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｗｅｌｆｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ.ＳａｎＦｒａｎｃｉｓｃｏＣＡＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ１９９５１９４－２０２.

ｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｌｏｃａｌｓｕｂｓｐａｃｅＪ .ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄ

２１　ＬＩＦＭＩＡＯＤＰＥＤＲＹＣＺＷ.Ｇｒａｎｕｌａｒｍｕｌｔｉ￣ｌａｂｅｌｆｅａｔｕｒｅｓｅｌｅｃ￣

６７Ｃ４１０－４２３.

ｔｉｏｎｂａｓｅｄｏｎｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎＪ .ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ２０１７

ＦｕｎｄｓｏｆＥｄｕｃａｔｉｏｎＤｅｐａｒｔｍｅｎｔｏｆＡｎｈｕｉＰｒｏｖｉｎｃｅＫＪ２０１７Ａ３５２ｔｈｅｉｎｃｅＵｎｉｖｅｒｓｉｔｙＤ１８０１ .

ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＤａｔａＳｃｉｅｎｃｅａｎｄＩｎｔｅｌｌｉｇｅｎｃｅＡｐｐｌｉｃａｔｉｏｎＦｕｊｉａｎＰｒｏｖ￣

ＴｈｉｓｗｏｒｋｉｓｐａｒｔｉａｌｌｙｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｕｒａｌＳｃｉｅｎｃｅＲｅｓｅａｒｃｈ

ＣＨＥＮＧＹｕｓｈｅｎｇｂｏｒｎｉｎ１９６９.Ｐｈ.Ｄ. ｐｒｏｆｅｓｓｏｒ.Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｒｏｕｇｈｓｅｔｓｍａｃｈｉｎｅｌｅａｒｎｉｎｇｄａｔａｍｉｎｉｎｇ.ｉｎｃｌｕｄｅｍｕｌｔｉ￣ｌａｂｅｌｌｅａｒｎｉｎｇｒｏｕｇｈｓｅｔ.

ＣＨＥＮＦｅｉｂｏｒｎｉｎ１９９４.Ｍ.Ｓ.ｃａｎｄｉｄａｔｅ.ＨｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓＷＡＮＧＹｉｂｉｎｂｏｒｎｉｎ１９７０.Ｍ.Ｓ. ａｓｓｏｃｉａｔｅｐｒｏｆｅｓｓｏｒ.Ｈｉｓｒｅ￣

２２　ＬＥＥＪＫＩＭＤＷ.Ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ￣ｂａｓｅｄｍｕｌｔｉ￣ｌａｂｅｌｆｅａｔｕｒｅ

ｐｌｉｃａｔｉｏｎｓ２０１５４２４２０１３－２０２５.

ｓｅｌｅｃｔｉｏｎｕｓｉｎｇｉｎｔｅｒａｃｔｉｏｎｉｎｆｏｒｍａｔｉｏｎＪ .ＥｘｐｅｒｔＳｙｓｔｅｍｓｗｉｔｈＡｐ￣

２３　贾俊平.统计学Ｍ .５版.北京中国人民大学出版社２０１２

２６８－２７０. ＪＩＡＪＰ.ＳｔａｔｉｓｔｉｃｓＭ .５ｔｈｅｄ.ＢｅｉｊｉｎｇＣｈｉｎａｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｕｌｔｉ￣ｌａｂｅｌｌｅａｒｎｉｎｇ.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文