里 垒 里 里里 里 星 里 堕奎鎏>:: : > 离群点检测概述 ◆宋奎勇 寇香霞 摘要:离群点检测是当前大数据挖掘的研究热点。离群点检测在信用卡欺诈、入侵检测、医疗诊 断、工业损毁检测等领域有着重要应用。 关键词:离群点检测:大数据挖掘 一、离群点(异常)产生原因 离群点是与噪声不同,噪声是随机误差引起的值的变化, 研究噪声并没有太大价值。而离群点是某种机制下产生的, 这种产生离群点原因是研究者关心的。 (1)数据采集或记录错误。数据在采集和记录的过程中, 由于一些外在因素导致记录了错误的数据,如在数据采集过 程中,由于设备异常导致采集信息不准确甚至错误;在记录 过程中,由于记录人员操作不当,导致数据记录不准确甚至 错误。 (2)数据的自然变异。从统计学的角度,数据集服从某 一种统计分布,如正态分布。在正态分布中,钟型曲线形状 由期望和方差决定,大部分数据集中在期望值附近,远离期 望值的数据出现概率低,这些低概率的点最有可能是离群点。 (3)数据来源于不同的类。如果一个数据对象来源于 一个与其他数据对象不同的类,那么它通常会表现的异于其 他数据对象。在入侵检测数据中,黑客在一定时间攻击网络, 产生一系列攻击数据包;信用卡数据中,由于信用卡丢失或 被盗等原因,他人使用信用卡引起信用卡消费数据异常。这 些异常数据有其发生的特殊机制,明显不同于大多数数据。 这些异常是需要特别关注的、有价值的信息。 二、离群点分类 离群点可以分成三类:全局离群点、情境离群点和集体 离群点。 (1)全局离群点和局部离群点。从整个数据集来看, 全局离群点显著偏离数据集中其余点,有些点虽然不是全局 离群点,但从局部范围上看确是离群点。如图1中包含两个 簇c1和C2,03是全局离群点,01和02是c1的局部离群点。 03. C2.. ● ●● ● ● C1 。 ‘ ‘ ‘ 。 。‘ ●●●_ ● ● ● ● ● ● 强 ・●.’_‘●● ● ‘010z 。 ::.’ ● ● ’-: ’ ... 图1全局离群点和局部离群点 (2)情境(条件)离群点。与全局离群点不同,条件 离群点需要满足一定条件,一个数据对象在条件1下是离群 点,而在条件2下却不一定是离群点。例如温度是l0度, 在北方冬天一定是离群点,而在南方却不是离群点。这种依 赖时间、地点等情境的对象就是情境离群点。 (3)集体离群点。给定一个数据集,数据对象的一个 子集形成集体离群点。最重要的是子集中的个体对象可能不 是离群点。在图2中,黑色对象密度比其他对象密度高得多, 黑色对象作为整体形成两个集体离群点,然而,每个黑色对 象个体对于整个数据集并不是离群点。 o o o O o O o o 。 o・暑 暑 o o。 O O — O O O O O O O O o O O o o O o o o o o o 图2集体离群点 三、离群点检测方法 (1)基于统计的方法。基于统计的离群点检测方法假设 数据集中正常数据由某个统计模型产生,即符合一定统计分 布规律,而违背该规律的数据点就是离群点。这种假设也可 以通过概率来描述,正常数据是在随机模型的高概率区域发 生的,而离群点数据则是在模型的低概率区域。这种方法是 最早用于离群点检测的,它高度依赖于给定数据的模型假定。 (2)基于近邻的方法。基于近邻的离群点检测方法假 定正常数据位于较密集的邻域内,而离群点则通常远离它的 近邻,位于较稀疏的区域。该类方法需要相异度或相似度度 量,距离是简单有效的度量方式,但并不需要将其作为一个 严格度量。基于近邻的离群点检测包括基于距离的和基于密 度的方法。 (3)基于聚类方法。聚类用来将相似的数据分到同一 个簇,尽可能使簇内相似度大,簇间相似度小。尽管聚类和 离群点检测方法似乎是两种不同的过程,但实际上,二者从 数据密度估计的角度看有重要的联系,即数据密度较大的区 域与聚类中心区域相对应,数据密度较小的区域与类边缘或 离群点相对应。 四、离群点检测面临挑战 首先,离群点检测的质量高度依赖于正常对象和离群点 的建模,由于很难枚举所有可能的正常点,构建一个如此的 模型是一个很大的挑战。其次,低质量的数据和噪声的存在 给离群点检测带来巨大的挑战,它们会扭曲数据,模糊正常 数据和离群点之间的差别,降低离群点检测的有效性。最后, 在许多应用中,不仅要检测出离群点,而且,要给出是离群 点的理由,离群点方法可理解性也是至关重要的。∞ 参考文献 [1]Jiawei Han,Micheline Kamber,Jian Pei.Data Mining Concepts and Techniques,Third Edition.BeiJing:China Machine Press,2013. [2】薛安荣,姚林,鞠时光,陈伟鹤,马汉达离群点挖掘方法综述 计算机科学,2008(11):13—17. (作者单位:宋奎勇。呼伦贝尔职业技术学院;寇香霞, 呼伦贝尔教育研修学院) 信息系统工程I 2017 5.20 11 3