蔫宰蒜蟊 信息科学 27 浅谈数据挖掘技术在网络管理中的应用 艾洪 (重庆市南岸区供电局,重庆400060) 摘要随着科技术的发展,在各个领域产生大量的数据,这些数据的利用必须经过海量的数据抽取出隐含的、具有潜在价值的信息服务 于决策,论述数据挖掘技术在网络管理中的具体应用。 关键词数据挖掘;网络管理 中图分类号TP3 文献标识码A 文章编号1673—9671一(2010)042-0027-01 1数据挖掘的含义 4基于WEB和数据挖掘的网络管理系统的体系结构 数据挖掘的历史虽然较短,但 2o世纪9o年代以来,它的发展速度很 数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数 快,加之它是多学科综合产物,目前还没有—个完整的定义,归纳来看, 据挖掘(data mining)都是一个很时髦的词,尤其是在银行、电信、保 数据挖掘应该是从海量数据中找出有助于决策分析、有利于企业盈利、或 险、交通、零售(如超级市场)等商业领域。在网络管理方面,由芬兰 者能为科学研究寻求突破口等有着这些隐藏的或潜力的信息的技术。 Helsink; ̄与一家远程通信设备制造厂合作TASA系统,网络管理的告警 数据挖掘(DM,Data 诹)就是从大量的、不完全的、有噪声的、 数据库中蕴涵有大量的故障特征模式,这为数据挖掘提供了数据基础。 模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在 所以,研究网络管理中的数据挖掘是很有意义的。 有用的信息的过程。数据挖掘技术是面向应用的,它不仅面向特定数据库 基于WEB的数据仓库系统是一种三层逻辑架构,由表示层、应用层 的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理, 和数据层组成以上客户端只需安装WEB浏览器即可,如IE/NS等,因 发掘数据问的相互关系,完成从业务数据到决策信息的转换。 此可基于任何支持Browser的操作平台,对机器本身要求低。WEB服务器 2数据挖掘的功能 用于管理客户机与应用服务器问的信息流,可以用各种流行服务器,如 2.1聚类 IIs,APACHE等,wEB服务器接受客户端Http请求,以静态HTML页面 就是将数据库中的记录划分为一系列有意义的子集,包括传统的模 或调用应用服务器生成动态HTML响应请求,进行合法性等验证后,根 式识别方法和分类学。聚类是概念描述和偏差分析的先决条件,它增强 据WEB页面的内容向应用服务器发出请求,wEB服务器上可装有jsp、 了人们对客观现实的认识。 asp等应用程序,这样可与应用服务器交换信息。应用服务器响应WEB 2.2概念描述 服务器发出的请求,激活相应的查询任务,利用接口技术对数据仓库的 ’就是找到描述数据的可理解模式,并对这类数据的有关特征和内涵 访问, ̄tlODBC、JDB方式等。数据层即后台数据仓库接受来自应用层的 进行概括和描述。概念描述分为特征性描述和区别性描述,前者偏重描 sOL查询语句以及数据集成等。wEB服务器是此系统的功能中枢,起到 述数据问的共同特征,后者则是描述数据之间的区别。 连接客户端与应用服务器之间的桥梁的作用,并且可在此进行数据合法 2.3关联分析 性检查、身份验证等。整个系统工作流程如下:在表示层,WE浏览器 关联就是数据库中两个或多个数据之间存在的某种规律性,它是一 用户发出一定的操作指令通过mML文件提出的HTYei ̄求传递给WEB服 类隐含的、具有重要价值、并可发现的知识,关联可分为简单关联、时 务器;在应用层,wEB服务器用相应的asp、jsp等应用程序响应表示层 序关联、因果关联。 的请求,并进行翻译成应用服务器所能接受的请求,或直接翻译成SQL 请求,应用服务器完成相应的sQL语句并与后台数据仓库连接,发出sQL 2.4趋势预测 查询等,最后应用层接受数据层的结果,送到客户端。 数据挖掘自动在数据库中寻找预测性信息运用相关算法和技术,分 在应用层的OLAP ̄务器对要分析的数据信息进一步按分析模型 析和认识事物演变的规律性,从已知信息推出未知信息,从现有信息导 集成到数据库中,进一步为OLAP和数据挖掘工具提供服务。OLAP 出未来信息,从而对事物的未来发展作出科学、合理的预测。 工具以数据库中的数据为基础,针对用户的问题进行相关数据分析 3数据挖掘流程 综合,数据挖掘工具在此基础上,按照一定算法自动地发现潜在模式和 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未 新知识。以故障管理模块为例,此时会以一定的模式对网络运营状态进 知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。 行评估和预测。~方面,数据挖掘出的新知识可以补充到知识库当中; 数据挖掘的基本过程和主要步骤如下: 另一方面,知识库响应系统的请求,不仅可将结果提交给数据挖掘模 3.1确定业务对象 块,用来更好地挖掘新知识,而且还可以使综合管理模块利用知识库中 清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一 的新知识进行更好的实时处理。基于WEB和数据挖掘技术的网管系统以 步,挖掘的最后结构不可预测,但要探索的问题应该是有预见的,为了 WEB和数据挖掘技术为平台,以模型库和方法库为指导,利用知识库中 数据挖掘而挖掘则带有盲目性,是不会成功的。 的知识对网络数据进行全方位的分析和挖掘,发现潜在的新知识,补充 3.2数据准备 到知识库中,知识库中的知识又能更好地为系统服务,从而使得系统在 1)数据选择。搜索所有与业务对象有关的内部和外部数据信息, 一定程度上具有智能化,较好地协调数据、模型、方法、知识之间的关 并从中选择出适用于数据挖掘实用的数据。2)数据预处理。研究数据 系,最大限度地使网络管理者获得最大效益。 的质量,进行数据的集成变换、归约、压缩等,为进一步的分析作准 5结语语 备,并确定将要进行的挖掘操作的类型。3)数据转换。将数据转换成 基于WEB和数据挖掘技术的网管系统不仅可以解决多个专业网管形 一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成 成的“信息孤岛”、资源不能共享的问题,而且克服了大型网络中海量 功的关键。 数据却信息缺乏的障碍,引入了数据挖掘技术在一定程度上智能化的生 3.3数据挖掘 成业务规则,从全局出发为最优控制网络提供指导,帮助领导和决策者 对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘 预防风险,提高服务和管理水平,为克服当前各专业网管所带来的不足 算法外,其余一切工作都能自动地完成。 提供了有效解决途径,对当前网管现状的改善具有现实意义。 3.4结果分析 解释并评估结果。其使用的分析方法一般应视挖掘操作而定,通常 参考文献 会用到可视化技术。 [11闫建红-数据库系统概论的教学改革与探索. 3.5知识同化 [2 阳变压器研究所.电机工程设计手册[sHE京:机械工业出版社,1982. 将分析所得到的知识集成到业务信息系统的组织结构中去。 [3]GB6451.1—86.三相油浸式电力变压器技术参数和要求.