您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页Web数据挖掘综述

Web数据挖掘综述

来源:华佗小知识
Web数据挖掘综述

摘要:过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,因此如何从Web庞大的数据中提取出有价值的信息成为一大难题。Web数据挖掘正是为了解决这一难题而提出的一种数据挖掘技术。本文将从Web数据挖掘的概念、分类、处理流程、常用技术等几方面对Web数据挖掘进行介绍,并分析了Web数据挖掘的应用及发展趋势。关键词:Web数据挖掘;分类;处理流程;常用技术;应用;发展趋势OverviewofWebDataMining

Abstract:Overthepastfewdecades,therapiddevelopmentofWebmakesitbecomingtheworld’slargestpublicdatasources.SohowtoextractvaluableinformationfromthemassivedataofWebhasbecomeamajorproblem.Webdataminingisthedataminingtechnologywhatisinordertosolvethisproblem.ThisarticleintroducestheWebdataminingfromitsconcept,classification,processing,andcommontechniques,andanalyzestheapplicationandthedevelopmenttendencyofWebdatamining.Keywords:WebDataMining;Classification;Processing;CommonTechniques;Application;DevelopmentTendency0.引言

近些年来,互联网技术的飞速发展,带来了网络信息生产和消费行为的快速拓展。电脑、手机、平板电脑等终端的普及,SNS、微博等Web2.0应用的快速发展,促进了互联息数量的急剧增长,信息资源前所未有的丰富。但同时,海量级、碎片化的信息增加了人们获取有效信息的时间和成本[1]。因此,迫切需要找到这样的工具,能够从Web上快速有效地发现资源,发现隐含的规律性内容,提高在Web上检索信息、利用信息的效率,解决数据的应用问题,Web数据挖掘正是一个很好的解决方法。1.Web数据挖掘概念

Web数据挖掘,简称Web挖掘,是由OrenEtzioni在1996年首先提出来的[2]。Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及数据库技术、信息获取技术、统计学、机器学习和神经网络等多个研究领域的技术[3]。2.Web数据挖掘分类

Web上包括三种类型数据:Web页面数据、Web结构数据和Web日志文件[4]。依据在挖掘过程中使用的数据类别,Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类。2.1Web内容挖掘Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。Web内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。根据挖掘出来的数据可以将Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。2.2Web结构挖掘Web结构挖掘是从Web组织结构和链接关系中推导知识、挖掘页面的结构和Web结构,可以用来指导页面采集工作,提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档间的超链接结构挖掘。2.3Web使用挖掘Web使用挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式。通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化服务[5]。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。图1Web数据挖掘分类示意图3.Web数据挖掘处理流程

与传统数据和数据仓库相比,Web上的信息具有高度异构和半结构化特性[6],并且是动态的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理,典型的Web数据挖掘的处理流程如下[7]:3.1查找资源任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志甚至是通过Web形成的交易数据库中的数据。3.2信息选择和预处理任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告链接,去除多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至关系表。3.3模式发现对预处理后的数据进行挖掘,自动进行模式发现,从Web站点间发现普遍的模式和规则。3.4模式分析对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。可以是机器自动完成,也可以是与分析人员进行交互来完成。图2Web数据挖掘处理流程示意图4.常用的Web数据挖掘技术

4.1路径分析技术我们通常采用图的方法来分析Web页面之间的路径关系。G=(V,E),其中V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于改进站点的结构[8]。4.2关联规则挖掘技术关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统就可以利用这种思想为用户推荐相关信息或产品服务。4.3序列模式挖掘技术序列模式挖掘技术就是挖掘出交易集之间的有时间序列关系的模式。它与关联规则挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,注重事务内的关系,而序列模式挖掘技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服务器方动态地创立特定的有针对性的页面,以满足访问者的特定需求。4.4分类、聚类技术分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息,共同的访问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘[9]。发现分类规则可以识别一个特殊群体的共有属性的描述,这种描述可以用于分类新的检索。聚类可以从Web访问信息数据库中聚集出具有相似特性的用户群。在Web事务日记中聚类用户信息或数据项能够便于开发和执行未来的市场战略。5.Web数据挖掘的应用

5.1在社交网络上的应用近年来,在线的社交网络成为Web2.0时代最广泛的应用实例。社交网络允许用户在Web的环境里进行自由的沟通交互。一些社交网站已经成为网络上最受欢迎的网站。Web内容挖掘可以对社交网站的文档进行分类或分级,特别是针对博客、微博或是以文字内容为主的论坛。Web结构挖掘可以对社交网站的结构进行分析,为网站的改进建设提供有价值的建议。为用户推送最新的阅读内容[3]。Web使用挖掘可以用来分析用户的阅读兴趣和习惯,5.2在电子商务上的应用网络的发展使得电子商务成为了人们生活与企业发展中不可分割的一部分。电子商务平台是一个拥有海量数据信息资源的大型数据库,利用Web使用挖掘可以提高用户满意度,发现潜在的消费者,提供个性化的服务等。利用Web结构挖掘可以优化网站结构,为用户提供更加有效且快速的访问渠道,帮助商家制定更准确的市场营销策略[10]。5.3在远程教育上的应用现代远程教育站点是采用多种媒体手段进行远程系统教学的教育形式。它是随着现代信息技术的发展而产生的一种新型教育形式,是构筑知识经济时代人们终身学习体系的主要手段。使用Web数据挖掘,站点页面之间的链接得到优化,极大方便学习者学习,知识点之间的关联变得更为密切。同时,日常教学管理能更好地以学习者为中心[11]。5.4在搜索引擎上的应用通过Web数据挖掘,对网页上的一些相关内容以及用户的搜索习惯进行挖掘和采集,提高用户的检索效率,同时提高搜索引擎的准确性。6.Web数据挖掘的发展趋势

Web数据挖掘处理的是海量数据,且数据量以指数级增长,同时所涉及的挖掘算法相当复杂。有的算法需要多次扫描数据库,当数据量增加时会增加扫描的代价;有的算法需要存储各系列的相关信息,当信息量很大时,会带来存储上的问题。与传统Web数据挖掘相比,基于云计算的Web数据挖掘通过“云”中多个资源完成原来由一个节点承担的挖掘工作,使资源得到了充分利用,提高了数据挖掘的效率,因此,将云计算融入Web数据挖掘中将具有非常重要的现实意义,可以解决Internet上广域分布的海量数据挖掘问题[12]。通过云计算,Web数据挖掘的代价将大大降低,所以有理由相信云计算挖掘是Web数据挖掘今后的趋势。7.结束语

人类的发展离不开信息的传播和使用,在数据量急剧增长的当今社会,如何快速有效地检索有价值的信息显得更为重要,Web数据挖掘正是由于满足了这方面的需要才能获得如此迅速的发展。随着网络技术的发展以及网络用户的增加,Web数据挖掘技术将成为重要的研究课题和方向。参考文献[1]全巧梅.云计算环境下WEB数据挖掘的研究[J].信息技术与信息化,2012,05:96-99+105.[2]EtzioniO.TheWorld-WideWeb:quagmireorgoldmine?[J].CommunicationsoftheACM,1996,39(11):65-68.[3]高华.Web挖掘技术在社交网络分析的应用研究[J].科技信息,2013,09:91-92.[4]薛鸿民.Web数据挖掘技术研究[J].现代电子技术,2006,15:99-101.[5]PierrakosD,PaliourasG,PapatheodorouC,etal.Webusageminingasatoolforpersonalization:Asurvey[J].Usermodelinganduser-adaptedinteraction,2003,13(4):311-372.[6]由海涌,姜达.浅谈Web数据挖掘技术的应用[J].电子技术与软件工程,2013,06:55-56.[7]曹聪聪,康耀红.Web数据挖掘研究[J].现代电子技术,2007,04:92-94+97.[8]潘正高.Web数据挖掘技术综述[J].电脑知识与技术,2009,15:3852-3853+3858.[9]王少茹.基于Web数据挖掘的探索[J].电子世界,2014,04:11-12.[10]王芳.电子商务平台中的Web数据挖掘应用探讨[J].科技创新与应用,2014,10:44.[11]张舰.基于Web挖掘的远程教育站点设计[J].软件导刊,2014,05:132-134.[12]程苗.基于云计算的Web数据挖掘[J].计算机科学,2011,S1:146-149.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务