您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页Web挖掘技术探讨

Web挖掘技术探讨

来源:华佗小知识
维普资讯 http://www.cqvip.com

~一 眉圆圆 Web挖掘技术探讨 文。张春明(辽宁对外经贸学院) 摘要:随着I rite rilet的迅猛发展,web挖 掘逐渐成为数据挖掘的热点,但是因为 W e b自身的特点:多数据源,数据结构的半 结构化,及动态性等种种,W e b挖掘又是一 个难点。本文从w e b挖掘的内涵入手简要 介绍了w e b挖掘的目标、 关键词:W e b挖掘;数据挖掘;聚类 因特网使人们获得信息的流行和重要 手段,其发展带动了W eb的发展,同时在 掘潜在客户,达到客户群体的价值最大, 将客户信心转化为客户价值 三 W e b挖掘研究分类 W e b页面是互联网上存储和发布信息 最普遍的载体,是世界上最大的信息仓库 之一。W e b上存储的信息量巨大而且缺乏 结构化组织的规整性,人们访问Web留下 的日志也是海量数据。近几年数据挖掘技 术不断的发展完善,为W eb信息的处理和 地更新着各自的页面,W eb日志更是每秒 钟都会记录下大量的访问信息。 (四)W e b面对的是一个广泛的用户 群体 目前因特网上连接有约5千万台工作 站,其用户群仍在不断地扩展当中。各个 用户可以有不同的背景,兴趣和使用目 的。W e b上的大量信息相对于多数用户是 无用的。用户只关心W e b上的很小一部分 电子商务的发展历程中,不同模式的电子 商务网站应运而生,发展到现阶段,传统企 业的加入使得电子商务发展到一个新的阶 段。随着企业网站的规模加大,和复杂度的 增强,人们对站点的设计和功能提出了更 高的要求。要求W eb具有智能性,能快速、 准确地找到用户所需信息,能为不同用户 提供不同的服务;能为用户提供产品营销 策略信息等。在当前的信息分析技术中, W e b挖掘是最具有应用前景的一种技术、 分类。做到对w e b挖掘有个系统的介绍。 一、web挖掘内涵 W eb是一个巨大的、开放性、动态性 和广泛分布、高度异构、半结构化、超文 本、相互联系并且不断进化的信息仓库。 它也是一个巨大的文档累积的集合,包括 超链接信息、访问及使用信息,资源分布 分散,这就导致信息获取的困难。W eb数 据挖掘技术的诞生为这一领域的知识发现 带来了生机,以便人们可以从W eb海量 的数据中自动地、智能地抽取隐藏在这些 数据中的知识。 W e b挖掘就是利用数据挖掘技术的思 想和方法从W eb访问日志中提取有用的模 式,这些模式能够揭示站点访问者的有趣 特性。 二、W e b数据挖掘的目标 (一)提高服务器性能 对一个网站来说,需要运用最少的带 宽和服务器资源,为更多的客户提供更快 捷的服务。而用户对W e b站点的满意度, 主要以访问速度来衡量。从用户角度来 说,W e b站点只有“快”和“慢”之分; 用户往往并不要求实现大容量数据传输, 而是希望网站在保证性能的同时,能够容 纳更多的访问者。W e b用户所关心的问题 的实质是访问时间。而对于网站运营方来 希望通过w e b挖掘来提高服务器的性能, 达到用户希望的访问速度。 (二)改善网站导航 用户访问网站的另一个评价标准是网 站是否易用,方便易懂的网站导航使得网 站在用户心目中的信用和地位都会有所上 升。 (三)改善网站应用的系统设计 网站的设计归根结底是为了在提供给 用户需求的信息和服务的同时,占有客户 的眼球,好的网站应用坚实的先人为主的 网络经济体现得更加明显。 (四)为电子商务寻找目标用户 w eb挖掘可以将用户的访问习惯挖掘 出来,方便对用户的分类管理,和有目标 的进行信息推送。 (五)发现潜藏的客户群 对于网站长期目标是维持现有客户挖 有效使用提供了有效的工具。W eb挖掘己 经成为数据挖掘技术一个重要的应用领 域。现今最流行的对W e b数据挖掘的分类 是根据挖掘的对象将其分为三类: (一)基于Web内容(Co13.tellt)的挖掘 Web内容挖掘是指对Web页面内容进 行挖掘,从文本,图像,音频,视频,动 画等各种形式的网络资源中发现所需的特 定化信息,以实现Web资源的自动检索,提 高Web数据的利用效率。Web数据分布范 围很广,有来自于数据库的结构化数据,也 有用HTML标记的半结构化数据及无结构 的自由文本数据信息,有在FTP上的,在 GoPhe r中的,在数字图书馆中的,还有企 业自己W eb网站上的,也有的私人数 据和动态查询的结果等。 (二)Web结构(StrLIctLIre)挖掘 Web结构挖掘是挖掘Web潜在的链接 结构模式,找到隐藏在一个个页面之后的 链接结构模型,该模型可用于网页重新分 类,也可以用于寻找相似的网站,并由此 获得有关不同网页间相似度及关联度的信 息。这有助干用户找到指向相关主题的权 成站点。 (三)基于Web使用记录(Usage)的挖 掘 Web使用挖掘是挖掘Web服务器日志 获取的信息来预测用户浏览行为的技术, 指从用户的访问日志中挖掘用户的访问模 式,为网站经营管理和结构调整提供决策 支持,为企业发现新市场机会,进行市场 决策,提高通过网站施行的营销效果,以 及为企业进行战略决策提供有价值的潜在 的信息。 四、w e b数据挖掘的特点 W eb数据有其自身的特点; (一)对有效的数据仓库和数据挖掘 而言,W e b似乎太庞大了 W e b的数据量目前以兆兆字节 (te rabYtes)计算,而且仍然在迅速地增 长。许多机构和社团都在把各自大量的可 访问信息置于网上。这使得几乎不可能去 构造一个数据仓库来复制、存储或集成 Web上的所有数据。 (二)W e b页面的复杂性高于任何传 统的文本文档 W eb页面缺乏统一的结构,它包含了 远比任何一组书籍或其它文本文档多得多 的风格和内容。 (三)W eb是一个动态性极强的信息 源 W e b不仅以极快的速度增长,而且其 信息还在不断地发生着更新。新闻、股票 市场、公司广告和W e b服务中心都在不断 信息,其余信息对用户来说是不感兴趣的, 反而会淹没其所希望得到的搜索结果。 五、如何实现W e b挖掘 W eb挖掘发展自数据挖掘。数据挖掘 方法通常可以分为两类:一类是建立在统 计模型的基础上,采用的技术有决策树,分 类、聚类、关联规则等;另一类是建立一种 以机器学习为主的 工智能模型,采用的 方法有神经网络、自然法则计算方法等。 (一)W e b内容挖掘实现技术 W e b上的内容挖掘多为基于文本信息 的挖掘,它和通常的平面文本挖掘的功能 和方法比较类似。利用W e b文档中部分标 记,如Title、Head等包含的额外信息,可 以提高W eb文本挖掘的性能。 文本总结。文本总结是指从文档中抽 取关键信息,用简洁的形式对文档内容进 行摘要或解释。其目的是对文本信息进行 浓缩,给出它的紧凑描述。这样,用户不 需要浏览全文就可以了解文档或文档集合 的总体内容。 文本分类。分类是在已有数据的基础 上学会一个分类函数或构造出一个分类模 型,即通常所说的分类器。 文本聚类。文本聚类把一组文档按照 相似性归成若干类别。方法大致可分为层 次凝聚法和平面划分法两种类型。 关联规则。发现关联规则的算法通常 要经过以下三个步骤:连接数据,作数据 准备;给定最小支持度和最小可信度,利 用数据挖掘工具提供的算法发现关联规 则;可视化显示、理解、评估关联规则。 (二)W e b使用记录挖掘实现技术 在挖掘W e b用户使用记录时描述用户 访问的数据包括;IP地址、参考页面、访问 日期和时间、用户W eb站点及配置信息。 发现用户使用记录信息的方法有两 种。一种方法是通过对日志文件进行分 析,包含两种方式:一是先进行预处理,即 将日志数据映射为关系表并采用相应的数 据挖掘技术来访问日志数据;二是直接访 问Et志数据以获取用户的导航信息。另一 种方法是通过对用户点击事件的搜集和分 析发现用户导航行为。 参考文献: [1]毛国君,段立娟,王实,白云数据挖掘原理 与算法.[z]北京:清华大学出版社,2005 7 [2]范明,范宏建.数据挖掘导论北京:人民邮 电出版社 2oo6 5 [5]顾晓燕,关于挖掘技术的研究,电脑知识与 技术,2oo5 [4]薛鸿民,数据挖掘技术研究现,代电子技术, 2oo6 l67 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务