Web数据挖掘技术综述 陈春亚 湖南工艺美术职业学院湖南益阳41 3000 【摘要】WEB网是一个巨大的、分布广泛的、全球性的信息服务中心,涉及新闻、广告、清费者信息、金融管理、教育、、电子商务目的和 许多其他信息服务。还包含了大量丰富和动态的超链接信息,以及WEB页面的访问和使用信息,为数据挖掘提供了丰富的资源。 【关键词】WEB数据技术应用 中图分类号:TP311文献标识码:B文章编号:1009-4067(2013)15.32.02 一、Web数据挖掘的难点 下特点: web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现 今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规 律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚 伪无用的数据,是数据挖掘技术的最重要的应用。相对于Web的数据而 1、庞大性。由于web的开放性,使得web上的信息与臼俱增,呈 爆炸性增长。网上的网页数量达到l0亿,而且正在以每月近千万的速度 增长。 2、动态性。web不仅以极快的速度增长,而且其信息还在不断地发 生更新。新闻、公司广告、股票市场、Web服务中心等都在不断地更新 言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的 数据,而Web上的数据最大特点就是半结构化。所谓半结构化是相对于 完全结构化的传统数据库的数据而言。显然,面向web的数据挖掘比面 向单个数据仓库的数据挖掘要复杂得多。 (一)异构数据库环境 着各自的页面。链接信息和查找记录也在频繁更新之中。 3、异构性。从数据库研究的角度出发,Web网站上的信息一个更大、 更复杂的数据库。web上的每个站点就是一个数据源,每个数据源都是 异构的,这就构成了一个巨大的异构数据库环境。 (二)半结构化的数据结构 从数据库研究的角度出发,Web网站上的信息也可以看作一个数据 库,一个更大、更复杂的数据库。web上的每—个站点就是一个数据源, Web上的数据与传统数据库中的数据不同。Web上的数据非常复杂, 没有特定的模型描述,每个站点的数据都各自设计,并且数据本身 具有自述性和动态可变性。是一种非完全结构化的数据,称为半结构化 数据。所谓半结构化是相对于完全结构化的传统数据库的数据而言,半 结构化是web数据的最大特点。 从这些分散的、异构的、没有统一管理的海量信息中快速、准确地 获取信息,成为web挖掘的一个难点,用于Web的数据挖掘技术不能照 每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这 就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据 挖掘,首先,必须要研究站点之间异构数据的集成问题,只有将这些站 点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的 数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题, 因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、 处理就无从谈起。. (二)半结构化的数据结构 搬用于数据库的数据挖掘技术。 l、Web挖掘技术的分类 一Web上的数据与传统的数据库中的数据不同,传统的数据库都有一 定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据 非常复杂,没有特定的模型描述,每一站点的数据都各自设计,并 且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的 般而言,Web挖掘可分为3类:Web内容挖掘、Web结构挖掘和 Web使用记录挖掘。 2、web内容的挖掘 web内容的挖掘是从文件内容或其描述中筛选知识的过程,是挖掘 结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也 被称之为半结构化数据。半结构化是Web上数据的最大特点。 (三)解决半结构化的数据源问题 Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模 型的查询与集成问题。解决Web上的异构数据的集成与查询问题,就必 须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构 Intemet的页面和后台交易数据库。Web文件文本内容的挖掘、面向概念 索引的资源发现,以及面向代理的技术都属于这一类。 web内容挖掘有两种策略:直接挖掘文件的内容,或在其他工具搜 索的基础上进行改进。采取第1种策略的有锁定网络的查询语言Web Log、Web SQL等,利用启发式规则来寻找个人主页信息的Ahoy等;采 取第2种策略的方法主要是对查找引擎的查询结果进行进一步的处理, 化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了 要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术, 即自动地从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘 必须以半结构化模型和半结构化数据模型抽取技术为前提。 以得到较为精确和有用的信息。属于该类的有web SQL及对查找引擎的 返回结果进行群集的技术等。 3、Web结构的挖掘 Web结构的挖掘是从www的组织结构和链接关系中推导知识,是 二、Web上的数据挖掘 (一)Web上的数据的特点,Web是一个基于超文本的分布式信息 系统。Web目前涉及新闻、广告、消费信息、金融管理、教育、、 电子商务等许多信息服务。这为数据挖掘提供丰富的资源。Web具有以 运用数据挖掘技术来重建Web站点的结构,实现对页面进行排序,以发 现重要的页面。 每个web页面并不是物理对象,其内部有或多或少的结构。通过对 web页面的内部结构作研究,并用于寻找与给定的页面集合 ,……, 32 中国电子商务._2013・15 信息化建设 ==三三兰三三三三三三三三三兰 I n}相关的其他页面,如使用HTML结构树对Web页面进行分析,得到内 部结构特征,从而确认网上企业的名称和地址等信息在页面中出现的模 式。 一 1、客户分类和客户聚类 对Web的客户访问信息进行挖掘,对客户进行分类分析。应用聚类 分析对客户进行分组,并且分析组中客户的共同特征,这样就可以让销 售商更好地了解自己的客户,向客户提供更有针对性的服务。 2、找到潜在的客户 在对Web的客户访问信息的挖掘中,利用分类技术可在因特网上找 到未来的潜在客户。通常,获得这些潜在客户的时常策略是先对已经存 在的访问者进行分类。对于—个新的访问者,通过在Web上的分类发现, 识别这个访问者与已经分类的访问者的一些公共的描述,从而对这个访 问者进行正确分类,以判断这个新的访问者是否是一个潜在的客户。 (二)搜索引擎的应用 通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络 信息的分类浏览与检索;通过用户使用的提问式(query)历史记录分析,可 4、Web使用记录的挖掘 Web使用记录的挖掘是通过挖掘相应站点的日志文件和相关数据来 发现该站点上的浏览者和顾客的行为模式。www中的每个服务器都保 留了存取日志,记录了关于客户查找和互动的信息。分析这些信息可以 帮助了解客户的行为从而改进网站的结构,或为客户提供个陛化的服务。 一般模式追踪,通过分析使用记录来了解客户的查找模式和倾向, 以改进网站的组织结构。而个人使用模式追踪则倾向于分析单个用户的 喜爱和偏好,其目的是根据不同客户的查找模式为每个客户提供量身定 制的网站,开展有针对l生的服务以满足用户的需求。 Web使用记录的挖掘通常需要经过数据预处理、模式识别和模式分 析三个阶段。 以有效地进行提问扩展,提高用户的检索效果(查全率、查准率);通过运 用web挖掘技术改进关键词加权算法,可以提高网络信息的标引准确度, 改善检索效果。 三、Web挖掘的应用 web挖掘技术已广泛应用于金融业、零售业、远程通信业、管 理、制造业、医疗服务和体育等行业中,而Web挖掘的应用已成为一个 总之,面向Web的数据挖掘技术是一项复杂的技术,从Web挖掘中 挖掘出潜在的知识可作为今后决策的重要准则,根据挖掘出来的知识进 行相应的策略调整,从而可动态的创建满足客户需求的页面。 新的热点,它主要涉及到电子商务、网站设计和搜索引擎服务等多方面。 (一)在电子商务中的应用 (上接31页)(一)要以社会主义核心价值体系为指南,主动占领网络 从而为大学生思想政治教育提供了崭新的、空前广阔的理论与实践平台。 高校思想政治教育工作者要通过网络论坛、博客、手机短信等新媒体与 学生进行交流,这种有别于传统交流方式“面对面”的教育者与学生交 思想政治教育新阵地。努力营造文明有序的新媒体校园文化氛围,开展 生动活泼的网络思想政治教育活动。1.要把握的正确导向,在网络舆 论中大力宣传党在现阶段的路线、方针、。针对大学生迫切希望了 解新信息的特点,经常围绕学生感兴趣和敏感的话题进行讨论,增强吸 流的隐蔽性,使得学生能够感受到双方在人格、权利、地位上的平等; 在使用新媒体进行教育引导的过程中,有意识引导学生学会鉴别新媒体 引力和说服力。及时沟通,化解矛盾,维护大局稳定。要围绕一些重大 的政治问题,旗帜鲜明地发表评论,进行积极的引导,对错误思潮要敢 中的信息,增强其明辨是非的能力;加强对学生使用新媒体道德规范教 育,引导其在遵纪守法、符合道德规范的要求下使用新媒体,增强其法 纪观念,提高其道德素质;依托新媒体虚拟传播手段与大学生进行双向 交流,消除大学生的心理戒备和隔阂,增强大学生思想政治教育主体与 于批判,及时纠正错误信息。要及时向大学生宣讲当前国际国内形势, 国家和外交事务等问题的原贝u和立场,坚决与国家的言论斗 争到底;2.在网络教育中,引导大学生树立正确的世界观、人生观、价值 观,加强辩证唯物论和无神论教育,以及科学知识的普及,遏制各种迷 信谬论在网络中蔓延;3.在出现了不良导向时,不是简单地删除.而 是要主动引导,表现为及时作出反应,并迅速采取措施消解不良影响.以 平等的身份向学生发布事实,强化主导声音。 (二)引导大学生借助新媒体提高学习效率、增强职业素质。努力 主导者之间的信任,达到良好的教学效果。 参考文献 【1】张海鹰,藤谦.网络传播概论[M】.上海:复旦大学出版社,2001. 【2】龚民.凌文超.新媒体时代的校固文化建设[J】.长沙铁道学院 学报(社会科学版).2007,(4). [3】陈晓云.众人狂欢一一网络传播与娱乐【M】.上海:复旦大学出 版社,2001. 引导大学生借助新媒体获取更多有益于其学习成长的知识与信息,构建 合理的知识结构;引导其在合理使用新媒体提供信息的前提下培养 思考、解决问题的能力;在习惯网络搜索相关知识的前提下,积极 参与现实课堂的讨论交流,把网络中相关观点的碰撞与课堂中的讨论发 f4】柯晓兰,新媒体视野下高校思想政治工作的挑战及对裳[J].世 纪桥.2009(5). 言结合起来形成个人独特的思维方式;培养其积极参与在使用新媒体技 术的前提下又能尽可能完成作业与自我评价的习惯;通过在新媒体 的交流中形成的敢于发言与交流的习惯影响其现实学习中的积极发言与 交流;引导在学生通过新媒体及时了解行业就业需求,根据市场行业的 就业需求及时调整个人知识体系、增强职业素质。 (三)引导大学生依托新媒体锤炼思想品质、形成良好的道德素养。 通过新媒体大规模地、主动地、快速地传播正确的思想、理论与, 2013・15 中国电子商务._ 33