基于聚焦搜索引擎的课程资料库建设初探
摘要 以我校本科学生自主实验室建设项目为基础,分析了聚焦搜索引擎在课程资料库建设实践方面的可行性。重点是以聚焦搜索引擎为工具,从网络上抓取课程资料库需求资料,形成完备的、具备可持续更新的课程资料数据库,适应学科发展和知识更新。 关键词 聚焦搜索引擎 网络爬虫实验室建设 一、引言
互联网的使用已经渗入到社会的各个层面,特别是教育领域,为高等院校的本科教学提供了庞大的信息资源,但要从这么大的资源库中寻找到自己需要的内容却是非常难。高校师生经常会使用像google、baidu等搜索引擎来帮助寻找自己要的资源。但其超大规模的分布式数据源、异构的数据及信息的检索质量不高等问题造成用户很难找到真实要用的信息,使其无法直接为高校师生提供资源服务。为了解决这一问题,本文探究了一种基于聚焦搜索引擎的课程资源库建设方案,为高校师生提供课程信息资源的检索服务。 二、聚焦搜索引擎实现策略
聚焦搜索引擎是实现基于主题的信息采集功能的核心组成部分,一般由爬行队列、网络连接器、主题模型、内容相关度分析以及链接相关度分析等功能模块组成。
其中,爬行队列是由一系列主题相关度较高的url组成。爬行队列在聚焦搜索引擎进行主题搜索之初是由种子站点组成,这些种子站点可以由该行业领域的专家给出,也可以借助一些权威网站自
动生成。在搜索过程开始之后,系统发现新的url,并根据主题相关度对其排序后补充到爬行队列中。网络连接器则根据爬行队列中的url,与网络建立连接后以下载其所指页面内容。
主题模型由主题建模方法来实现。主题词法是常用的主题建模方法;关键词法以一组特征关键词来表示主题内容,包括用户需求主题,以及文档内容主图。一个关键词可以是单个的词、短语、包括权重语种等属性。
内容相关度分析是指系统对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度如何,过滤无关页面,保留相关度达到阈值的网页。
链接相关度分析是指系统对从网页中提取的超链信息进行测算,得出每个url所指页面与指定主题的相关度,将符合主题度要求的url加入到爬行队列中并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到。
检索器为用户提供查询界面,根据用户提出的检索式对索引数据库进行检索,按相关度高低对查询结果排序后将页面链接及相关信息返回给用户。
管理平台负责对整个系统进行监控和管理。主要实现确定主题、初始化爬行器、控制爬行过程、协调优化模块间功能实现、用户交互等功能。作为一个完善的搜索引擎,管理平台还应供跨平台应用网络服务应用接口。
三、基于聚焦搜索引擎的课程资料库建设所需技术
1、数据库技术:数据管理是现代计算机的一项重要应用,对数据进行分类、组织、编码、存储、检索和维护的利用。数据库技术为应用程序提供了更为标准和开放式的接口。
2、面向对象技术:面向对象技术对于复杂知识单元的结构表示,课程资源库的构件化集成、信息处理模块的整和等都是至关重要的。本建设课题以j2ee开发平台为基础。
3、网络技术:计算机网络将地理位置不同并具有功能的多台计算机系统通过通信设备和线路连接起来,以功能完善的网络软件实现网络资源共享的系统。
4、人工智能技术:人工智能从学习者的结构特征、知识的表示等方面来进一步培养学习都能从庞大的知识库从寻找到有价值的,值得学习的资料。
四、基于聚焦搜索引擎的课程资料库的开发步骤
本系统首先对web中存在的相关指定课程资源的页面进行搜索,然后对搜索到的网页进行预处理与结构分析,再从网页中提取多媒体资源的相关文本,相关文本进行拼音及英文翻译转换、中文分词、关键词过滤提取等操作,最终形成对指定课程相关资源进行描述的信息库。
1、搜集指定课程资源网页。利用网络资源搜索器baidu或google等搜索与多媒体相关的web页面,利用页面的html标签等属性计算机内容相似度。这个过程中包括将html代码保存在一起,组建一个资源库,利用搜索策略决定搜索器的爬行主题和爬行方向,提
高搜索引擎的准确率。
2、分析资源网页和定位多媒体区域。获取charset的属性值,判断网页的编码语言和编码类型。接着定位多媒体区域,利用网页结构图判断资源的表格区域,将与资源描述相关的文本定位,尤其是那些导航文本对于资源的搜索非常重要。通过一定的算法将干扰的文本区域或干扰文本剔除,保留有利用价值的文本。 3、提取指定课程资源相关文本信息。
4、入库所抓取的关键信息。提取的相关文本信息,只是做了一个关键字的选择,还要将这些关键字入库到数据库,这部分工作就是信息入库工作。
5、利用管理平台负责对整个系统进行监控和管理。主要实现指定所要抓取的课程资源类型、关键词、初始化爬行器、控制爬行过程、实现最终所抓取资源检索、提取、展示等功能。
6、使用的开发工具:j2ee开发平台(jdk1.6、myeclipse7.0、tomcat服务器)。开发方式:基于botjar包和1ucene_cnjar包的二次开发,充分利用java网络爬虫的开源代码,来建立课程资源库资料搜索和爬取的聚焦爬虫。 五、结束语
在互联网中进行课程相关资源的搜索与聚焦爬虫技术的结合具有重要意义。将本文提出的方法与课程资源所需内容分析相结合,全面准确的提取网络中课程所需的有关信息,可提高资源的查准率和查全率,能够更有效的促进网络资源更好的利用,从而可以建设
本科各门专业课程的课程资源库,并为高校师生提供良好的信息资源服务。 参考文献:
[1]陈悦,陈运,杨义先,胡迪.基于遗传算法的聚焦爬虫搜索策略设计与研究[j].成都信息工程学院学报,2011. [2]张锦原.校园网多媒体资源库的建设[j].黑龙江科技信息,2009,23:58-58
[3]安然,杨征,陈媛媛.校园多媒体教学资源库建设的思考[j].科技资讯,2009,18:201-201