基于协同过滤的图书馆文献数据挖掘系统设计

来源：华佗小知识

２０１９年１０月　　　　　　　　　　　　　　　　机械设计与制造工程　　　　　　　　　　　　　　　　　Ｏｃｔ.２０１９第４８卷第１０期　　　　　　　　　ＭａｃｈｉｎｅＤｅｓｉｇｎａｎｄＭａｎｕｆａｃｔｕｒｉｎｇＥｎｇｉｎｅｅｒｉｎｇ　　　　　　　　　　　Ｖｏｌ.４８Ｎｏ.１０ＤＯＩ:１０.３９６９/ｊ.ｉｓｓｎ.２０９５－５０９Ｘ.２０１９.１０.０２６

(青海省西宁市大通回族土族自治县图书馆ꎬ青海西宁　８１０１００)

摘要:针对当前图书馆文献数据挖掘系统存在响应时间长、推荐准确率低等问题ꎬ设计了一种基于协同过滤的图书馆文献数据挖掘系统ꎮ采用ＵＭＬ建模语言构建支撑系统运行的数据库ꎬ通过协同过滤算法ꎬ依据用户浏览记录匹配对应的图书文献ꎬ完成图书馆文献数据精准挖掘ꎮ实验结果表明ꎬ当同时在线人数达到４００时ꎬ该系统能够在２ｓ内完成响应ꎬ推荐准确率高达９０％ꎬ具有较高的实用性ꎮ

关键词:协同过滤ꎻ图书馆ꎻ文献ꎻ数据挖掘

中图分类号:ＴＰ３９１　　　文献标识码:Ａ　　　文章编号:２０９５－５０９Ｘ(２０１９)１０－０１１９－０４　　随着网络的迅猛发展ꎬ网络个性化服务逐渐完善ꎮ越来越多的人通过电子图书馆获得知识ꎬ考虑到用户对图书馆文献的需求各不相同ꎬ为了使用户获得更加优质的体验ꎬ一种通过浏览记录获得用户喜好的图书馆挖掘技术正在兴起[１]ꎮ相关专家对此技术进行了大量的研究ꎮ乔岚[２]着重从总体架构和逻辑架构两个方面进行了一套个性化的电子商务推荐系统的设计ꎬ并通过用户行为提取和分析模块、相关推荐模块、过滤和排名模块以及推荐解释模块来实现系统功能ꎮ因为该系统是对用户喜好文献进行实时采集并处理后响应的ꎬ所以存在响应速度过慢的问题ꎮ王晓妮等[３]通过采用Ｍａｐ/Ｒｅｄｕｃｅ这种能够处理大量半结构化数据集合的并行编程模型方法ꎬ将云计算技术融入海量数据挖掘过程中ꎬ设计并实现了基于云计算的数据挖掘系统ꎬ该系统能对用户的个人兴趣准确做出判断ꎬ所以在响应速度方面具有较大优势ꎬ但该系统需要一定的时间进行分析才能使用ꎬ可操作性较差ꎮ阎星宇[４]提出并设计了基于数据挖掘的图书馆读者借阅系统ꎮ在分析其整体结构的基础上ꎬ给出了详细的硬件设计过程ꎬ通过引入数据挖掘方法实现对软件部分的设计ꎬ但系统对未登录的用户则没有推荐功能ꎬ因此具有一定的局限性ꎮ

针对上述系统存在的问题ꎬ本文设计了基于协同过滤的图书馆文献数据挖掘系统ꎮ

收稿日期:２０１８－１２－１４

作者简介:哈金花(１９７４—)ꎬ女ꎬ中级馆员ꎬ主要研究方向为信息资源自动化ꎬｈａｊｉｎｈｕａ７７４６８＠１６３.ｃｏｍ.

哈金花

１　基于协同过滤的图书馆文献数据挖掘系

统

１.１　图书馆文献数据挖掘系统功能模块

图书馆文献数据挖掘系统功能模块主要由图书馆文献采集模块、文献数据分析模块、文献数据分类模块、图书馆文献存储模块组成ꎮ详细设计如下:

１)图书馆文献采集模块ꎮ该模块能够对用户

的个人浏览记录进行采集ꎬ获得不同用户的图书文献喜好ꎬ完成图书馆文献数据挖掘系统的数据采集过程[５]ꎬ会定期为文献分析模块提供数据来源ꎬ并定期从图书馆的数据集成管理平台和联机公共资源体系中获得具有一定流通性的数据ꎬ包括图书信息以及读者信息等[６]ꎮ具体流程如图１所示ꎮ

图１　图书馆文献采集模块流程图

􀅰１１９􀅰

２０１９年第４８卷　　　　　　　　　　　　　　　机械设计与制造工程　　　　　　　　　　　　　　　　　　　　　

　　２)文献数据分析模块ꎮ该模块通过图书馆文献采集模块获得原始数据ꎬ采用协同过滤算法对图书馆文献浏览记录进行分析ꎬ完成图书馆文献数据的分类ꎮ其具体实现过程如图２所示[７]ꎮ

数据表包含读者的基本情况信息和读者类别等内容ꎮ图书信息表包含图书名称、路径、出版社和已经被借阅的次数等ꎮ管理员信息表包含图书馆管理员基本情况ꎬ留言表包含读者对书籍的评价ꎬ主图２　文献数据分析模块

　如图　３)３所示文献数据分类模块ꎮ由图可知ꎬ当文献浏览频率超过ꎮ该模块具体挖掘过程０.３０.时ꎬ图书文献信息才会被系统记录ꎬ浏览频率低于

关键数据的分析３的图书文献信息会被系统过滤掉ꎬ提高了对图书馆文献数据的挖掘ꎬ以减少对非效率ꎮ

图３　文献数据分类模块

　户的浏览情况　４)图书馆文献存储模块ꎬ为系统提供原始数据ꎮ该模块存储所有用ꎮ１.２　数据库设计

数据库是能够为图书馆文献数据挖掘提供一系列信息数据支持的仓库ꎮ考虑到其无法与数据有关的规则很好地联接ꎬ因此利用建模语言ＵＭＬ构建数据库

[８]

建基于协同过滤的数据库过程中ＵＭＬ能够提供十分灵活的建模机制ꎮ

[９]ꎬ利用ＵＭＬꎮ来描在构

述具体的实体内部映射关系数据库[１０]模型ꎬ可以获取组建数据库时需要的数据库表ꎮ依据类图ꎮ在图书馆文献数据挖掘系统中ꎬ最主要的数据库表包含注册读者数据表、图书信息表、管理员信息表、留言表、图书借阅表、作者表和推荐表等ꎮ注册读者􀅰１２０􀅰

要是书籍和读者编号以及评价内容ꎮ

１.３　协同过滤算法

图书馆数据挖掘系统最关键的环节是图书文献过滤挖掘过程ꎮ本文利用协同过滤算法实现图书馆文献数据挖掘ꎮ协同过滤基本理念为:依据用户兴趣相似程度推荐文献ꎬ将与当前用户相似的其他用户常浏览的文献推荐给当前用户ꎬ根据当前用户对图书馆文献的评价以及其他相似用户对文献

的评价ꎬ挖掘获得当前用户未浏览过的文献ꎬ同时进行推荐ꎮ

一般情况下ꎬ协同过滤算法可描述成以下形式{ｕ:参与协同过滤的用户共有ｕ}ꎬ文献信息项目共有ｍ个ꎬ表示为ＵꎬＩｎ＝个{ꎬｉ用户ｕ＝１ꎬ２ꎬ􀆺ꎬｕｍｍ

的图书文献喜好评价资源集为Ｉｉ×ｎ用户对图书文献的评价１ꎬｉ２ꎬ􀆺ꎬｎ矩阵}ꎮ假设ꎬｒＲｍ×ｎ表示ｍｉｊ表示第ｉ个用户在第ｊ个文献的访问记录ꎬ

表征用户浏览该文献时的兴趣评价ꎮ利用矩阵Ｒｍ×ｎ生成用户资源的近邻集合Ｍꎮ

针对当前用户ｕｋ根据其历史访问记录和兴趣爱好评价ꎬ图书馆文献数据挖掘系统ꎬ获取与该用户访问行为最为相似的多个用户作为ｕｋ最近邻集合ꎬ统计ｕｋ最近邻用户访问过但用户ｕｋ没有访问过的文献ꎬ利用这些文献构建候选推荐集合ꎬ再计算候选推荐集合中各文献对ｕｋ的推荐度ꎬ选取前Ｎ

个文献当作ｕｋ的推荐集合ꎮ

当前用户ｕｋ完成的爱好评价的文献项为Ｉｕｋ用户与资源间的近邻集合为ꎬ读取Ｍꎮ针对各文献ｉꎬｉ∈

、

Ｉｕｋ将全部Ｍ获取其近邻集合程度计算ꎬ构建相似兴趣用户集合Ｃ中各用户ＳＳｉꎬＳｉ＝{ｕｕ１ꎬｕ２ꎬ􀆺ꎬｓ}ꎬｉ合并ꎬ获取集合ｕＣꎬＣ＝{ｕｕ１ꎬｕ２ꎬ􀆺ꎬｃ}ꎮｉ和当前用户ｕｋ之间的相似Ｃｕｓｉｍ＝{ｕ１ꎬｕ２ꎬ􀆺ꎬ

ｓｉｍ}ꎮ为了提升用户满意度ꎬ获取以往用户ｕｉ和当前用户ｕｋ之间的相似程度ꎬ则相似程度函数可表示为:

Ｓｋｎ－ｉｋ＝

∑∑ｎ

(ｒｉｎ－􀭰ｒｉ)(ｒ􀭰ｒｋ)

２ｎ

(ｒｉｎ－􀭰ｒｉ)式中:Ｓｉｋ为各用户ｕｉ和当前用户∑ｎ

(ｒｋｎ－􀭰ｒｋ)２(１)

ｕｋ之间的相似程度ꎻｒｉｎ为各用户ｕｉ对文献ｎ的爱好评价值ꎻｒｋｎ为当

前用户ｕｋ对文献ｎ的爱好评价值ꎻ􀭰ｒｉ为各用户ｕｉ评

２０１９年第１０期　　　　　　　　哈金花:基于协同过滤的图书馆文献数据挖掘系统设计

价信息均值ꎻ􀭰ｒｋ为当前用户ｕｋ评价信息均值ꎮ

挖掘文献数据的兴趣爱好评价值相加所得和ꎬ获取前Ｎ个当前用户ｕｋ的图书文献数据挖掘集合Ｔｏｐ＿Ｎ:

综上ꎬ计算出相似兴趣用户集合Ｃｓｉｍꎬ通过各

Ｔｏｐ＿Ｎ＝ｍａｘ图书馆文献数据挖掘算法流程如图１→Ｎ

(Ｃｓｉｍ􀅰Ｎ＋ｕｋ􀅰Ｓｉｋ)

４所示(２)

ꎮ

图４　图书馆文献数据挖掘算法流程图

２　实验结果与分析

为验证本文系统的性能ꎬ将其与文献[３]系统、文献[４]系统进行对比实验ꎮ实验环境为:计２算机采用Ｐｅｎｔｉｕｍ４处理器ꎬＣＰＵ为２.８０ＧＨｚꎬ内存

为ＧＢꎬＶｉｓｕａｌ计算机硬盘空间为Ｃ＋＋６.０ꎮ

８０ＧＢꎬ使用的编程语言实验指标为１)２)图书馆文献数据挖掘响应时间:

图书馆文献数据推荐结果的准确性ꎻ实验结果如图５ꎬ６所示ꎮ

ꎮ

图５　不同数据挖掘系统的响应时间对比图

　种系统的响应时间都超过　分析图５可知ꎬ当同时在线人数超过１.０ｓꎬ差别不大ꎻ５０当同时时ꎬ３

在线人数超过１５０时ꎬ文献[３]系统的响应时间约为３.０ｓꎬ文献[４]系统响应时间约为３.６ｓꎬ而本文系统的响应时间约为１.６ｓꎬ响应时间明显较低ꎻ随

图６　不同挖掘系统的准确性对比图

着同时在线人数的增加ꎬ文献[３]、[４]系统响应时间明显增加ꎬ当人数达到４００时ꎬ３种系统响应时间都趋于稳定ｓꎬꎬ文献[３]一直稳定在文献[４]系统响应时间稳定在系统响应时间稳定在１.８ｓꎬ明显较低ꎬ说明其具有较高的处

５.７ｓꎬ而本文系统５.３理效率ꎬ有效改善了文献挖掘系统的性能ꎮ[３]分析图６可知ꎬ当同时在线人数为５０时ꎬ文献

率达到系统的准确率约为９０％ꎬ所提系统的准确率约８２％ꎬ文献[４]９５％系统的准确ꎻ随着同时在线人数的增加ꎬ文献[３]系统、[４]系统准确率持续下降ꎻ当同时在线人数达到５００时ꎬ文献[３]系５３％统的准确率仅有３７％ꎬ文献[４]系统的准确率约为

文献ꎬꎬ已经大幅度下降而本文系统的准确率依旧高达ꎬ无法为用户精准推荐图书９０％ꎬ明显高于其他两种系统ꎬ说明本文系统具有较高的精准度ꎮ

３　结束语

针对传统图书馆文献数据挖掘系统存在的问题ꎬ本文提出并设计了基于协同过滤的图书馆文献数据挖掘系统ꎮ该系统采用自动计数方法对采集到的用户浏览记录进行统计ꎬ通过协同过滤算法对统计数据进行过滤ꎬ选出最匹配的数据信息ꎬ完成对图书馆文献数据的深度挖掘ꎬ实验结果验证了该系统的优越性能ꎮ文献数据挖掘系统作为推广图书的渠道ꎬ对图书馆现代化建设来说非常重要ꎬ因

此有必要对其进行深入研究ꎬ下一步可通过细化图书馆文献数据挖掘系统功能模块ꎬ使系统用户获得高质量的服务ꎮ参考文献:

[１]　张沛朋计研究ꎬ[Ｊ].魏楠西安文理学院学报.基于数据挖掘技术的个性化移动推荐系统设

(自然科学版)ꎬ２０１７ꎬ２０(２):

􀅰１２１􀅰

２０１９年第４８卷　　　　　　　　　　　　　　　机械设计与制造工程　　　　　　　　　　　　　　　　　　　　　

[２]　乔岚.基于大数据技术的个性化推荐系统的设计与实现[Ｊ].

信息与电脑(理论版)ꎬ２０１７(２１):７０－７２.

[３]　王晓妮ꎬ段群ꎬ韩建刚.基于云计算的数据挖掘系统设计与

实现[Ｊ].计算机技术与发展ꎬ２０１９ꎬ２９(３):１８４－１８８.电子技术ꎬ２０１８ꎬ４１(１２):１８８－１９０ꎬ１９４.

[４]　阎星宇.基于数据挖掘的图书馆读者借阅系统设计[Ｊ].现代[５]　张松ꎬ张琳ꎬ王汝传.基于用户聚类的协同过滤推荐算法

９９.

[Ｊ].南京邮电大学学报(自然科学版)ꎬ２０１７ꎬ３７(３):９３－４１－４５.

[６]　赵淑媛.试析大数据环境下协同过滤技术与档案数据挖掘[７]　汪军ꎬ朱建军ꎬ覃朗.基于云模型熟悉相似度的协同过滤推荐

算法[Ｊ].计算机工程与科学ꎬ２０１７ꎬ３９(１１):２１０２－２１０８.[Ｊ].中国包装ꎬ２０１７ꎬ３７(５):７１－７７.科教文汇ꎬ２０１６(１７):８６－８７.

[８]　魏建兵.基于数据挖掘的购物网站的商品推荐系统模型研究[９]　陆芸婷.基于数据挖掘的高职院校自适应学习系统研究[Ｊ].[１０]张玙.基于协同过滤算法的人力资源信息管理系统研究[Ｊ].

电子设计工程ꎬ２０１７ꎬ２５(３):２３－２７.[Ｊ].兰台世界ꎬ２０１７(增刊１):２３－２４.

Ｄｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅｌｉｂｒａｒｙｄｏｃｕｍｅｎｔｄａｔａｍｉｎｉｎｇｓｙｓｔｅｍｂａｓｅｄｏｎｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ

(ＤａｔｏｎｇＨｕｉａｎｄＴｕＡｕｔｏｎｏｍｏｕｓＣｏｕｎｔｙＬｉｂｒａｒｙꎬＱｉｎｇｈａｉＸｉｎｉｎｇꎬ８１０１００ꎬＣｈｉｎａ)

ＨａＪｉｎｈｕａ

Ａｂｓｔｒａｃｔ:Ｉｎｏｒｄｅｒｔｏｓｈｏｒｔｅｎｔｈｅｌｏｎｇｒｅｓｐｏｎｓｅｔｉｍｅａｎｄｉｍｐｒｏｖｅｒｅｃｏｍｍｅｎｄａｔｉｏｎａｃｃｕｒａｃｙｉｎｔｈｅｃｕｒｒｅｎｔｌｉｂｒａｒｙｌｉｔｅｒａｔｕｒｅｄａｔａｍｉｎｉｎｇｓｙｓｔｅｍꎬｉｔｄｅｖｅｌｏｐｓａｌｉｂｒａｒｙｌｉｔｅｒａｔｕｒｅｄａｔａｍｉｎｉｎｇｓｙｓｔｅｍｂａｓｅｄｏｎｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ.ＵＭＬｍｏｄｅｌｉｎｇｌａｎｇｕａｇｅｉｓｕｓｅｄｔｏｃｏｎｓｔｒｕｃｔｔｈｅｄａｔａｂａｓｅｔｏｓｕｐｐｏｒｔｔｈｅｏｐｅｒａｔｉｏｎｏｆｔｈｅｓｙｓｔｅｍ.Ｂａｓｅｄｏｎｔｈｅｏｆｐｅｏｐｌｅｏｎｌｉｎｅｒｅａｃｈｅｓ４００ａｔｔｈｅｓａｍｅｔｉｍｅꎬｔｈｅｓｙｓｔｅｍｃａｎｃｏｍｐｌｅｔｅｔｈｅｒｅｓｐｏｎｓｅｗｉｔｈｉｎ２ｓｅｃｏｎｄｓꎬａｎｄｔｈｅｒｅｃｏｍｍｅｎｄａｔｉｏｎａｃｃｕｒａｃｙｉｓａｓｈｉｇｈａｓ９０％.Ｔｈｅｓｙｓｔｅｍｈａｓｈｉｇｈｐｒａｃｔｉｃａｂｉｌｉｔｙ.Ｋｅｙｗｏｒｄｓ:ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇꎻｌｉｂｒａｒｙꎻｌｉｔｅｒａｔｕｒｅꎻｄａｔａｍｉｎｉｎｇ

ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍａｎｄｔｈｅｕｓｅｒｂｒｏｗｓｉｎｇｒｅｃｏｒｄｓｔｏｍａｔｃｈｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｂｏｏｋｓａｎｄｄｏｃｕｍｅｎｔｓꎬｔｈｅａｃｃｕｒａｔｅｍｉｎｉｎｇｏｆｌｉｂｒａｒｙｌｉｔｅｒａｔｕｒｅｄａｔａｉｓｃｏｍｐｌｅｔｅｄ.Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｗｈｅｎｔｈｅｎｕｍｂｅｒ

􀅰１２２􀅰

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文