第12卷第3期(20161月)电脑知识与技术ComputerKnowledgeand年TechnologyVol.12,No.3,January2016ISSN1009-3044ComputerKnowledgeandTechnology电脑知识与技术http://www.dnzs.net.cnE-mail:jslt@dnzs.net.cnTel:+86-551-65690963656909基于Hadoop平台的用户网络行为系统设计严春景1,谢胜利2(1.广东工业大学自动化学院,广东广州510006;2.广东工业大学智能信息处理研究所,广东广州510006)
摘要:网民借助于网络工具进行的一切操作都会产生大量的有用数据,尤其是在当下电商的迅猛发展局势下,利用数据挖掘技术分析这些数据有助于提出更好的推荐系统和广告设置。该文就基于目前的研究现状分析并设计以Hadoop大数据平台为依托,采用K-means算法实现本系统。关键词:数据挖掘;网络行为;Hadoop大数据中图分类号:TP393文献标识码:A文章编号:1009-3044(2016)03-0049-02DOI:10.14004/j.cnki.ckt.2016.0337据《中国移动互联网用户行为统计报告2015》一文中的数字显示,截至2014年,中国移动互联网用户规模达7.29亿,其中社交、娱乐、实用工具以及阅读类应用用户占比超过70%,出行旅游、消费(实物)类应用用户占比大于40%[1]。网络世界里充满着多方面的信息和数据,如何通过分析这些数据来发掘用户的潜在需求,为用户推荐更好的产品或服务是当前电子商务的一大营销策略。本文从云计算技术和聚类算法的两个角度来设计用户行为分析系统,希望能为电商系统的精准营销做出贡献。
息。把结果归并成某一特征规律,从而得出用户和网站之间的映射关系。如果此后再关注用户的网络行为时,便可以产生相应的推荐系统。
1.4挖掘用户潜在的其他可能行为:通过给用户贴标签,分析用户的上网习惯并结合关联规则,我们可以发掘出客户的多种需求,向其推销相关的产品或服务。比如购买圆珠笔的顾客中有65%也会购买笔记本,利用这个规则,网站可以合理地规划商品摆放问题。1.5优化用户行为分析流程:1系统流程本次研究主要是围绕如何在Hadoop分布式处理平台之
上,借助云计算的方法来研究网络用户的行为而展开的。利用网络用户行为所产生的海量的日志数据构建大数据环境,借助Hadoop分布式处理的框架和聚类算法等挖掘出相应的信息。1.1数据提取为了提高用户行为分析效率,本系统需要解决的问题是“如何利用用户的标签行为给用户推荐物品”和“如何在用户给物品打标签时给用户推荐适合该物品的标签”。
2实验方法及过程通过聚类算法可以把相似度高的对象归为一类,以实现“物以类聚”,我们可以用聚类算法来对用户的上网行为进行“聚类”,将具有相同的上网习惯的用户归为一类,并为其“贴上”相同的用户标签。本文采用K-means算法实现聚类过程,并将其MapReduce化。2.1K-means算法简介本系统针对网购用户的行为进行分析,数据来源于搜狗实验室所提供的用户查询日志,主要是Sogou搜索引擎部分通过网络爬虫抓取到的网页查询需求及用户点击情况的网页查询日志数据集合,该数据集合的格式为:访问时间用户ID[查询词]该URL在返回结果中的排名用户点击的顺序号用户点击的URL,其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询
[2]
对应同一个用户ID。1.2数据预处理Sogou实验室所提供的数据格式是一条数据占据一行,行内数据以空格间隔,因此需要切割数据并存放在一组对象数组中,对象元素包含1.1所叙述的数据集合格式的基本属性。1.3用户行为的集群性分析K-means算法是十大经典算法中的之一,其核心思想就是
将m个样本点细分为n个聚簇,每个簇有为数不一的样本点,簇的数量由划分时的设定值决定[3]。其中簇内样本点相似度较大,而簇与簇之间的样本点相似度却很低,通过计算每个簇中样本点的期望值来决定相似度值的大小。2.2Mapper与Reducer任务本系统需要对用户的行为进行分门别类,即打上用户标签,标注该用户行为的详细信息,比如用户停留在某一网站时间长短、购物车里的物品类别以及上网时间段等更细粒度的信
//1、确定Mapper实现过程
publicstaticclassKmeansMapperextendsMapReduceBaseimplementsMapper{publicvoidmap(LongWritablekey,Textvalue,OutputCollec⁃
收稿日期:2015-11-25本栏目责任编辑:代
影
网络通讯及安全
49
ComputerKnowledgeandTechnology电脑知识与技术第12卷第3期(2016年1月)
toroutput,Reporterarg3)throwsIOEx⁃ception{String[]strArr=value.toString().split(\"\\");
...//根据聚类坐标,把文件中的点进
行类别划分
}}//2、确定Reducer过程,即计算新的聚类中心
publicstaticclassKmeansReducerextendsMapReduceBaseimplementsReducer{...}
发展趋势来看,用户上网所产生的数据量及其所具有的潜在价值都值得我们对其认真研究。本系统的技术架构的优点在于它的分层处理思路清晰,灵活使用Hadoop的生态系统搭建适合本系统的数据挖掘环境。采用了经典的K-means算法实现聚类思路,并且将其MapReduce化,虽然最后得出结果,但其中仍然有待优化的地方,尤其是在处理PB级别的数据量时,系统的稳定性更是得出结果的关键。
参考文献:[1]搜狐媒体.中国移动互联网用户行为统计报告.http://mt.sohu.com/20150318/n409959259.shtml.2015[2]搜狗实验室.用户查询日志.http://www.sogou.com/labs/re⁃sources.html?v=1.2015[3]韩晓红,胡彧.K—means聚类算法的研究[J].太原理工大学学报,2009,40(3):236-239.3结束语基于Hadoop的大数据平台分析用户的网络行为有助于推动对用户上网行为的研究向前发展,以目前的互联网和电商的
(上接第44页)
反馈进行分类汇总,当教师的某一方面的分数过低时,教师就应该进行反思,是否教学中存在问题。
水平自由选择需要的资源进行个性化的学习等。
本项目数字教材的研发将在充分调研教师和学生实际需求的基础上,针对移动互联网搭建的数字化学习环境,对教学内容和教学过程进行重新设计,充分发挥数字化学习环境优势,满足学生在学习过程中的个性化学习需求[3],同时能为教师更有效和便捷的服务,如提供丰富的学习情况统计和分析报告,帮助教师确定学生知识掌握情况及课堂教学重点等。本系统是基于HTML5方案实现,应用WebService实现电子教材中的各种交互,从而便于教材内容今后可以在各种终端上使用。在教材的交互设计方面,将充分考虑在iPad,Andriod,Win8等主流终端上的使用习惯,针对触控操作进行优化。数字教材格式兼容于Scorm标准,存储在数字资源的元数据提供了资源的自描述信息,可供平台的用户进行资源的查询,并可在其他平台上进行复用。
图10学生测评界面参考文献:[1]王利明.云出版面临的挑战及其应对策略[J].浙江海洋学院学报(人文科学版),2014,31(4).[2]彭介润,高航.一对一数字化学习:促进学生学习方式改革[J].发明与创新,教育信息化,2014(07).[3]焦斌斌.面向个人终身学习的数字化学习服务中学习者个性化需求研究[D].东北师范大学,2010.3结束语数字教材是集聚式的电子化教材,是电子化教材的高级形态,是将各种数字教材及电子化的教学资源按照一定的逻辑层次整合在一起,以充分满足教师和学生在教与学的过程中的个性化需求。教师可以自由选择需要的资源编写教案,布置作业,生成试卷或编写新的教材等;学生可以根据自身的能力和
50
网络通讯及安全
本栏目责任编辑:代影