电子信息
DOI:10.19392/j.cnki.1671 ̄7341.202004094
科技风2020年2月
基于大数据的用户行为分析系统
李微丽
罗 汝
颜一鸣
吉首大学软件学院 湖南张家界 427000
摘 要:随着互联网的日益普及ꎬ网民每天的网络行为带来了网络数据的爆炸式增长ꎮ网络用户行为数据中蕴含着大量有价值、有意义的信息ꎬ网络用户行为分析系统通过对这些数据进行统计、分析ꎬ结果通过前台直观的报表展示ꎬ并进行智能推荐ꎮ一方面可以帮助营销商从中发现用户使用产品的规律ꎬ并将这些规律与网站的营销策略、产品功能、运营策略相结合ꎬ优化用户体验、实现更精细化和精准的运营与营销ꎬ让产品获得更好的增长ꎮ另一方面还可以应用于门兼顾打击罪犯、获取证据、提前管控、缩小影响范围从而保护人民、不阻碍互联网的正常发展轨迹ꎮ
关键词:互联网ꎻ大数据ꎻ用户行为分析
一、绪论
随着科学技术的飞速发展和社会经济水平的不断进步ꎬ互联网规模迅速膨胀ꎬ网络流量、用户规模等互联网组成部分快速增长ꎮ根据«第33次中国互联网络发展状况统计报告»中的数据统计ꎬ截止2013年12月底ꎬ中国网民规模已达到6.18亿ꎬ互联网普及率为45.8%ꎮ这充分说明了互联网已经逐渐成为人类生活、学习所依赖的一部分ꎮ
网民每天的网络行为带来了网络用户行为数据的爆炸式增长ꎬ网络用户行为数据中蕴含着大量有价值、有意义的信息ꎬ通过对用户行为日志进行统计、分析ꎬ结果通过前台直观的报表展示ꎬ可以帮助营销商大致掌握用户的喜好ꎬ从中发现用户使用产品的规律ꎬ将这些规律与网站的营销策略、产品功能、运营策略相结合ꎬ对用户进行智能推荐ꎬ以优化用户体验、实现更精细化和精准的运营与营销ꎬ让产品获得更好的增长ꎮ此外ꎬ可以通过数据分析来预测用户的行为倾向ꎬ为有关部门对网络进行合理的监控和干预提供了理论依据ꎬ还可以帮助门针对犯罪嫌疑人进行网络行为监控等ꎮ
二、用户行为分析系统架构设计
采集数据ꎬ经过Flume日志收集系统进行高可用、高可靠、分布式的海量日志监听和采集ꎮ根据其业务需求可在任意地点任意场景进行数据采集ꎬ通过植入多段代码ꎬ追踪用户在每个界面上的系列行为ꎬ采集到用户的全量行为ꎮ
息队列进行缓存ꎬ发送到Hdfs分布式文件系统对海量用户行为日志进行存储ꎬ以达到高容错、高可靠性、高可扩展性、高获得性、高吞吐率等ꎮSparkStreaming消费kafka消息队列中的数据ꎮ为了提高分析计算效率ꎬ使用Spark的Transformation算子和Action算子进行实时分析ꎮHive使用sql语句的形式结合多个优化MapReduce算法ꎬ以天为单位读取Hdfs分布式文件系统中的数据进行离线分析ꎬ并将结果放入Mysql关系型数据库ꎬ根据计算结果进行可视化展示ꎮ
块ꎮ数据展示:后台使用Mybatis持久化框架连接数据库ꎬ通过Sprintboot提供数据访问接口ꎮ前台使用Angular组件Asynclack异步消息处理与后台进行交互ꎬ加快了响应速度ꎮ最后通过Echarts图表动态直观的展示用户的各种行为指标ꎮ还支持报告数据用API形式导出ꎬ以更灵活、便捷、个性化的方式100
(3)数据应用层ꎮ分为数据展示、智能推荐、行为预测三大(2)数据分析层ꎮFlume将采集后的数据发送到kafka消(1)数据采集层ꎮ使用传统的JS为网站定制埋点方案以
完成网站数据的展现、分析等操作ꎻ智能推荐:使用基于内容过滤的推荐算法和基于双重聚类的协同过滤推荐算法融合后的混合推荐技术ꎬ对用户行为日志进行分析并对用户进行智能推荐服务ꎬ此技术在保证推荐准确率的同时ꎬ还能有效提高推荐结果的多样性ꎬ解决了传统推荐算法推荐结果单一、数据稀疏、冷启动等问题ꎻ行为预测:根据已有的用户行为数据ꎬ设计数据包重组算法ꎬ实现网络数据的重新组合ꎮ采用协议解析技术ꎬ还原网页的组成元素ꎮ基于SharpPcap与PacketDotNet类库对模型进行实现ꎬ最后采用多重分形的思想建立用户行为模型ꎬ用LUBAM模型计算出某时间段内用户的行为过程ꎬ并预测下一时间段内用户的行为过程ꎮ以最小均方误差值作为估算误差指标ꎬ判定用户行为的倾向程度ꎮ
三、研究内容
能会感兴趣的产品ꎮ假设我们将此系统应用在一个商城平台上ꎬ那么当用户在挑选商品时势必会过滤掉不感兴趣的商品ꎬ搜索一些感兴趣的商品ꎬ我们对相应的按钮填上埋点ꎬ就可以收集用户感兴趣的关键词ꎬ从而使用智能推荐算法ꎬ对用户推送一些产品ꎮ而传统推荐算法缺少对个体多样性的考虑ꎬ推荐结果过于单一ꎬ还具有冷启动、数据稀疏性等问题ꎮ为解决这些问题ꎬ本系统使用基于内容过滤的推荐算法和基于双重聚类的协同过滤推荐算法ꎬ将两种推荐算法进行融合后的混合推荐技术作为系统的推荐引擎ꎬ完成智能推荐系统模型的设计与实现ꎮ
序列ꎬ基于多重分形思想建立用户行为模型ꎬ计算某时间段内用户的行为过程ꎬ并预测估计下一时间段内用户的行为过程ꎬ以最小均方误差值作为误差判断参数ꎮ如果基于LUBAM的行为过程预测方差值较小ꎬ则说明用户在未来一段时间内仍可能有敏感行为发生ꎬ若预测方差值较大ꎬ则表明用户未来一段时间内发生敏感行为的概率相对较小ꎮ
参考文献:
[1]谷红勋ꎬ杨珂.基于大数据的移动用户行为分析系统与应用案例[J].电信科学ꎬ2016ꎬ32(3):139 ̄146.
[2]任思颖.基于大数据的网络用户行为分析[D].北京邮电大学ꎬ2015.
基金项目:2019年地方高校省级大学生研究性学习和创新性实验计划(项目编号:S201910531019)
(2)用户行为预测:抽取行为报告中含有敏感信息的行为(1)智能推荐:智能推荐即根据对用户的了解ꎬ推送用户可