您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页基于大数据的用户画像方法研究综述

基于大数据的用户画像方法研究综述

来源:华佗小知识
的快速发展,不同渠道的数据信息 善和修正。所能描述的维度也在不断 的规则进行标签宽表的生成。 也可很方便地获得。这样的背景之下, 地增加和准确。 2.1.2数据平台 (1)数据平台应用的分布式文 可以从用户的基本信息、用户产品信 息、用户社交信息、用户事件信息等 2 于大数据的¨j户面像方法 件系统为Hadoop的HDFS,因为 一 Hadoop2.0以后。任何的大数据应用 维度,构建一个360。的用户画像。不 0 0 l ≯■ 。 , ’’ 仅是人可以成为用户,一个企业、一 麓 都可以通过ResoureManager申请资 个事物也可成为人们刻画的事物,所 基于大数据的用户画像的技术 源、注册服务。比如Spark—Submit、 以,通过对不同的事物进行用户信息 架构和整体实现,那么就从数据整理、 Hive等。而基于内存的计算框架,就 刻画,通过统计指标,我们可以很好 数据平台、面向应用三个方面来讨论 不选用Hadoop的MapReduce了。 地将其进行关联、匹配。从而在用户 一个架构的实现。如图1所示 。 当然,很多离线处理的业务,还是倾向 于使用Hadoop,但是Hadoop的封装 画像的基础之上,衍生出推荐系统、 2.1.1数据整理 物联系统、精准营销系统、广告推送 (1)数据指标的梳理来源于各个 的函数只有Map和Reduce,太过单一, 系统等一系列依照客户需求,进行完 系统日常积累的日志记录系统,通过 不像Spark一类的计算框架有更多封 美服务的体系结构。而且,用户画像 Sqoop导入HDFS,也可以用代码来 装的函数。可以大大提升开发效率。 和衍生出的一系列系统可以做到互相 实现,比如Spark的JDBC连接传 (2)计算的框架选用Spark以及 补充,基于用户信息推荐,依据推荐 统数据库进行数据的Cache。还有一 Hadoop,这里Spark的主要用途有两 内容的用户反馈,进一步完善和丰富 种方式,可以通过将数据写入本地文 种:一种是对数据处理与上层应用所指 a 用户的信息。可以说,用户画像不仅 件。然后通过SparkSQL的load或者 定的规则的数据筛选过滤,通过Scal仅是对用户的潜在研究,更是对用户 Hive的export等方式导入HDFS。 的持续性研究,是对用户的实时研究, (2)通过Hive编写UDF或者 编写Spark代码提交至Sparksubmit; 一种是服务于上层应用的SparkSQL, 用户是企业的生命线,那么用户画像 HiveQL根据业务逻辑拼接ETL。使 通过启动Spark ThriftServei与前台应 的研究就是企业整个经营之路上贯穿 用户对应上不同的用户标签数据(这 用进行连接。Hadoop的应用主要在于 始终、必不可少的部分。用户信息可 里的指标可以理解为为每个用户打上 对于标签数据的打分,比如利用协同过 以刻画的维度.随着业务的需求以及 了相应的标签),生成相应的源表数据, 滤算法等各种推荐算法对数据进行各方 数据的获取与挖掘.将得到不断地完 以便于后续用户画像系统,通过不同 面评分。 (3)MongoDB内存数据的应用 主要在于对单个用户的实时查询,也 是通过对Spark数据梳理后的标签宽 表进行数据格式转换(JSON格式)导 入MongoDB,前台应用可通过连接 MongoDB进行数据转换,从而进行 单个标签的展现。(当然也可将数据转 换为Redis中的Key Value形式,导 入Redis集群)。 (4)MySQL的作用在于针对上 层应用标签规则的存储。以及页面 信息的展现。后台的数据宽表是与 I剞l 1:大数掷;的,Ⅱrl 像nq技术架构 Spark相关联,通过连接MySQL,随 ~7r 2017年10月月刊总第306期 后Cache元数据进行Filter、Select、 览休闲鞋单品页、搜索帆布鞋、发表 Map、Reduce等对元数据信息的整 关于鞋品质的微博、赞“双十一大促 理,再与真实存在于HDFS的数据进 给力”的微博消息等,均可看作互联 行处理。 网用户行为。  r ’’ 2.1.3面向应用 通过刚才的数据整理、数据平 台的计算,都已经将服务于上层应用 1- r ‘ 、‘、了解广告营销的人都知道,确定 目标受众是营销的第一步。传统线下 的标签大宽表生成(用户所对应的备 广告可以根据不同场合大概确定一个 类标签信息)。那么前台根据业务逻 人的社会背景。而在互联网这个虚拟 辑,勾选不同的标签进行求和、剔除 世界中,隐藏在幕后的用户拥有太多 等操作,比如对本月流量大于200M 可能性,因此在互联网营销逐渐占据 用户(标签)+本月消费超过i00元 主流的时代。互联网产品服务的人群 可以简单地理解为用户的站内与站外 用户(标签)进行和的操作,通过前 画像愈加重要 。 台代码实现SQL的拼接,进行客户 (1)Step1:准确识别用户 行为,例如是通过搜索导航进入还是 直接打开该APP,离开时是站内跳转 数目的探索。这里就是通过JDBC的 微博/微信/QQ等第三方登录 到其他网页还是直接关闭。用户网络 方式连接Spark的ThriftServer,通 成企业识别用户的折中选择。用户识 行为动态跟踪一方面有助于媒体自身 过集群进行HDFS上的大宽表的运 别的目的是为了区分用户、单点定位。 优化流量运营;男一方面可以帮助广  算求COUNT。需要注意的是,很多 如图2所示,用户识别的方式有很多 告主有效地控制不同页面的投放频次,SQL聚合函数以及多表关联相当于 种,如Cookie、注册ID、邮箱、微 避免产生用户倦怠。 Hadoop的MapReduce的Shuffle, 信/微博/QQ等第三方登录、手机号 (3)Step3:结合静态数据评估 很容易造成内存溢出,这样便可以定 等,这些都是互联网用户相对于传统 用户价值 位相应的客户数量。从而进行客户群、 线下渠道所特有的身份标识,其中手 静态数据获取后,需要对人群 标签的分析。产品的策略匹配从而精 机号是目前移动端最为准确的用户标 进行因子和聚类分析,不同的目的分 准营销。  识,但随着用户的注册意愿越来越低, 类依据不同,例如对于产品设计来说,微博/微信/QQ等第三方登录成为越 按照使用动机或使用行为划分是最为 来越多企业的折中选择。 常见的方式,而对于营销类媒体来说, 静态信息数据是指用户相对稳定 (2)Step2:动态跟踪用户行为 依据消费形态来区分人群是最为直接 的分类方式。 的信息,主要包括人口属性、商业属 轨迹 性等方面数据。这类信息,自成标签, 动态行为数据可以确认用户不同 如图4所示。静态数据主要包括 如果企业有真实信息则无需过多建模 场景下的不同访问轨迹,助力广告主 用户的人口属性、商业属性、消费特 预测,更多的是数据清洗工作。 动态信息数据是指用户不断变化 跨端控频营销。 征、生活形态、CRM五大维度,其获 如图3所示,用户网络行为动 取方式存在多种,数据挖掘是最为常 的行为信息,广义上讲,一个用户打 态跟踪主要包括三个维度:场景、媒 见也是较为精准的一种方式。如果数  开网页、买了一个杯子、与该用户傍 体、路径。应用到互联网中,场景主 据有限,则需要定性与定量结合补充, 晚溜了趟狗、白天取了一次钱、打了 要包括访问设备、访问时段;媒体指 定性方法包括小组座谈会、用户深访、一ng阶梯法、透射法等, 个哈欠等,都是用户行为。当行为 某一时段下用户具体访问的媒体,如 日志法、Ladderi 主要是通过开放性的问题获得用户真 集中到互联网,乃至电商,用户行为 资讯类、视频类、游戏类、社交类等; 实的心理需求,具象用户特征。定量 就会聚焦很多,如浏览凡窖首页、浏 路径指用户进入和离开某媒体的路径,广播屯强信息,WWW.rti.cn 39 iC T C 潜力、竞争优势等,根据企业自身情 况排列不同组合。 3大数据用户嘶像的应用 ■ . 、 ≯ ∽ 0 微博用户画像研究表明,每一个 用户都是网络中一个具备发布、传播、 消费信息功能的节点。其中一部分节 点具备发布优质原创信息的功能,并 通过社交网络将信息快速传播,即能 力节点;而其他大部分节点则偏重于 消费信息,同时传播其感兴趣的信息, 即消费节点 。微博平台的这种信息 传播方式使得能力节点从原创信息 传播中获得对网络的影响力,并打造 自身的品牌,从而进一步促使更多节 点消费其原创信息;而这种信息传播 方式也让消费节点在消费信息的同时 发掘其自身兴趣,促进其对同类信息 的消费,从而提升能力节点的活跃性。 因此,促进优质信息的快速传播是我 更多是通过定量问卷调研的方式进行, 不同的群体之间也会有标签的重合, 们的首要任务,而挖掘出具备原创信 关键在于后期定量数据的建模与分析。 此时标签的权重反映了不同群体的核 息发布能力的节点,并为其打上相应 目的是通过封闭性问题,一方面对定 心特征。如“时尚小咖”和“科技先 的能力标签是后续工作的前提和基 性假设进行验证。另一方面获取市场 锋”,两类人群中都有女性标签,此时 础。以新浪微博为例,在用户注册的 的用户分布规律。 需要比较女性在不同人群中的标签权 过程中,已有用户的基础信息集为构 (4)Step4:用户标签定义与权 重,以决定将该标签解读给哪类群体。 建过程中的静态数据,诸如年龄、地域、 重 通常,一个好的用户画像,不同人群 性别、关注数、粉丝数、兴趣标签等, 从繁杂的数据中抽取共同的特征 之间的标签重合度较小,只有在那些 但这类弱关系数据信息还不足以给定 。 值。根据特征值对群体进行定义。有 权重较小的标签上会有些许重合旧 一个人或一群人的用户画像。为使得 助于广告主一目了然掌握该群体的特 性,例如“时尚小咖”。可以快速地 列 (5)Step5:不同人群优先级排 户画像描述更加精确,新浪微博通过 兴趣话题.把对话题同样感兴趣的一 根据企业自身情况排列不同组合。 类人聚合到一起,参与话题讨论。这 联想到针对这类人,时尚感至关重要, 即产品的设计感、外观等。并且“小 目前,大部分画像只完成上述4步就 样通过话题聚合,就能获取这类人群 咖”两字表明该类人并不盲目追求潮 结束了,然而最后一步决定了最终效 的信息,提取该类人群标签,构建人 流,他们有自己的审美观,并且能够 果的落地,对于广告主来说可以理解 群用户画像,这样作为商家或广告商。 影响身边的人。 为媒介的组合策略。组合策略可以按 就能对该类人群进行微博广告投放。 同时,一个群体会有多个标签。 照频率的高低、市场的大小、收益的 达到精准营销的目的。 4o广播粤 信寓・wWW cn 2017年10月月刊总第306期 的研究工作还很长远,需要存实时性 项目)目益剧增,海量的数据对系统的 以及用户和项目的建模两个方面进行 推荐算法有了更高的性能要求,既要 数字图书馆的用户数据主要涉及 深入研究。 保证推荐系统高精度,又要同时提高 以下两个方面:图书馆管理系统的注 册、借阅等实名数据;网站系统、数 字资源服务系统的登录、阅读、下载 推荐的宴时性。因此,更多的人工智能、 机器学习以及其他领域的数据处理技 传统推荐算法中,Content—based 术被应用于设计推荐算法,使系统的整 il1121 ̄压圃 等行为数据,以及微信、APP等移动 的推荐相关性比较强,但是缺乏新颖度, 体性能得到最大限度的提高l平台的访问、续借、咨询等行为数据。 而不论是Memory based的协同算 然而,这些数据通常存储在多套服务 法还是Model—based的协同算法都 参考文献:  1李映坤 大数据背景下用户画像的统计方 系统中,各系统管理相对,数据 是仅依据传统的相似度进行计算,没 【1间也无关联,在构建用户画像之前, 有对项目的属性或者用户的建模信息 首先耍宴现各服务系统间的数据整合。 进行综合分析。部分文献仅仅使用了 结合现有服务内容,对图书馆APP, 一法实践研究【D】首都经济贸易大学,2016 【2】丁伟,王题,刘新海,等基于大数据技 术的手机用户画像与征信研究…邮电设计技 术 2016(3):64—69 些例如用户的基础的相关数据信息 微信、网站、一卡通等系统中的数据 或者是特征标签信息,这些文献都没 进行串联,注册数据分析出用户属性 有对目标用户和待推荐项目的属性建 [3】Iglesias J A,Angelov P,Ledezma A, e1 a1.Creating Evolving User Behavior Profiles Autornatically[J】IEEE rransac— 911101。 数据,借阅数据、检索数据、阅览数 模进行合理的抽取研究Iliens on Knowledge&Data EngiIleering. 据等分析出用户行为数据,用户属性 数据和行为数据则共同构成了用户画 像的主要数据来源,如图5所示” 。 2012,24(5):854-867. 【4】Slaninov d K.User behaviou ral pat- terns and reduced user profiles extracted 目前存大型Web网站上应用推荐 算法大多是Content—based和CF协 from log files『C]ll Interr1atl()I1al Confer ence on Intelligent Systems Design and 4挑战 同算法,尽管在协同过滤推荐技术上许 Applications IEEE,2014:289—294 互联网技术的发展和应用促进了 多专家学者也都进行了很多研究,但 大规模数据的产生和积累,以及机器 是多数的改进算法并不理想。特别是 (51张小可,沈文明,杜翠凤贝叶斯网络存 用户画像构建中的研究 .移动通信,2016, 40(22):22—26. 学习推广和计算性能的普遍提高,对 针对用户冷启动和评分矩阵的数据稀 【6】周鲜子浅谈大数据下电子商务网站的用 用户画像的发展具有推进作用,促使 疏问题,还没有理想的方法解决。此 研究人员对用户数据画像进行更加精 外,随着互联网的飞速发展,每个企 户画像.J1黑龙江科技信息,2017(11) 丁伟,王题,刘新海,等.基于大数据技 术的手机用户画像与征信研究[J]邮电设计技 准的研究。面对新技术的挑战,后续 业的网站上的注册用户和产品(待推荐 术,2016(3):64—69 (81刘速.浅议数字图书馆知 发现系统中的 用户画像——以天津图书馆为例『LJ].图书馆理 论与实践,201。7(6):103—106 【91田耕基于关系和内容的推荐算法研究 LD1北京交通大学,2015 【10]Su,X Y&T M.Khoshgoftaar.A Sur— vey Of Collaborative Filtering  ̄ech— niques[Jl Advances in Artificial Intel— ligence,2009,2009,19 I11]刘淇基于用户兴趣建模的推荐方法及应 用研究【ID].中国科学技术大学,2013. 『12]韩旭.个性化推荐系统用户兴趣建模方 式的研究【JI.数字技术与应用,2010,11: 44+46 广搔嗥} 信息’WWW di cn 4^ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务