您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页一种基于MapReduce架构的微博用户影响力评价算法的设计与实现

一种基于MapReduce架构的微博用户影响力评价算法的设计与实现

来源:华佗小知识
2013信息技术与应用学术会议优秀论文 Telecom market 一种基- ̄MapReduce架构的微博用户影响力评价算法 的设计与实现 方超周斌李爱平 (国防科技大学计算机学院,湖南沙市邮编410005) 摘要:随着互联网的高速发展和Web2.0时代的到来,微博用户正以惊人的速度在增长。 新浪微博现以粉丝数作为用户排名的依据,在僵尸粉和大量低使用率帐号的影响下,这种简 单的排名依据难以表征用户的影响力。本文以海量新浪微博数据为分析对象,在分布式系统 上构建微博用户的影响力评价模型。文章主要以微博用户的转发网络计算微博用户的微博影 响力,再利用关注关系计算微博用户的潜在影响力,最后合成微博用户影响力的评价模型。 实验及分析表明,该评价方法在微博服务中能有效的反映微博用户的真实影响力,适用于度 量微博用户的影响力。 关键字:微博影响力Pagerank MapReduce 中图分类号: 文献标识码:A 文章编号: The design and implementation of An Evaluation algorithm for the influence of weibo users based on MapReduce FANG・・Chao ZHOU--Bin LI・-Aiping (National University of Defense Technology,Changsba 41 0005 FANG—Chao) With the rapid development of Internet and WEB2.0 application,the number of Sina weibo user is growing at a very high speed.Sina.com uses the number of fans as the basis for user ranking. Under the influence of artiifcial followers and a large number of low utilization rate accounts,this simple ranking method is dificulft to capture the user’S influence accurately.In this paper,we use Sina weibo data to built users’influence evaluation model on a distributed system.This paper caculate weibo users microblog influence mainly based on weibo user’S retweet data,and uses the following relationship of weibo users to calculate weibo user’S popularity.Finally we come up with an influence evaluation model or fweibo users.The experiments and analysis show that this assessment method can capture weibo user’S real influence more accurately.This method is applicable to measure influence of weibo users. Key words:weibo influence Pagerank MapReduce 1引言 微博是微博客(Micro—blogging)的简称,是一个基于用户关系信息分享、传播及获取 平台,用户可以通过Web、Wap等各种客户端组建个人社区,以140字左右的文字更新信息, 并实现即时分享。近年来各大互联网公司都开通了微博服务。微博的兴起正改变着互联网用 户的生活。CNNIC发布的第31次《中国互联网络发展状况统计报告》中指出,截至2012年 通信市场・2013年5-6月 第96页 2013信息技术与应用学术会议优秀论文 Telecom market 12月底,我国微博用户规模达到3.09亿。新浪微博广泛的媒体影响力,极其采取的名人策 略使其用户规模和传播效益处于领先地位,成为中国最具影响力的自媒体平台之一。 微博大量的活跃用户和海量流动的信息使其成为很重要的信息载体和传播媒介。分析微 博网络中的热门微博传播情况可以发现,高影响力用户的转发是推动信息传播的重要动力。 当前新浪微博利用粉丝数进行微博用户影响力的排序。由于大量的僵尸用户和低使用率用户 存在于微博平台,使得这一评价方法得出的结果并不真实。本文基于海量的新浪微博用户数 据和Hadoop分布式系统,以新浪微博为研究对象提出了新的微博用户影响力评价方法。该 方法主要基于PageRank利用微博用户的关注信息和转发信息以及提及关系相结合的方式, 综合考察了微博用户的影响力。 2相关研究 微博的兴起使其成为大量学者研究的热门方向,学术界在微博影响力这一部分已经取得 了一定的成果。相关研究工作最早可以追溯到对网页的排名。谷歌的网页排名算法PageRank 通常被认为是对针对网页及其相互影响力的度量算法。它利用了web所拥有的庞大链接构 造特性。从网页A对网页B的链接被看作是A对B的支持投票。算法根据网页问的超链接 关系赋予每个网页一个实数值(PR值)来判断页面的重要性。其算法公式如下: PR(A):PR(B)PR(C)PR(D)++—q-—、 f ) .fC) —.fD) —…)~  +(、 1一 ) r1、 页面A的PR是由它的入链奉献得来的(像B、C、D),每个页面奉献给A的PR数值 的大小是由各自页面的PR值和链出数目决定的,例如B有4个链接,PR(B)=20,那么B就 会给A奉献数值为5的pr值。p是阻尼系数,通常取值为0.85,作用是使链接循环中PR传 递能够稳定延续,不至于中断或无限扩大。 Pagerank主要依靠“从众多重要网页链接过来的网页,必定是重要的网页”的回归关系, 来为搜索引擎的结果进行排序。这一基本思想使其适用于计算微博用户的影响力。 在此基础上国内外以微博为例进行了不少研究Ye[1]等将影响力细分成为了三种即:粉 丝、回复、转发影响力,分别对应了用户的几种主动的被动的用户行为。作者将用户粉丝数 量影响力、回复影响力、转发影响力、粉丝数、微博数、回复和转发数作为排序的准则进行 了计算和比较,作者认为以回复数作为用户影响力的标准是相对准确的,并以此进行了影响 力排序。李军[2]等对现阶段学术界的影响力构建方法做了较全面的综合论述,对于微博影 响力提出了相对准确的定义;并将现有的影响力评价方法归类为四种:基于PageRank的评 价方法,基于用户行为权值的评价方法,基于pagerank和用户行为权值相结合的评价方法, 基于URL追踪的评价方法,且作者最后给出了自己的user rank评价方法,但作者最终没有 对自己的算法进行验证。Ding zhaoyun[6]等依据Twitter上用户的转发和回复,通过构建 随机游走的多关系影响网络计算用户影响力。 本文基于对链接分析的方式评价微博用户影响力,引入调整过的PageRank算法,在分 布式系统Hadoop上分析微博数据集。 3数据准备 本文所采用的新浪微博数据主要包含了以下三类信息: (1)用户/卜人信息:用户id、用户名称、用户描述、创建日期、是否是认证用户、个人 标签、粉丝数、关注数等; 通信市场・2013年5-6月 第97页 2013信息技术与应用学术会议优秀论文(2)用户关注信息:用户的关注列表、关注列表中的用户信息: Telecom market (3)用户微博信息:用户的转发列表、用户的提及(@)列表、及关注列表中的用户信 息: 本文的实验过程暂对于用户的个人信息不做过多的关注。本文的实验环节主要应用了 3O万认证用户的关注信息、转发列表和提及列表。转发和提及列表是从海量的微博信息中 提取出来的,相关的提取过程在这里不赘述了。 用户个人信 息 用户id 用户关注信息 用户的关注列表 相关用户信息 用户微博信息 用户的转发列 表(次数) 用户名称 用户描述 创建日期 是否认证 用户的提及@ 列表 相关用户信息 个人标签 粉丝数 图1数据图 4基于MapReduce的微博用户影响力评价算法 结合传统的影响力定义,在微博中的用户影响力可以认为是用户改变其他用户行为的能 力。具体到新浪微博中,影响力高的用户受到的关注更高,发表的微博获取的评论和转发更 多,信息观点传播的速度更快。本文所用的微博用户影响力评价方法同用户受关注程度和用 户微博影响力相关。其中用户受关注程度主要是利用数据中的用户的关注列表,以链接分析 的方法计算出用户的关注影响力;用户微博影响力考察的是用户在微博平台上的信息传播能 力和用户id的权重,计算的方式也是通过链接分析。用户微博的每一条转发和用户每一次 被提及可以看作用户主页的入链,用户的转发和提及@其他的用户可以看作用户主页的出链。 本文通过链接分析的方式利用PageRank算法,较为合理的计算出用户的受关注程度和微博 影响。 4.1模型设计 (1)用户潜在影响力 新浪微博及Twi ̄er所采用的“关注模式”,形成了它们独有的信息传播方式。以新浪微 博为例,微博用户的粉丝其实充当着微博用户的信息接受者和传播者的角色。微博上的名人 和公知们聚集了大量的粉丝,形成了以自我为中心的信息传播网络。新浪微博使用粉丝数作 为用户影响力的排名,它认为微博用户的粉丝越多则入度越大,就越有影响力。但新浪微博 不同于Twitter,微博平台上存在着大量的僵尸账户和低使用率账户,这使得以粉丝数为标 准的影响力排名并不准确。本文抽取了新浪微博30万认证用户的关注信息,大大减少了僵 尸用户对实验结果的影响。从链接分析的角度引入PageRank算法利用微博用户的关注关系 计算微博用户的潜在影响力,实验表明该方法准确可靠。 本文建立的用户潜在影响力模型基本思想是:以微博用户为节点,他的关注对象为邻居 节点;用户给他的关注对象分配他的PR值。经过一轮计算叠加求和,即统计相关节点被给 予的PR值计算得到该节点此时的PR值。该方法对每个节点的PR值都有影响,主节点的 PR值发生了变化,他的邻居节点的值也会发生变化。所以这是一个不断迭代的过程,直到 通信市场・2013年5-6月 第98页 2013信息技术与应用学术会议优秀论文 的应用,用数学语言表达为: Telecom market 所有节点的PR值收敛,计算完成。这是经过调整的PageRank算法在计算用户潜在影响力 = ∑ pr:+(1一 )jEA(i) , 其中 为i的PR值, 为J的PR值,A(i)为关注用户i的用户集合, o 为用户J 的关注数量,p=o.85为阻尼系数, i标识用户J分配给用户i的PR值的比重, f可以通 过如下两步得到: (1计算用户i被关注和关注之比:z nu m鬈lo塑ut ) (3) (4) (5) 若用户的关注列表为空,则z 设为一常数k。 (2计算用户j的所有关注对象的被关注和关注之比的和:z=∑z 一— 最后得出: Z 改进后的PageRank方法可使得潜在影响力越高的用户越能得到更高的PR值,僵尸用 户或影响力很低的用户获取到的PR值越小,使得计算结果更准确。 (2)用户微博影响力 微博作为现代中国最重要的自媒体平台,已经成为当下热门事件传播和发酵的主阵地。 在信息传播网络中,转发是信息传播的关键因素。一条微博转发情况可以体现出这条微博的 传播影响力,同时也体现了这条微博发出者的用户影响力。本文抽取了1亿多用户的转发微 博相关数据信息和提及@其他用户的数据信息,利用PageRank在传播网络中的应用方法计 算用户的微博影响力。数学表达式如下: jeB(i,)者+,‘,十£, (1 为J的微博影响力,B(i)为转发了i的微博的用户和 其中zpr,.为i的微博影响力, 提及@了i的微博用户的集合, 为用户J转发别的用户微博的次数,t,为用户J提及@别 的用户的次数,fl--o.85为阻尼系数。实验表明该方法能准确表明用户的微博影响力。 (3)用户影响力评价方法 将计算得出的用户潜在影响力和微博影响力相结合,得到新浪微博用户影响力: ,: ・ +(1一 )’ 其中 为调整两个参数数量级防止大数吃小数的调节因子,为常数。 力,最后综合得到微博用户影响力。 通信市场・2013年5-6月 第99页 2013信息技术与应用学术会议优秀论文Telecom market 4.2基于MapReduce的PageRank 本文一方面要构建微博用户的影响力算法,一方面要研究这种算法在大数据集上的分布 式计算方法。MapReduce是一个在Hadoop集群上处理和生成超大数据集的数据处理模型, 它的优点是容易扩展到多个计算节点上处理数据。Mapreduce程序的执行分为两个主要阶 段:map阶段和reduce阶段。在map阶段,MapReduce获取输入数据并将数据单元装入mapper, 并产生一个<key,value>形式的中间输出。在reduce阶段,reduce处理来自map的输出, 并给出也是<key,value>形式的最终结果。总的来说,MapReduce程序通过操作键值对处理 数据,一般形式为: map:(kl,v1)>>list(k2,v2) reduce:(k2,1ist(v2))>>1ist(k3,v3) MapReduce的完整过程如图1所示。 巨卜曰 区 固 口一曰口一日图2 mapreduce执行过程 一日 一日 对于在MapReduce架构下的PageRank算法实现,本文采用的方法如下:首先对数据进 行预处理,将数据格式转换成MapReduce中inputformat规定的<key,value>键值对的形式, 形如<9,1 3 4 7 8><.7, l 3 8 9>。Key为网页的标识信息即id号,value为key中网页的出 链id列表。在map阶段,为每个网页设置一个默认的PR值为10,相当于人为的给它添加 一种属性用来标识网页的重要性。假如id=9的网页有id=l,3,4,7,8的出链,则id=9的网页为 每一个出链奉献了2的PR值。在map端经过一轮计算后将相同key的所有value保存成list, 形 ̄tll<key,list()>.。例如对上述id为2的网页,有id=9.7的奉献值,那么map端会输出<2, list(2,2.5)>的形式。由于PageRank需要经过多次迭代才会最终收敛,所以map端同时 也会输出文件的原有格式,形如<.7,1 3 8 9>的<key,value>键值对的形式。.reduce端接收 map的输<key,value>,进行汇总处理,将结果保存至HDFS中。因为PageRank需要经过多 次运算,难以用一次mapreduce处理完成;所以本文采用依赖关系组合式MapReduce。在 MapReduce程序中设置多个子任务,子任务之间有继承依赖关系。将前一个MapReduce的 输出结果作为下一个MapReduce的输入数据,以此来完成迭代运算。 5实验过程和结果分析 文中所用的实验环境如表1所示 实验采用七台主机作为服务器搭建hadoop集群 cpu 内存 硬盘 Intel酷睿2双核E8600 4g 500g 表】.实验环境 通信市场・2013年5-6月 第i00页 2013信息技术与应用学术会议优秀论文Telecom market 本文使用了101537994个新浪用户的转发和提及@关系数据,310329个新浪加v用户 的关注信息。数据以两张表的形式存放于Hadoop集群上,数据格式如表2、表3所示: 叫箍 用户关注信息表 用户转发和提及@关系表 , , , , 1 , , , , ,。 表2用户关注关系表 表3一用户转发和提及@关系表 :,l'_ ;.^1.1_.;{l;.-ll{‘l1j 本文实验有三个步骤:计算用户潜在影响力,计算用户微博影响力,合并得出微博用户 {. ::苎 + 婪王+ # _辩圭-}. 1. 姜:: 王+.雅 一. 委+ 由;{ --安{J= : 影响力;三个计算过程都是在Hadoop集群上完成的。集群上共有14个map,计算第一步 时,一次迭代耗时近1小时,共迭代了10次;计算第二步时,一次迭代耗时近5小时,共 ;. : +.莽 .雒 + -一_; {l :._=安^+.薹王+ 羹+ . ¨-丰= r 迭代了10次;最后合并运算耗时15分钟。 {. . 鲞^+. 王‘矗 千 _鞋 . {}:上 图2是用户潜在影响力的分布情况。实验结果表明:大量的关注集中于很少的一部分微 博用户,高影响力用户之间相互关注,影响力更大;90%以上的用户没有有效关注,潜在影 响力很小;实验结果符合新浪微博弱关系重媒体的属性。图3是用户微博影响力的分布情况, 实验结果表明:微博平台上的大部分的微博没有有效的转发,平台上的信息流通主要依靠少 数影响力高的用户转发来获取更快的传播速度;同时也表明,本文所设计的微博影响力评价 方法是计算微博用户影响力的重要因素。最终实验结果如表4所示,左边是新浪微博人气总 榜,右边为本文实验得到的排名。实验结果显示,新闻媒体和娱乐段子相关的帐号占据了大 多数席位,说明新浪微博最有价值的还是信息;仅有的几位名人帐号如李开复,都是拥有很 高的社会地位,且其所发的微博涵盖多方面且容易引起共鸣,所以其用户影响力高。 !!!靠}班 囊蠢 II ‘l 辛!}l!}瞎 l IlIl h 。 llII{ I: 。。ll l ’ : 馨瓣 班}强}I …j ● ...。j.. . 。 l 盐l:船l ::{::; :} 塞唑!l!! ' 柏 , I 灌在影响力 图2用户潜在影响力分布情况 图3用户微博影响力分布情况 6结语 本文针对新浪微博用户排名方法进行研究,提出了基于用户关注和转发提及@关系的微 博用户影响力评价方法。实验依据海量的新浪微博数据,在Hadoop分布式平台上利用 MapReduce程序完成运算分析。实验及分析表明,微博网络中的话语权掌握在少数人的手 中,新浪微博的用户使用微博的主要用途是获取信息。一些新闻类公众帐号和拥有一定社会 地位且积极在微博上发言的公知,相比一些有很高粉丝数的明星更具影响力。实验结果真实 有效,实验方法便于理解,易于实现。希望本文的用户影响力评价方法,对社交网络的分析 与挖掘、舆情监测等应用具有一定的借鉴作用。 通信市场・2013年5-6月 第i01页 2013信息技术与应用学术会议优秀论文 表4-最终实验结果 Telecom market 捧名鞋晨 羲藏豢壤人气辩 央祝舞闻. 泠笺话精选头条藉闻, 本文摊名 . 密哮 昧心如 豁穗甥 蛙虢 张小蛹 人民骞箍. 十万个玲知设 李开复. 萌瞎子。 经典微小说. 任志强. 姚晨. 盘耄同学 莲玮磺 霹立液 簏藩 衄咸乎。 瓣娜 蛹澜 新嬲刊。 痘竟经济学 参考文献 [1]Ye S Z,Wu SF.Measuring Message Propagation and Social Influence on twitter.corn[C].In:Proceedings ofthe International Conference on Social Informatics(Soclnfo’lO).Heidelberg:Springer-Verlag.2010:216—231. [2]李军,陈震,黄霁崴.微博影响力评价研究[J].信息网络安全,2012(3):10—13,27 [3]Weng J S,Lin E P,Jiang J,et a1.TwitteRank:Finding Topic—sensitive Influential twitters[C].In:Proceeding of the 3rd ACM International Conference on Web Search and Data Mining(WSDM201 .NewYork:ACM,2010:261—270 [4]Cha M Y,Haddadi H,Benevenuto F’et a1.Measuring User Influence in Twitter:The Million Follower Fallacy[C].In:Proceedings ofInternational A A】Conference on Weblogs andSocial Media(Ic—WSM’ DJ,Washington.Menlo Park:The AAAI Press,2010. [5]石磊,张聪,卫琳.引入活跃指数的微博用户排名机制[J].小型微型计算机系统, 2012 0 1:110—114 [6]朱恒民,李青.面向话题衍生性的微博网络舆情传播模型研究[J],现代图书情报技术, 2012(5):60—64. [7]Ding Zhaoyun,Jia Yan,Zhou Bin,Han Yi.Mimng Topical Influencers Based on the Multi—Relational Network in Micro—Blogging Sites[J】China Communication,January 20 1 3, vo1.10,No.1 93—104 [8]KWAK H,LEE changhyun,PARK H,et a1.What is Twitter,a social network or a news media[C] Proceedings of the 19th International Conference on Worm de Web ww lo).New York:ACM Press.2o1 o:591.600 [9]WANG Ru i,JIN Yongsheng.An empiircal study on the relationship between the followers’number and influence of microblogging【C】.Proceedings of the International Conference on E-Business and E-Government,ICEE 20 1 0.Guangzhou,China:IEEE Computer Society,2010:2014—2017. 作者简介: 方超男,(1988一),硕士生,研究方向:Web数据挖掘 周斌男,(1971.)博士,硕士生导师研究员,研究方向:Web数据挖掘社交网络分析分 布计算, 李爱平男,(1974一)博士,副研究员,研究方向:网络安全,社交网络分析,分布式计算 通信市场・2013年5-6月 第102页 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务