分析它们所代表的领域和研究主体的内在关系变
尽管以上研究在学界得到了一定的认同,但是也有部分学者认为其在研究方法和研究数据方面存在一定的局限,不具备普遍性。
有研究人员关注学者对Twitter的使用,讨论新媒体技术在大学课堂的应用是否有利于学生更好的学习,是否能代表学生学习方式的根本性转变等[32]。如Veletsianos[33]对60名学者的Twitter内容进行了定性分析,发现其交流主题主要集中在展示课堂和学生的信息、问题的讨论与释疑、分享专业信息和资源、专业知识求助与解答、兴趣与健康分享等六个方面,这对于老师了解学生学习、生活、健康很有帮助。
Twitter作为社会化媒体的一种,每天都会有数以亿计的信息,要从中挖掘出有用的信息,需要借助计算机信息技术和统计学方法作为支撑。文本挖掘、数据挖掘、语言处理、信息可视化、情感分析、心理分析、社会网络分析、主题建模等,是Twitter舆情分析研究涉及的主要技术和方法。
其中文本挖掘、数据挖掘、主题建模等是Twitter内容分析的基础性技术和方法,这方面的相关研究成果最为丰富。Zhao等[34]利用潜在“狄利克雷分配(LDA)模型”(D(x)=lim(n→∞){lim(m→∞)[cosπm!x]^n})发现Twitter中有代表性的话题,使用文本挖掘技术对比Twitter和《纽约时报》、华盛顿邮报社的话题,为进一步信息分析和数据挖掘提供了参考;Ghosh和Guha[35]以肥胖问题为例,提出运用LDA模型(Latent Dirichlet Allocation,狄利克雷分布函数)进行主题建模,并运用GPS定位信息系统进行空间解析,从而分析Twitter中的意见领袖大型对话数据集以帮助有关问题的理解和解决;Correa等[36]提出了一种通过挖掘用户交互信号来识别以话题为中心的“微群体”的算法;Lampos和Cristianini[37]提出了一个用于即时预告突发性事件情况的监测系统,该方法利用Bolasso算法从大量非结构化的社交媒体数据中抽取一致的文本特征子集,进而预测事件的发生和大小,以推测某一地区的降雨量和地区流感患病率来验证该方法的有效性。
此外,情感分析对市场营销、舆情监测等十分重要,而信息可视化有助于人们理解信息消费和传播的模式,因此有很多研究人员对此展开研究。Kontopoulos等[38]提出了基于本体的情感分析方法,与以往基于词典的和基于机器学习的方法不同,该方法将一条Twitter信息看成是与主题相关的不同方面的集合,进而分析毎一个方面的情感倾向。如Cao[39]设计可以实时跟踪信息扩散过程的可视化工具Whisper,它强调了时间走势、社会空间范围以及社区对感兴趣话题的反应三个信息扩散的主要特点,运用flux line-drawing算法多路径跟踪以识别突发事件的时空模式。
对国内文献的研究同样选取了关键词作为抓取对象,采用与国外相同的研究方法(共词分析法),以关键词出现的次数为基础对这些频词进行分层聚类,挖掘这些高频词之间的关联,分析它们所代表的领域和研究主体的内在关系变化(如图0-2,0-3)。
表0-2 高频关键词
表0-3 热点微博类别描述
在对已发表的11429篇与微博相关的论文的关键词抓取分类的基础上,根据微博用户话题内容信息,如话题内容属性、点赞次数、转发次数、评论次数为影响因子,选取从2008年9月至2014年4月活跃度最高的2431位博主,每条微博平均被转发1826次,总转发次数1217万。每条转发量在1000次以上的原创微博为热点微博,在以上数据库中符合条件的微博数量总计7036条,对这些热门微博进行数据处理,将热门微博信息大致分为以下6个类别(见表1-3)。根据表1-3可以看出,微博涉及社会生活的方方面面,是用户获取信息的重要来源地,数据显示,时尚娱乐八卦与休闲趣味类微博占总统计量的48.76%;说明在社会转型期大众心理压力普遍较大,希望通过微博这一媒介来获取心理的舒适感和安逸指数,说明微博具有缓解压力、调适心理的特性,有助于释放负能量的工具属性。其次是社会热点事件,占到总统计量的22.35%,一定程度上佐证了微博具有媒体的属性特征,西方学者指出,一种物理属性的媒介形态被社会大众中20%以上的人群所使用,就可以称其为“大众媒介”。
据CNNC《第33次中国互联网络发展状况统计报告》显示,微博、社交网站等互联网使用率同比有所下降,但总体保持平稳。而类似即时通信(腾讯QQ、微信)等以社交元素为基础的平台应用发展稳定。从具体数字分析,2013年微博用户规模下降2783万人,使用率降低9.2个百分点。而整体即时通信用户规模在移动端的推动下提升至5.32亿,较 2012年?