要旨在线社交网络已经成为人们信息交流的重要渠道和载体,形成了与现实世界相互作用的虚拟社会。许多网络事件通过SNS迅速传播,短时间内成为舆论热点,负面事件冲击国家安全和社会稳定,引发一系列社会问题。因此,发掘社交网络中包含的热点信息,无论是从舆论监督方面还是从舆论警戒方面都具有重要意义。虽然文本集群是挖掘热点信息的重要方法,但是使用传统的长文本集群算法,处理量短的文本时的准确性降低,复杂度急剧增加,并且时间花费过多。基于文本关键字,给出了将上下文与类似度矩阵相结合的相关模型,以确定当前文本与先前文本之间的关系。
还根据相关模型调整文本关键字的权重以进一步降低噪声。最后,在Hadoop论文的重新研究平台上实现了色散型短文本聚类算法。通过与KMEANS、SP-NN、SP-WC算法的比较实验,验证了所提出的算法在话题的挖掘速度、准确率、召回率等方面具有更好的效果。
在移动互联网时代,随着人们生活节奏的加快,用简洁迅速的短语交流更符合人们的生活。例如,人们使用几个简单的关键词,通过搜索引擎搜索信息,使用微信、QQ等聊天,和朋友交往。通过挖掘短文本信息,可以获得相关商业信息、人际关系信息、热点新闻、趋势信息等内容。
利用集群组织类似的文本作为现有的重要技术手段之一,以使得系统能够自动地挖掘短文本信息,并成为话题。各种社交网络应用产生大量的短文本,具有持久性、无限性、动态性等特征[1]。文本序列包含很多繁琐的信息。文本的内容源多种多样,其内容和关注度发生了动态变化。话题中心也随着时间而变化。相邻文本之间的上下文关系非常强,信息的时效性越来越高。
由于这些因素,通过正确检测和跟踪话题,获得相关信息变得越来越难。传统的长文本集群分析通常基于文本的特征向量来进行相关性确定,例如典型的基于划分的集群分析、基于层级的集群分析、基于密度的集群分析。
基于所划分的集群算法(Partion-basedMethods)的总体思想,将具有N个记录的文本集最终划分为K(K虫N)个组,每个组代表一个类别,并且集群结果的评估标准在组内记录越接近关联性越好,不同组之间的记录关联性越远越好。每个记录必须属于唯一组,并且每个分组中包括至少一个记录。典型的K-MEANS算法[10]、K-MEDOIDS算法[11]和CLARANS算法基于用于区分思想的集群算法。
这种算法的优点是简单有效,缺点是不能很好地处理噪声和孤立点,并且集群效应对初始值的选择有很大的依赖性,并且集群消耗的时间不稳定,并且现在是适当的初始值。没有选择期值的好方法。在处理大数据时,难以估计处理文本所需的时间,不能满足时效性的要件,在数据集大的情况下,结果容易陷入局部最佳。基于层级的集群算法是层级地相关地确定预定处理目标文本集并且循环以达到所设置的结束条件的各层确定。
层聚类算法根据处理方式分为“自下而上”和“自下而上”的层级聚类和“自下而上”的层级聚类。以“自下而上”的层级聚类为例,最初作为各个类别按各个要素分类,然后进行这些类别之间的关联分析,合成一个达到一定关联阈值的类别,然后对新获得的类别进行同样的判定,对Argo执行[17-18]直到满足节奏设置的结束条件。
阶段基于思想聚类的算法有很多。通常有BIRCH算法〔19〕、CURE算法〔20〕以及CHAMEON算法〔21〕等。与基于划分部分的集群算法相比,层级集群更灵活,但是其计算量较大,时间复杂度较高,并且应用于更小的数据集,并且在特征较少的情况下确定类集群类似度时存在较大误差,并且在后面影响后续判断由于基于密度的集群算法不是基于元素和类的距离的相似性确定,而是基于元素分布的密度来划分,所以通过基于距离确定文本的相似性而没有过多依赖性的文本分布形状的不足。当某个区域的中点的密度大于设定阈值时,
确定该点属于相邻集群。一般的DBSCAN算法[23]、OPPTCS算法[24]和DENCLUE算法[25]属于基于密度的集群算法。DBSCAN算法的一个缺点是对设定的扫描半径和最小包含的点数非常敏感,这两个参数的微小变动对聚类效果有很大的影响。然而,不幸的是,这两个参数的选择没有遵循一定的规律。只有根据经验才能人工设定。这些方法使用字-反向文件频率(TermFrequencyInverseDoctentFrequency、TF-IDF)来计算关键字的权重值,计算文本之间的特征向量与两个文本之间的距离,或确定两个文本之间的紧密度。
这些方法对长篇文章本能有很好的聚类效果。长文本有很多关键字。即使挖掘出的特征向量有一定的误差,也不会对聚类效果产生很大影响。社交网络的短文本具有“简化”的特征,文本向量的稀疏度大;同时,通过TF-IIDF计算的关键字的权利值非常小,几乎为0,在计算文本之间的类似度时产生大误差,CPU处浪费了时间和内存资源。如果要处理的话题的种类很多,而且文本的数据量大,则每一个话题都以所有文字为基础计算话题的中心,每次进行类似度判定时,比较所有的话题中心,随着数据规模的增加,计算量呈指数增加,算法的性能急速下降,消耗时间急速增加。因此,这样的全局范围的文本向量表示方法不适合于社交网络的短文本集群算法。近年来,一个接一个地出现了专门针对短文本聚类的算法,但更多的是改善了传统的聚类算法。例如WR-KMEANS〔31〕等,短的文本集群的效果虽然有所提高,但是正确率还很低,计算量也很大,花了太多时间,无法很好地解决海量数据处理的问题。我们提出了5种Single-Pass聚类算法,如Shen。SPB、SPWC、SP-NN、SP-WNN、SP-LF。
Single-Pass集群算法是数据流集群的经典方法,对数据集进行实时或离线处理,有效地对应于文本内容的动态变化,并且算法的解释性高。缺点是输入文本时