好好学习,天天向上,一流范文网欢迎您!
当前位置: >> 体会 >> 观后感 内容页

基于数据挖掘的互联网络舆情剖析研究

摘要:

互联网已然成为社会舆论的主流媒体,海量的网路资讯是社会舆论赖以生存的主要信息源网络舆情分析,互联网的跨平台性和流通性是网路舆论得以兴旺的特有条件,网路技术的发展为网路舆论提供了多种平台,如网路峰会,新闻回帖,博客,微博等.中国网民规模大,互联网普及率高,互联网已然成为各基层利益抒发,情感发泄,思想碰撞的重要舆论渠道,对互联网舆情挖掘进行研究具有重要意义.怎样从海量的互联网信息中及时发觉,挖掘网路舆情,完善合理有效的网路舆情监控和管理机制是一项须要常年且深入研究的课题.本课题剖析了目前互联网舆情的特性和现况,对互联网舆情挖掘领域的关键技术进行深入的探究,以web挖掘,英文信息处理和数据挖掘为基础,提出了集web网页信息采集网络舆情分析,网页信息预处理,舆情热点发觉和检测为一体的互联网舆情挖掘系统,并探讨了系统的结构,各个功能模块的设计和具体实现方式.本文对各类降维算法进行剖析,针对互联网舆情挖掘领域的特性,提出了一种基于向量空间模型VSM的文本降维算法STCC(SimilarityThresholdControlClusteringBasedVSM).该算法根据层次降维从下至上汇聚的策略,获取初始簇信息,之后按照K-means算法的思想以设置的降维相像度阀值作为测度来合并簇.该算法结合层次降维和K-means算法的优点,克服其缺点.与层次降维相比,每一次降维时不须要比较所有簇之间的相像度,增加了时间复杂度,提升了降维的效率;与K-means算法相比,不须要确定K值,灵活性更高.通过实验数据可以表明,该算法降维疗效好,实用性高,适宜大规模的文本降维.本文还在Web信息预处理中,提出了一个关键词提取的综合评价函数,该评价函数从候选词的词义,厚度,位置,词频等多方面综合考虑,对候选词加权评分,提取最能表现Web文本主题的关键词.本文设计的互联网舆情挖掘系统,以STCC降维算法为基础发觉新闻主题,根据基于类中心的分类算法对主题进行更新,考虑时间和空间诱因从已有主题中发觉舆情热点,并对热点进行检测.该系统才能及时发觉舆情热点,实现对互联网舆情的有效监控.

展开?