您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

舆情去重算法的研究

大小:0.69 MB 人气: 2017-11-03 需要积分:0

  近年来,舆情信息在大数据服务中广泛被加工使用,但转载、复制等操作使得采集的舆情信息重复量庞大,给后期的加工带来困难。在这种情况下,针对舆情数据开展去重研究的却相对较少。文中针对舆情去重不可避免但缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard等经典去重算法,结合TF、TF-IDF、特征码等不同特征选择和3 000舆情样本进行实验,最终发现MinHash+特征码运行时间最短;Jaccard的漏判数最少,召回率可达90%以上;MinHash算法的误判数最少,去重精度可达100%,并且MinHash通过阈值的调整能够获得Jaccard同样的召回率。

舆情去重算法的研究

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!