基于词频信息的改进的IG文本特征选择算法
向量空间的高维性和文档表示向量的稀疏性不但增加了分类的时间复杂度和空间复杂度,而且还大大影响到分类的精度,因此,特征选择显得特别重要。目前,文本分类研究中常用的特征选择算法主要有:文档频度、互信息、信息增益、开方拟合检验、期望交叉熵、特征权和文本证据权等。Ng等比较了文档频率( Document Frequency,DF)、信息增益(Information Cain,IG)、互信息(Mutual Information,MI)、开方拟合检验(X2 -test,CHI)和特征权(Term Strength,TS)五种特征选择算法,得出IC、DF和CHI比MI和TS效果好的结论。Yang等研究得出IC是最有效的特征选择算法之一的结论。目前IC已成为文本分类研究中常用的特征选择算法。因此,寻找该方法中的不足,并针对不足作出有效的改进,提高特征提取的效率具有非常重要的现实意义。
近年来,一些学者针对IG算法的不足作了一些改进工作。李文斌等提出了三种基于特征信息增益权重的分类算法,通过添加权重系数来平衡“正贡献”和“负贡献”的特征项对分类的影响,但是由于权重系数的设置是根据人为的经验设定.所以存在很大的偶然性,且不适用于各种情形。黄秀丽等针对传统IC算法过分看重高频特征项的缺点,提出一种强调中低频特征项的改进的算法SIC,此算法在一定程度上提高了特征选择的效率,但算法中没有考虑到特征项在不同类别的分布差异对分类能力的影响。郭颂等在以上改进算法的基础上,通过引入特征分布差异因子、类内和类间加权因子,提出一种加权的IC改进算法,该方法比较全面地考虑到了词频对特征提取的作用,但此算法没有考虑到特征项在类内位置上分布对算法的影响。本文针对上述改进算法的不足之处,充分考虑特征项频数对分类能力的作用,提出一种基于词频的改进的IC特征选择算法。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%