融合T-Rank和Softmax的提取算法
近年来,由于科学技术的发展以及基因诊断的进步,人们对高维生物数据有了更深的认识,基因表达谱数据一次性可以获得成千上万个基因片段的表达值,然而很多疾病只与少数几个关键致病基因有关。利用特征选择算法有助于在缺乏先验知识的情况下缩小致病关键基因的候选范围,并深入研究在分子层面上致病机理。目前关于关键特征基因筛选的方法大致可以分为三类:过滤法、缠绕法、混合法。过滤法主要是用指标对基因进行排序筛选,方法简单,但忽略了基因间的相互信息,分类准确性较差。缠绕法主要将特征选择与分类器缠绕在一起,使得选择的特征能有较好的分类准确性,然而该方法对于高维数据计算量极大。混合法则是上述两种的结合。基因表达数据的高维性和冗余性使得基于机器学习的混合法有着较好应用。李霞等较早地提出了一种基于递归分类树的集成特征选择方法EFST,该方法对不同的分类器都有较好的适应性。李颖新等较早的将支持向量机应用到了肿瘤分类特征基因识别中。吕飒丽等使用决策森林来进行特征选择,再使用人工神经网络作为分类器,获得了很好的分类效果。张飞等在肺鳞状癌细胞发展的特征基因提取中建立了四步筛选方案:相关性筛选、显若性筛选、偏最小二乘算法、基于模式识别分类精度的综合筛选,实证分析显示了多重筛选机制的必要性,构建的分类器对三个集有较好的准确率,重要的是筛选出的特征基因得到了分子生物学层面的解释。银屑病是一种常见的慢性复发性炎症性皮肤病,但是银屑病的病因尚未阐明。本文将针对银屑病基因表达谱数据提出一种新的特征选择算法,并构建银屑病基因诊断的分类模型。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%