典型文献
基于LASSO回归和多层感知的癌组织RNA-Seq数据分类算法研究
文献摘要:
目的:为了解决癌症基因RNA-Seq(RNA-Sequencing,转录组测序技术)技术每次测序过程产生海量高分辨率、高维、高冗余的数据,给基因表达数据分类带来困难的问题.方法:提出了一种基于LASSO(Least Absolute Shrinkage and Selec-tion Operator,LASSO)回归和多层感知的癌组织RNA-Seq数据分类算法.首先,从TCGA数据库获取十个疾病的基因数据集并对原始RNA-Seq的基因表达谱基因数据进行数据清洗和标准化处理,去除重复的基因,选取表达量最大的基因并将数据做标准化处理.其次,采用LASSO回归的方法对处理后的数据进行降维和特征提取,获得与疾病标签最相关的特征基因集.最后,运用多层感知器神经网络(Multilayer Perceptron,MLP)模型对特征基因进行学习和训练,实现有效地识别和分类.实验结果:实验表明,该算法在10种癌细胞基因测试数据集中分类总准确率达到99.8%,高于LASSO-CNN分类模型的总准确率98.9%和LASSO-BP神经网络分类模型的总准确率99.4%.结论:该算法克服了转录组测序数据量大、特征多、数据差异大的缺陷,是一种有效的癌症基因表达测序分类新算法.
文献关键词:
RNA-Seq;LASSO回归;特征提取;多层感知器神经网络;基因表达;TCGA数据库
中图分类号:
作者姓名:
颜滢;李文敬;李松钊
作者机构:
南宁师范大学计算机与信息工程学院,广西南宁530001;南宁师范大学物流管理与工程学院,广西南宁530001
文献出处:
引用格式:
[1]颜滢;李文敬;李松钊-.基于LASSO回归和多层感知的癌组织RNA-Seq数据分类算法研究)[J].电脑知识与技术,2022(19):91-93
A类:
B类:
LASSO,癌组织,数据分类,分类算法,算法研究,癌症基因,Sequencing,转录组测序技术,高维,基因表达数据,Least,Absolute,Shrinkage,Selec,tion,Operator,TCGA,十个,基因数据,基因表达谱,数据清洗,标准化处理,特征基因,多层感知器神经网络,Multilayer,Perceptron,MLP,癌细胞,测试数据,分类模型,神经网络分类,序数,数据量,新算法
AB值:
0.325402
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。