结合信息论和范数的并行随机森林算法|毛伊敏;耿俊豪 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

结合信息论和范数的并行随机森林算法

文献摘要：

针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN).首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略(FGSIT),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略(RSKP),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率.实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有更好的分类效果.

文献关键词：

MapReduce框架;随机森林(RF);DRIGFN策略;基于信息论的特征分组策略(FGSIT);键值对重分配策略(RSKP)

中图分类号：

[1] 农业科学（S） / 林业（S7） / 森林经营学、森林计测学、森林经理学（S75） / 森林工程、林业机械（S77） / 森林测量、林业测绘（S771） / 森林遥感（S771.8）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 自动推理、机器学习（TP181）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

作者姓名：

毛伊敏;耿俊豪

作者机构：

江西理工大学信息工程学院,江西赣州 341000

文献出处：

计算机科学与探索

引用格式：

[1]毛伊敏;耿俊豪-.结合信息论和范数的并行随机森林算法)[J].计算机科学与探索,2022(05):1064-1075

A类：

PRFITN,DRIGFN,FGSIT,RSKP

B类：

信息论,范数,随机森林算法,MapReduce,不相关特征,训练特征,特征信息,信息量,并行化,信息增益,Frobenius,混合降维,特征数,特征分组,分组策略,分层抽样,抽样方法,林中,决策树,键值对,分配策略,均匀分配,并行效率,大数据环境下,分类效果

AB值：

0.283389

相似文献

Spark下基于PCA和分层选择的随机森林算法

雷晨;毛伊敏-江西理工大学信息工程学院,江西赣州 341000

结合信息论改进的并行深度森林算法

毛伊敏;耿俊豪;陈亮-江西理工大学信息工程学院,江西赣州 341000;江西理工大学应用科学学院,江西赣州 341000

基于Im2col的并行深度卷积神经网络优化算法

胡健;龚克;毛伊敏;陈志刚;陈亮-江西理工大学信息工程学院,江西赣州341000;赣南科技学院电子信息工程学院,江西赣州341000;中南大学计算机学院,长沙410083

基于MapReduce和MSSA的并行K-means算法

刘卫明;崔瑜;毛伊敏;刘蔚-江西理工大学信息工程学院,江西赣州341000;赣南科技学院电子信息工程学院,江西赣州341000

基于优化随机森林算法的乳腺癌分类诊断

王冬;曲媛;刘玉航;朱习军-青岛科技大学信息科学技术学院,山东青岛266061

基于集成学习的风险预测模型研究与应用

彭岩;马铃;张文静;李晓;郭莹莹-首都师范大学管理学院,北京 100056

基于聚类和WOA的并行支持向量机算法

刘卫明;安冉;毛伊敏-江西理工大学信息工程学院江西赣州341000

一种用于癌症分类的两阶段深度特征选择提取算法

胡艳羽;赵龙;董祥军-齐鲁工业大学计算机科学与技术学院济南250353

基于多特征融合的恶意软件分类方案

张冬雯;张少华;陈振国;张光华;于乃文-河北科技大学信息科学与工程学院,河北石家庄050018;华北科技学院河北省物联网监控工程技术研究中心,河北廊坊065201;西安电子科技大学综合业务网理论及关键技术国家重点实验室,陕西西安710071

基于GRU-LSTM组合模型的云计算资源负载预测研究

贺小伟;徐靖杰;王宾;吴昊;张博文-西北大学网络和数据中心,西安 710127;西北大学信息科学与技术学院,西安 710127

FOCoR:一种基于特征选择优化的课程推荐技术

王扬;陈梅;李晖-贵州大学计算机科学与技术学院,贵州贵阳 550025

基于XLNet-BiGRU-Attention的行业分类方法

陈钢;佘祥荣;陈健鹏-长三角信息智能创新研究院,安徽芜湖 241000

基于局部-全局自适应信息学习的脑肿瘤磁共振图像分割

陈进杨;王雪真;洪金省;钟婧;时鹏-福建师范大学计算机与网络空间安全学院,福州350117;福建师范大学数字福建环境监测物联网实验室,福州350117;福建医科大学附属第一医院放疗科,福州350001;福建医科大学福建省肿瘤医院放射科,福州350014

支持分页显存的高性能哈希表索引系统

熊轶翔;蒋筱斌;张珩;武延军-中国科学院软件研究所,北京100190;中国科学院大学,北京100049

面向恒压腹腔镜手术的云控制过程模型

乐涛;陈庆奎;黄陈-上海理工大学光电信息与计算机工程学院,上海200093;上海市第一人民医院,上海201620

基于PSO优化的叶节点加权随机森林算法

胡明祺;张森昶-郑州大学网络空间安全学院,郑州 450000

基于多模态特征融合的驾驶员注视区域估计

闫秋女;张伟伟-上海工程技术大学机械与汽车工程学院上海 201600

基于XGBoost算法的道路交通事故严重程度预测

王延安;刘庆芳;成卫-玉溪市公安局交通警察支队,云南玉溪653100;昆明理工大学交通工程学院,云南昆明650000

大数据下基于特征图的深度卷积神经网络

毛伊敏;张瑞朋;高波-江西理工大学信息工程学院,江西赣州 341000;中国地质调查局西安地质调查中心,西安 710000

基于随机森林的二手摩托车残值率预估模型

牟娇;梅培楠-贵州大学人民武装学院,贵阳 550025;贵州中安云网科技有限公司,贵阳 550003

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。