首站-论文投稿智能助手
典型文献
结合信息论和范数的并行随机森林算法
文献摘要:
针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN).首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略(FGSIT),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略(RSKP),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率.实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有更好的分类效果.
文献关键词:
MapReduce框架;随机森林(RF);DRIGFN策略;基于信息论的特征分组策略(FGSIT);键值对重分配策略(RSKP)
作者姓名:
毛伊敏;耿俊豪
作者机构:
江西理工大学 信息工程学院,江西 赣州 341000
引用格式:
[1]毛伊敏;耿俊豪-.结合信息论和范数的并行随机森林算法)[J].计算机科学与探索,2022(05):1064-1075
A类:
PRFITN,DRIGFN,FGSIT,RSKP
B类:
信息论,范数,随机森林算法,MapReduce,不相关特征,训练特征,特征信息,信息量,并行化,信息增益,Frobenius,混合降维,特征数,特征分组,分组策略,分层抽样,抽样方法,林中,决策树,键值对,分配策略,均匀分配,并行效率,大数据环境下,分类效果
AB值:
0.283389
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。