典型文献
基于聚类分区的多维数据流概念漂移检测方法
文献摘要:
对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容.然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战.检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大.文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的k-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的.为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势.
文献关键词:
数据流挖掘;概念漂移检测;k-M eans;假设检验;直方图
中图分类号:
作者姓名:
陈圆圆;王志海
作者机构:
北京交通大学计算机与信息技术学院 北京100044;北京交通大学交通数据分析与挖掘北京重点实验室 北京100044
文献出处:
引用格式:
[1]陈圆圆;王志海-.基于聚类分区的多维数据流概念漂移检测方法)[J].计算机科学,2022(07):25-30
A类:
PUDC,数据分布变化
B类:
聚类分区,多维数据,概念漂移检测,数据流挖掘,更改,检测数据,树型结构,网格结构,直方图,盲点,可解释性,Partition,Based,Uniform,Density,Clusters,Means,卡方检验,验证方法,真实数据,不同维度,错误率,II,假设检验
AB值:
0.234348
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。