典型文献
基于频繁子树模式的半结构化数据集聚类
文献摘要:
为提高大数据时代半结构化数据集聚类分析效率,提出一种以数据集频繁子树模式为特征的半结构化数据集聚类方法.提出一种频繁子树模式挖掘方法FSTPMiner,使用"编码树"数据结构对半结构化数据进行编码,通过编码树将树结构频繁模式挖掘过程转化为线性表结构频繁模式挖掘,提高挖掘效率.使用频繁子树模式作为特征并构建特征向量空间,基于经典凝聚型层次聚类方法对半结构化文档数据集进行聚类.经过对照实验,与Costa算法、ICQB算法和Damala-gas算法相比,在保证聚类结果正确率前提下,对半结构化数据集聚类效率方面具有优势.
文献关键词:
大数据;半结构化数据;频繁子树模式;聚类;编码树
中图分类号:
作者姓名:
李巍;廖雪花;杨军
作者机构:
四川师范大学 计算机科学学院,四川 成都 610101
文献出处:
引用格式:
[1]李巍;廖雪花;杨军-.基于频繁子树模式的半结构化数据集聚类)[J].计算机工程与设计,2022(10):2783-2789
A类:
频繁子树,频繁子树模式,FSTPMiner,ICQB,Damala
B类:
半结构化数据,分析效率,聚类方法,挖掘方法,编码树,数据结构,树结构,频繁模式挖掘,线性表,特征向量空间,层次聚类,文档,对照实验,Costa,gas
AB值:
0.187731
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。