首站-论文投稿智能助手
典型文献
基于半监督学习的多源异构数据治理
文献摘要:
为实现不同数据管理系统之间的互通,提出一种基于半监督学习算法的多源异构数据治理框架,并由此设计、实现和测试了一套非结构化数据与结构化数据的自动化对齐方法.利用命名实体识别(NER)技术,将非结构化数据转化为结构化数据,再分别利用基于字符串相似度的方法和基于监督学习的方法,对结构化数据进行模式匹配;通过半监督学习方法,在结构化数据与数据库记录实体之间进行实体匹配与融合;利用自然语言处理(NLP)技术及深度学习方法,对融合后的数据集进行缺失值填补.结果表明:在论文数据集和视频元数据集上进行对齐处理后,两者的F1值分别达到89.70%及96.50%;在不同属性上进行缺失值填补后,整体填补准确率达到78%以上,大大优于基线方法的准确率.
文献关键词:
半监督学习;数据治理;多源异构数据;缺失值填补;命名实体识别(NER)
作者姓名:
饶卫雄;高宏业;林程;赵钦佩;叶丰
作者机构:
同济大学软件学院,上海201804;复杂系统仿真总体重点实验室,北京100101
引用格式:
[1]饶卫雄;高宏业;林程;赵钦佩;叶丰-.基于半监督学习的多源异构数据治理)[J].同济大学学报(自然科学版),2022(10):1392-1404
A类:
B类:
半监督学习,多源异构数据,数据管理系统,数据治理框架,非结构化数据,对齐方法,命名实体识别,NER,字符串,模式匹配,过半,实体匹配,自然语言处理,NLP,深度学习方法,缺失值填补,论文数,元数据,同属
AB值:
0.211461
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。