首站-论文投稿智能助手
典型文献
基于远程监督的病历文本漏标问题研究
文献摘要:
医疗健康一直是人们热议的话题,针对病历文本的自动抽取技术也日趋重要.目前医疗领域数据人工标注成本高,获取大规模标注语料较困难.一种解决标注语料缺失的方法是基于词表的远程监督方法.但由于远程监督的标准数据质量不高,导致模型性能缩水严重.该文主要研究如何缓解远程监督带来的数据漏标问题.通过对数据进行增强、结合基于片段排列的命名实体识别模型与负采样方法提高模型泛化能力,并选取全局最优节点集合解决实体识别冲突问题.实验表明,数据增强与选取全局最优节点集合两者分别对结果有0.5%左右稳定提高,负采样方法提高5%至10%不等.
文献关键词:
命名实体识别;远程监督;数据漏标;数据增强;负采样
作者姓名:
杨一帆;施淼元;缪庆亮;李茂龙
作者机构:
思必驰科技股份有限公司,江苏 苏州 215000
文献出处:
引用格式:
[1]杨一帆;施淼元;缪庆亮;李茂龙-.基于远程监督的病历文本漏标问题研究)[J].中文信息学报,2022(08):73-80
A类:
数据漏标
B类:
远程监督,病历,医疗健康,自动抽取,医疗领域,语料,词表,监督方法,数据质量,模型性能,缩水,命名实体识别,识别模型,负采样,采样方法,模型泛化,泛化能力,全局最优,点集,数据增强
AB值:
0.281499
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。