典型文献
基于半监督学习和规则相结合的中医古籍命名实体识别研究
文献摘要:
目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法.但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题.故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法.以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比.之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理.实验结果中最终F值达到83.18%,证明了该方法的有效性.
文献关键词:
半监督学习;条件随机场;命名实体识别;中医古籍
中图分类号:
作者姓名:
包振山;宋秉彦;张文博;孙超
作者机构:
北京工业大学 计算机学院,北京100124;首都医科大学 中医药学院,北京100069
文献出处:
引用格式:
[1]包振山;宋秉彦;张文博;孙超-.基于半监督学习和规则相结合的中医古籍命名实体识别研究)[J].中文信息学报,2022(06):90-100
A类:
B类:
半监督学习,中医古籍,命名实体识别,有监督学习,古籍数字化,数字化程度,稀少,文言文,专业术语,故而,语料库,实体识别方法,条件随机场,基本框架,词性,词典,词向量,无监督,语义特征,特征组合,识别性,规则库,基于规则
AB值:
0.263183
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。