首站-论文投稿智能助手
典型文献
基于预训练表示模型的英语词语简化方法
文献摘要:
词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练表示模型的词语简化方法,利用预训练语言表示模进行候选替换词的生成和排序.基于预语言训练表示模型的词语简化方法在候选词生成过程中,不仅不需要任何语义词典和平行语料,而且能够充分考虑复杂词本身和上下文信息产生候选替代词.在候选替代词排序过程中,基于预语言训练表示模型的词语简化方法采用了 5个高效的特征,除了常用的词频和词语之间相似度特征之外,还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征.通过3个基准数据集进行验证,基于预语言训练表示模型的词语简化方法取得了明显的进步,整体性能平均比最先进的方法准确率高出29.8%.
文献关键词:
词语简化;候选词生成;候选词排序;预训练语言表示模型
作者姓名:
强继朋;钱镇宇;李云;袁运浩;朱毅
作者机构:
扬州大学信息工程学院 扬州225127
文献出处:
引用格式:
[1]强继朋;钱镇宇;李云;袁运浩;朱毅-.基于预训练表示模型的英语词语简化方法)[J].自动化学报,2022(08):2075-2087
A类:
词语简化,PPDB,预训练语言表示模型
B类:
语词,简化方法,句子,替换成,相等,代词,上下文信息,来生,语言训练,模进,候选词生成,生成过程,词典,平行语料,词频,复述,新特征,基准数据集,整体性能,最先,候选词排序
AB值:
0.172365
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。