典型文献
基于多特征融合的政府工作报告关键词提取研究
文献摘要:
[目的]通过融合BERT词向量、五笔特征、领域同义词表信息以及字频特征于BiLSTM-CRF模型,实现对政府工作报告语料集的关键词自动提取.[方法]利用BERT向量和五笔向量捕捉输入序列的语义特征和字形特征,通过融合针对政府工作报告所构建的领域同义词表,捕捉输入序列的类别特征,并进一步将字频特征作为权重值赋值于词向量捕捉输入序列上下文特征,使BiLSTM-CRF模型捕捉到更多的语义信息,实现对政府工作报告的关键词自动提取.[结果]基于多特征融合的关键词提取方法,在自建的政府工作报告语料库上,准确率、召回率和F1值分别达到86.14%、91.56%以及88.42%.此外,通过消融实验评估了方法中各特征的有效性.[局限]模型针对政府工作报告领域取得了较好的结果,在之后的工作中需要提高模型的泛化能力.[结论]基于多特征融合的关键词提取方法与其他关键词提取基线方法相比,具有更好的提取效果.
文献关键词:
提取;政府工作报告;BERT;五笔;字频
中图分类号:
作者姓名:
潘慧萍;李宝安;张乐;吕学强
作者机构:
北京信息科技大学网络文化与数字传播北京市重点实验室 北京100101
文献出处:
引用格式:
[1]潘慧萍;李宝安;张乐;吕学强-.基于多特征融合的政府工作报告关键词提取研究)[J].数据分析与知识发现,2022(05):54-63
A类:
B类:
多特征融合,政府工作报告,关键词提取,BERT,词向量,五笔,同义词,词表,字频,BiLSTM,CRF,告语,自动提取,语义特征,字形,类别特征,权重值,赋值,列上,上下文特征,捕捉到,语义信息,语料库,召回率,消融实验,实验评估,泛化能力,提取效果
AB值:
0.292326
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。