典型文献
融合笔画特征的胶囊网络文本分类
文献摘要:
目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息.构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量.对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示.利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类.在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATT-Capsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果.
文献关键词:
词向量;笔画特征;门控循环单元;注意力机制;胶囊网络;文本分类
中图分类号:
作者姓名:
李冉冉;刘大明;刘正;常高祥
作者机构:
上海电力大学 计算机科学与技术学院,上海 200090
文献出处:
引用格式:
[1]李冉冉;刘大明;刘正;常高祥-.融合笔画特征的胶囊网络文本分类)[J].计算机工程,2022(03):69-73,80
A类:
CW2Vec
B类:
笔画特征,胶囊网络,网络文本,文本分类方法,句子,单词,重要程度,神经网络训练,训练过程,词向量,结构信息,ATT,Capsule,混合模型,模型训练,文词,文本数据,方法训练,练得,成文,文本表示,门控循环单元,上下文特征,注意力机制,学习文本,网络学习,本局,关系特征,征实,搜狗,新闻数据,TextCNN,BiGRU,测试集,分类准确率,百分点,双通道,单通道,有效提取,汉字结构,多文本,文本特征,分类效果
AB值:
0.338453
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。