典型文献
基于词向量集成与数据增强的恶意评论分类模型
文献摘要:
针对恶意评论的文本分类任务存在的词向量单一和样本数据集有限而导致模型稳健性降低的问题,提出一种结合词向量集成技术和数据增强技术的ENSVEC-DA恶意文本分类模型.首先从文本数据中抽取一部分评论将其依次翻译成西班牙语,德语和法语,再翻译回英文,由此达到数据增强的作用;其次对应文本评论中的单词,在两个在不同语料库上预训练好的词向量包中寻找所对应单词的数值向量,并将两者相加取平均值,进而完成集成词向量的工作;然后基于同一测试集在RNN网络中进行四组对比实验,并根据四组实验所得到的恶意评论分值(分值越大,恶意可能性越高)计算三种评估指标;最后经对比分析评估指标可得出结论:词向量集成技术和数据增强技术能够使ENSVEC-DA恶意文本分类模型在某种恶意评论预测性能上有所提升.
文献关键词:
恶意评论;文本分类;词向量集成;数据增强;RNN
中图分类号:
作者姓名:
杨金灵
作者机构:
大连外国语大学,辽宁 大连 116044
文献出处:
引用格式:
[1]杨金灵-.基于词向量集成与数据增强的恶意评论分类模型)[J].科学技术创新,2022(22):76-81
A类:
词向量集成,ENSVEC
B类:
恶意评论,分类模型,文本分类,分类任务,样本数据集,集成技术,数据增强技术,DA,意文,文本数据,翻译成,西班牙语,德语,法语,文本评论,单词,语料库,预训练,练好,相加,取平,成词,测试集,RNN,四组,实验所,分析评估,预测性能
AB值:
0.25001
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。