典型文献
一种改进的TF-IDF文本分类算法
文献摘要:
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文档有较好的区分度的类,进而结合贝叶斯算法完成新闻分类.仿真实验结果表明,新算法在精确率、召回率以及调和平均值上都有所提升.因此,结合类间权重值的影响的考虑对TF-IDF算法进行改进,在文本分类上具有较好的分类效果.
文献关键词:
TF-IDF算法;贝叶斯网络;特征词分布;文本分类
中图分类号:
作者姓名:
唐钰;唐加山
作者机构:
南京邮电大学通信与信息工程学院 江苏南京 210003;南京邮电大学理学院 江苏南京 210023
文献出处:
引用格式:
[1]唐钰;唐加山-.一种改进的TF-IDF文本分类算法)[J].信息技术与信息化,2022(03):13-16
A类:
特征词分布
B类:
TF,IDF,文本分类,分类算法,词频,term,frequency,inverse,document,文档,内特,权重值,分类效果,新算法,算法比较,比较特征,频数,区分度,贝叶斯算法,精确率,召回率,调和平均,贝叶斯网络
AB值:
0.373137
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。