典型文献
融合多尺度特征的短时音频场景识别方法
文献摘要:
为解决短时音频场景识别任务中识别性能差的问题,提出一种融合多尺度特征的音频场景识别方法.首先将双声道音频中左右声道的和差作为输入,并使用长时帧长进行分帧处理,以保证提取出的帧级特征中包含足够多的音频信息.然后将特征逐帧输入到融合多尺度特征的一维卷积神经网络中,以充分利用网络中不同尺度的浅层、中层和深层嵌入特征.最后综合所有帧级软标签得到短时音频的场景分类结果.实验结果表明,该方法在国际声学场景和事件检测与分类挑战赛(DCASE)2021短时音频场景数据集上的准确率为79.02%,实现了该数据集上目前为止的最优性能.
文献关键词:
中图分类号:
作者姓名:
王猛;张鹏远
作者机构:
中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190;中国科学院大学 北京 100049
文献出处:
引用格式:
[1]王猛;张鹏远-.融合多尺度特征的短时音频场景识别方法)[J].声学学报,2022(06):717-726
A类:
B类:
多尺度特征,场景识别,识别性,双声道,右声道,长进,分帧,音频信息,一维卷积神经网络,充分利用网络,不同尺度,中层,嵌入特征,签得,场景分类,声学,事件检测,挑战赛,DCASE,目前为止,最优性能
AB值:
0.407944
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。