典型文献
多层注意力机制融合的序列到序列中国连续手语识别和翻译
文献摘要:
使计算机能够理解手语者的表达一直是一项极具挑战性的任务,不仅需要考虑手语视频的时间和空间信息,同时还要考虑手语语法的复杂性.在连续手语识别任务中,手语词汇和手语动作共享一致的顺序;而在连续手语翻译任务中,生成的自然语言句子应符合口语化描述,词汇顺序和动作顺序可能不一致.为了能够更加准确地学习手语者的表达,提出了一个新颖的能同时进行手语识别和翻译的深度神经网络.该方案探讨了不同的经典预训练卷积神经网络和不同的多层时序注意力分值函数在连续手语识别上的效果,网络将手语视频高级抽象特征和低级时序语义组合在多层时间注意力融合模块中,形成更全面的序列注意力融合特征,从而从连续手语视频中更准确地生成gloss句子.结合Transformer语言模型将手语识别gloss句子转换为符合手语翻译的连续自然语言句子.首先,该方法在第一个大规模的复杂背景的中国连续手语识别和翻译数据集T slrt上进行评估.利用T slrt数据集中手语者复杂的背景环境和丰富的动作表达来训练所提神经网络模型,通过不同的对比实验得到了一系列的基准结果.在连续手语识别和翻译的任务上,效果最好的词错误率分别达到了4.8% 和5.1%.为了进一步证明所提方法的有效性,在另一个公开的中国连续手语识别数据集Chinese-CSL也进行了验证,并和其他13种公开方法进行了比较,结果表明,所提方法的词错误率达到了最好的识别效果,为1.8%,证明了该方法的有效性.
文献关键词:
连续手语识别和翻译;视频理解;序列模型;注意力机制融合;卷积神经网络
中图分类号:
作者姓名:
周乐员;张剑华;袁甜甜;陈胜勇
作者机构:
天津理工大学计算机科学与工程学院 天津300382;天津理工大学聋人工学院 天津300382
文献出处:
引用格式:
[1]周乐员;张剑华;袁甜甜;陈胜勇-.多层注意力机制融合的序列到序列中国连续手语识别和翻译)[J].计算机科学,2022(09):155-161
A类:
连续手语识别和翻译,gloss,slrt
B类:
多层注意力,注意力机制融合,序列到序列,解手,空间信息,语语,语法,语词,手语翻译,自然语言,句子,合口,口语化,地学,深度神经网络,方案探讨,预训练,值函数,低级,语义组合,时间注意力,注意力融合,融合特征,Transformer,语言模型,复杂背景,背景环境,达来,提神,错误率,别数,Chinese,CSL,开方法,视频理解,序列模型
AB值:
0.235109
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。