首站-论文投稿智能助手
典型文献
基于中文发音视觉特点的唇语识别方法研究
文献摘要:
随着深度学习的发展,唇语识别技术在英文方面取得了长足的进步,但针对中文无论是在数据集丰富性还是识别准确率上均存在一定的落差.通过分析中文发音的视觉特点,提出"视觉拼音",意图规避中文在视觉表达上的歧义性.为了验证视觉拼音的有效性,建立了中文句子级唇语识别模型CHSLR-VP.该模型是一个端到端结构,其中以视觉拼音为媒介,将视频帧序列转换成最终的汉字语句.通过实验得出,相比于其他唇语识别方法,基于视觉拼音建立的CHSLR-VP模型性能更优,证明了视觉拼音的参与可明显提高中文唇语识别的准确率,为将来的相关工作提供了基准.
文献关键词:
唇语识别;视觉拼音;深度学习;卷积神经网络(CNN);序列到序列模型;注意机制
作者姓名:
何珊;袁家斌;陆要要
作者机构:
南京航空航天大学 计算机科学与技术学院,南京 211106;南京航空航天大学 信息化处,南京 211106
引用格式:
[1]何珊;袁家斌;陆要要-.基于中文发音视觉特点的唇语识别方法研究)[J].计算机工程与应用,2022(04):157-162
A类:
视觉拼音,CHSLR
B类:
文发,发音,音视,唇语识别,丰富性,识别准确率,落差,视觉表达,歧义性,文句,句子级,识别模型,VP,端到端,视频帧,序列转换,转换成,汉字,语句,模型性能,序列到序列模型,注意机制
AB值:
0.273472
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。