首站-论文投稿智能助手
典型文献
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
文献摘要:
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注.其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练.然而在汉-越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务.针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料.在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升.
文献关键词:
汉越平行语料扩充;回译;数据增强;比例抽取;孪生网络
作者姓名:
王可超;郭军军;张亚飞;高盛祥;余正涛
作者机构:
昆明理工大学信息工程与自动化学院,云南昆明 650500;昆明理工大学云南省人工智能重点实验室,云南昆明 650500
引用格式:
[1]王可超;郭军军;张亚飞;高盛祥;余正涛-.基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法)[J].计算机工程与科学,2022(10):1861-1868
A类:
汉越平行语料扩充
B类:
回译,比例抽取,孪生网络,译作,数据增强,增强方法,基本思想,翻译模型,单语,语语,译为,目标语言,新语料,模型训练,低资源,练得,模型性能,难用,筛选模型,一语,语义空间,选去,去噪,方法训练,基线模型
AB值:
0.353127
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。