首站-论文投稿智能助手
典型文献
预训练增强的代码克隆检测技术
文献摘要:
代码克隆检测是软件工程领域的一项重要任务, 对于语义相似但语法差距较大的四型代码克隆的检测尤为困难. 基于深度学习的方法在四型代码克隆的检测上已经取得了较好的效果, 但是使用人工标注的代码克隆对进行监督学习的成本较高. 提出了两种简单有效的预训练策略来增强基于深度学习的代码克隆检测模型的代码表示, 以减少监督学习模型中对大规模训练数据集的需求. 首先, 使用ngram子词丰富对词嵌入模型进行预训练, 以增强克隆检测模型对词表之外的词的表示. 同时, 采用函数名预测作为辅助任务对克隆检测模型参数进行预训练.通过这两个预训练策略, 可以得到一个有更准确的代码表示能力的模型, 模型被用来作为克隆检测中的代码表示模型并在克隆检测任务上进行有监督训练. 在标准数据集BigCloneBench (BCB)和OJClone上进行实验. 结果表明采用两种预训练增强的模型仅仅使用极少量的训练样例(BCB上100个克隆对和100个非克隆对, OJClone上200个克隆对和200个非克隆对)就能达到现有方法使用超过6百万个训练样例得到的结果.
文献关键词:
代码克隆;预训练;LSTM
作者姓名:
冷林珊;刘爽;田承霖;窦淑洁;王赞;张梅山
作者机构:
天津大学 新媒体与传播学院, 天津 300072;天津大学 智能与计算学部, 天津 300350
文献出处:
引用格式:
[1]冷林珊;刘爽;田承霖;窦淑洁;王赞;张梅山-.预训练增强的代码克隆检测技术)[J].软件学报,2022(05):1758-1773
A类:
ngram,BigCloneBench,OJClone
B类:
预训练,代码克隆检测,软件工程,工程领域,语义相似,语法,监督学习,训练策略,检测模型,代码表示,大规模训练,训练数据集,子词,词嵌入模型,词表,数名,辅助任务,示能,来作,表示模型,有监督,标准数据集,BCB,极少量,样例,百万,万个
AB值:
0.243377
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。