Enhancements for duplication detection in bug reports with manifold correlation features
- 论文下载地址: 下载链接
- 作者: Meng-Jie Lin, Cheng-Zen Yang, Chao-Yuan Lee, Chun-Chang Chen
- Affiliation: Department of Computer Science and Engineering, Yuan Ze University, Taoyuan City, Taiwan (台湾元智大学计算机科学与工程系)
- 发表: The Journal of Systems and Software
- 发表年份: 2016年
- 关键词: Duplication detection, Bug reports, Correlation features
摘要
本文介绍了一种增强的支持向量机(SVM)模型(SVM-SBCTC),用于重复bug报告的检测。在软件维护活动中,bug报告处理是一个关键任务,关系着bug修复的关键信息。由于许多项目中的bug报告中存在大量重复报告,为了提高处理效率,必须识别出这些重复报告。为此,提出了各种文本挖掘方案来解决这个检测问题。本文通过考虑基于先前的SVM-54模型的文本和语义相关特征,提出了一种增强的SVM模型(SVM-SBCTC)。实证实验表明,SVM-SBCTC在召回率方面具有较好的表现。另外,通过加入Word2vec特征,SVM-SBCTC的性能也得到了提高。然而,实验结果还表明当前的Word2vec特征模型在重复检测任务中仍有提升空间。最后,还对实验结果的有效性进行了威胁性分析,并提出了进一步研究的展望。
创新点与借鉴点
-
引入多元相关特征:文章的主要创新点之一是引入了多元相关特征,这些特征包括文本和语义相关性,以提高重复bug报告的检测性能。这种综合考虑不同特征的方法有助于更准确地识别重复报告。
-
改进支持向量机模型:文章提出了一个增强的支持向量机(SVM)模型,与传统的SVM模型相比,该模型更适应重复bug报告检测任务。这种改进有助于提高模型的性能和准确性。
总结
这篇论文的研究背景是在软件维护活动中,重复bug报告的检测是一个重要任务,目的是为了提高处理效率并加快问题解决,因为许多软件项目中存在大量的重复报告。过去的方法包括排名和分类两种,但存在一些问题。排名方法受到关注,但准确度较低。分类方法通过标记重复和非重复报告,但在实际情况中可能会有误分类。本文提出的方法灵感来源于先前的研究,并结合了多元相关特征以提高检测效果。本文提出了一个增强的支持向量机(SVM)模型,通过考虑文本和语义相关特征来检测重复bug报告。该模型在先前的SVM模型基础上进行了改进,并使用了多元相关特征来增强检测性能。本文的方法在实验中通过召回率度量进行了评估,通过比较不同方法的召回率指标,证明了所提出的方法在检测重复bug报告方面的有效性。实验结果表明,该方法在大多数情况下具有较高的召回率,并且在一些情况下通过加入Word2vec特征进一步改进性能。