An Intelligent Duplicate Bug Report Detection Method Based on Technical Term Extraction
- 论文下载地址: 下载链接
- 作者: Xiaoxue Wu, Wenjing Shan, Wei Zheng, Zhiguo Chen, Tao Ren, Xiaobing Sun
- Affiliation: 扬州大学信息工程学院
- 发表: 2023 IEEE/ACM International Conference on Automation of Software Test (AST)
- 发表年份: 2023年
- 关键词: Duplicate bug report, Technical term extraction, DeBERTaV3, Word2Vec, TextRank
摘要
随着软件维护周期中生成的错误描述数据,Bug报告往往由不同用户匆忙编写,导致出现许多冗余和重复的错误报告(DBRs)。这些DBRs被反复指派给开发人员后,将不可避免地导致人力资源的严重浪费,尤其是对于大型开源项目而言。本文提出了一种新的基于技术术语提取的DBR检测方法,即CTEDB(Combination of Term Extraction and DeBERTaV3)。该方法通过Word2Vec和TextRank算法从Bug报告的文本信息中提取技术术语,并计算技术术语的语义相似度。然后,结合DeBERTaV3模型完成DBR检测任务。实验结果表明,CTEDB方法可以显著提高DBR预测的性能,有效地识别和消除冗余和重复的Bug报告,并优化软件维护中的资源利用。
创新点与借鉴点
-
提出了一种基于技术术语提取的重复Bug报告(DBRs)检测方法,以解决软件维护中大量冗余和重复Bug报告导致的人力资源浪费问题。
-
结合了Word2Vec和TextRank算法,从Bug报告的文本信息中提取技术术语,并通过计算其语义相似度来判断其重复性。
-
利用DeBERTaV3模型完成DBR检测任务,通过结合技术术语的相似性计算结果和DeBERTaV3模型的置信度来综合判断Bug报告的重复性。
实验
- 数据预处理:首先,作者收集了Bug报告的数据,包括描述信息、标题信息、组件信息和重复信息等关键信息。然后,对这些数据进行了清洗和预处理,以构建实验样本空间。
- 技术术语提取:利用Word2Vec和TextRank算法从Bug报告的文本信息中提取技术术语。这些技术术语被认为是重要的特征,用于后续的相似性计算。
- 相似性计算:通过计算技术术语之间的余弦相似度来确定Bug报告之间的语义相似性。这一步骤帮助筛选出可能的重复Bug报告。
- DeBERTaV3模型:引入了DeBERTaV3模型,结合了技术术语的相似性计算结果和DeBERTaV3模型的二分类置信度,综合判断Bug报告的重复性。
- 实验数据:作者选择了Eclipse和Mozilla项目的Bug报告数据作为实验数据集。
- 实验设置:进行了一系列实验,包括基准实验、跨项目实验和跨产品实验。基准实验用于验证CTEDB方法的性能,跨项目实验和跨产品实验用于研究在不同项目和产品之间的适用性。
- 实验结果:作者通过实验结果来评估CTEDB方法的有效性和性能。这些结果包括准确率、召回率、F1得分等评估指标,以及与其他方法的比较。
总结
- (1): 本文研究背景为软件维护周期中产生的Bug报告数据,由于多用户草率编写,导致出现大量冗余和重复的Bug报告,特别是对于大型开源项目而言,会造成严重的人力资源浪费。
- (2): 之前的方法研究了DBR检测,但性能有待提高。本文提出了一种基于技术术语提取和DeBERTaV3模型的新方法,以提高DBR检测效果。方法包括技术术语提取和DeBERTaV3模型的结合,克服了之前方法的局限性。
- (3): 本文的研究方法包括:利用Word2Vec获取单词向量,计算单词向量之间的余弦距离,构建TextRank模型,提取技术术语集。然后,结合DeBERTaV3模型完成DBR检测任务。
- (4): 本文方法在DBR检测任务中取得了显著的成果,通过实验证明了该方法的有效性和优越性。