发布于 

Duplicate Bug Report Detection: How Far Are We?

  • 论文下载地址: 下载链接
  • 作者: Ting Zhang, Donggyun Han, Venkatesh Vinayakarao, Ivana Clairine Irsan, Bowen Xu, Ferdian Thung, David Lo, Lingxiao Jiang
  • Affiliation: 新加坡管理大学,伦敦大学皇家霍洛威学院
  • 发表: ACM Transactions on Software Engineering and Methodology (TOSEM)
  • 等级:该期刊中科院分区为1区,JCR分区为Q1,被网友誉为“软件工程顶级期刊之一”
  • 发表年份: 2023年
  • 关键词: Duplicate bug report detection, DBRD techniques

摘要

本文探讨了重复Bug报告检测(DBRD)技术的现状和挑战,并提供了针对DBRD技术的详细评估。首先,文章介绍了DBRD的重要性,指出了在软件开发中管理Bug报告的必要性以及自动化技术在解决这一问题中的潜力。然后,文章比较了不同问题跟踪系统(Bugzilla、Jira、GitHub)中的缺陷报告,并讨论了它们的差异。

接下来,文章详细评估了五种不同的DBRD技术在VSCode项目上的性能。通过使用Recall Rate@k(RR@k)指标,评估了这些技术在前k个推荐中成功识别重复Bug报告的能力。结果显示,最佳性能的技术在40%-60%的情况下能够成功推荐重复Bug报告,这意味着它们可以显著减少重复工作和成本。

文章还讨论了DBRD技术失败的原因,包括不完整的报告描述和无法理解描述中的信息。建议未来的研究应考虑利用项目中的其他资源,如代码库,以深入了解不同故障之间的根本原因关系。

最后,文章强调了内部有效性、标签质量、深度学习模型评估以及工具优化和更新等方面的相关问题,以进一步提高DBRD技术的准确性和实用性。

创新点与借鉴点

  1. 建立基准数据集:文章创新性地建立了一个用于评估不同DBRD技术性能的基准数据集。这个数据集的创建填补了以往研究中缺乏可靠基准数据集的问题,使得研究者能够更好地评估技术的有效性。

  2. 引入评估指标:文章引入了评估指标,如Recall Rate@k(RR@k),来量化不同技术在推荐重复Bug报告方面的性能。这些指标提供了一种可量化的方法来比较不同技术,为研究提供了更精确的度量方式。

  3. 对技术性能的深入分析:通过实验评估,文章深入分析了不同DBRD技术的性能,特别是在推荐重复Bug报告时的表现。这有助于研究者了解不同技术的优势和局限性,为进一步的研究提供了有用的见解。

借鉴点:

  1. 数据集构建方法:其他研究可以借鉴文章中使用的方法来构建适用于其研究领域的基准数据集。这种方法可以提高研究的可重复性和可比较性。

  2. 评估指标的引入:文章引入的评估指标可以被其他领域的研究用于评估类似的技术性能。这有助于确保研究结果更具可比性和可解释性。

  3. 技术性能分析方法:文章中使用的技术性能分析方法可以为其他研究提供灵感,以更全面地了解不同技术的性能,特别是在推荐任务中的应用。

总结

  • (1): 研究背景:本文主要研究了重复Bug报告的检测方法以及目前的研究局限性,探讨了该领域还有多大的发展空间。
  • (2): 过去方法及问题:过去的研究中提出了一些DBRD技术,但它们之间缺乏充分的比较和评估。同时,现有技术在实际应用中也存在一些问题,如缺乏可靠的基准数据集和准确的评估指标,限制了它们的推广和应用。
  • (3): 研究方法:本文填补了该领域的研究空白,通过比较不同的DBRD技术,建立了一个可用于评估工具在实际环境中表现的基准数据集,并引入了评估指标以评估技术的性能。
  • (4): 方法性能和目标支持:通过实验评估,揭示了不同技术在重复Bug报告检测方面的性能。在最佳性能的技术下,能够在前五个位置成功推荐40%-60%的重复Bug报告,这意味着它在节省工作量和成本方面具有一定的潜力。这些结果支持了研究的目标和方法的有效性。