发布于 

Automatic Duplicate Bug Report Detection using Information Retrieval-based versus Machine Learning-based Approaches

  • 论文下载地址: 下载链接
  • 作者: Behzad Soleimani Neysiani - Dr. Seyed Morteza Babamir
  • Affiliation: University of Kashan
  • 发表年份: 2020年
  • 关键词: 重复 bug 报告检测,命名实体识别,上下文感知随机森林,卷积神经网络

摘要

本文的摘要是对自动重复 Bug 报告检测(DBRD)中使用信息检索(IR)和机器学习(ML)两种方法进行评估和比较。研究使用了Android数据集进行评估,分析了约2百万对Bug报告中的59个重复报告。结果表明,ML方法在验证性能方面表现更好,比IR方法高出40%。此外,ML方法还具有更可靠的性能评估指标。

创新点与借鉴点

  1. 方法比较:文章在自动重复 Bug 报告检测中比较了信息检索(IR)方法和机器学习(ML)方法的性能,这是该领域的一项重要研究工作。
  2. 大规模数据集:研究使用了大约2百万对Bug报告的Android数据集,这使得评估更为全面。
  3. 性能度量标准:文章引入了多个性能度量标准,包括准确性、精确性、召回率等,以评估两种方法的效率和可靠性。

总结

本文研究了自动重复 Bug 报告检测这一在软件处理系统中重要的问题。过去的方法包括信息检索(IR)和机器学习(ML),但尚不清楚哪种方法更有效。作者使用Android数据集进行了比较性能的研究,分析了大约2百万对Bug报告,其中有59个是重复的。结果表明,机器学习方法在自动重复 Bug 报告检测任务中表现出了更好的性能,超过了信息检索方法约40%。此外,机器学习方法还具有更可靠的性能评估标准,如准确性、精确性和召回率,而信息检索方法只有平均精度(MAP)或排名指标。