发布于 

Duplicate Bug Report Detection Dataset

初始数据集

下载地址:https://cloud.weijiajin.com/google/论文/DBRD数据集.zip

Bugzilla

Eclipse

通过Bug-id=544547爬取

例子:https://bugs.eclipse.org/bugs/show_bug.cgi?id=544547

Mozilla

通过Bug-id=1427526爬取例子:

https://bugzilla.mozilla.org/show_bug.cgi?id=1427526

Jira

Hadoop

Jira需要通过Bug-id=13127849在初始数据集中找到相对应的项目-Bug-idHDFS-12972
再通过HDFS-12972爬取

例子:https://issues.apache.org/jira/browse/HDFS-12972

Spark

Jira需要通过Bug-id=13127845找到相对应的项目Bug-idSPARK-22934

例子:https://issues.apache.org/jira/browse/SPARK-22934

GitHub

VSCode

通过Bug-id=40999爬取

例子:https://github.com/microsoft/vscode/issues/40999

Kibana

通过Bug-id=168909爬取

例子:https://github.com/elastic/kibana/issues/168909

丰富初始数据集

初始数据集没有图片需要在原有的数据集上补充图片数据集

建立以项目为单位的Bug-id为文件夹名称的补充图片数据集

由于可能单个Bug存在多张图片,故Bug-id为文件夹名称,图片命名为Bug-id-0.png、Bug-id-1.png…存于Bug-id为文件夹名称的文件夹内。