Duplicate Bug Report Detection Dataset
初始数据集
Bugzilla
Eclipse
通过Bug-id=544547
爬取
Mozilla
通过Bug-id=1427526
爬取例子:
Jira
Hadoop
Jira
需要通过Bug-id=13127849
在初始数据集中找到相对应的项目-Bug-id
如HDFS-12972
再通过HDFS-12972
爬取
Spark
Jira
需要通过Bug-id=13127845
找到相对应的项目Bug-id
如SPARK-22934
GitHub
VSCode
通过Bug-id=40999
爬取
Kibana
通过Bug-id=168909
爬取
丰富初始数据集
初始数据集没有图片需要在原有的数据集上补充图片数据集
建立以项目为单位的Bug-id为文件夹名称的补充图片数据集
由于可能单个Bug存在多张图片,故Bug-id为文件夹名称,图片命名为Bug-id-0.png、Bug-id-1.png…存于Bug-id为文件夹名称的文件夹内。