发布于 

伪装目标识别

伪装目标的检测与通用目标检测有所区别,但和显著性目标检测有点类似,更多的是做语义分割,但不同于语义分割,伪装目标里的分割时一个二分类的问题(即前景和背景的分割)显著性目标检测把输入图像分为显著物体和背景,伪装目标是分割为伪装目标和背景。鉴于显著性目标和伪装目标研究的相似性,于是将显著性目标与伪装目标合在一起进行研究。


目标识别数据集

1. PASCALVOC

https://link.zhihu.com/?target=http%3A//host.robots.ox.ac.uk/pascal/VOC/

VOC数据集是目标检测经常用的一个数据集,从05年到12年都会举办比赛(比赛有task:Classification 、Detection(将图片中所有的目标用bounding box框出来)、Segmentation(将图片中所有的目标分割出来)、Person Layout).

有VOC2007和VOC2012两个数据集。

包含约10,000张带有边界框的图片用于训练和验证。含有20个类别。

注:由于类别仅20个,因此被看成目标检测方向的一个基准数据集

关于数据集:

  • 所有的标注图片都有Detection需要的label, 但只有部分数据有SegmentationLabel。

  • VOC2007中包含9963张标注过的图片, 由train/val/test三部分组成, 共标注出24,640个物体。

  • VOC2007的test数据label已经公布, 之后的没有公布(只有图片,没有label)

  • 对于检测任务,VOC2012的trainval/test包含08-11年的所有对应图片。trainval有11540张图片共27450个物体。

2.MSCOCO数据集:

是微软公司建立的数据集。对于目标检测任务,COCO包含80个类别,每年大赛的训练和和验证集包含120,000张图片,超过40,000张测试图片。

MS COCO数据集介绍以及下载链接:

https://cocodataset.org/#download

3.ImageNet数据集:

是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库,是美国斯坦福的计算机科学家,模拟人类的识别系统建立的。ImageNet数据集是按照WordNet架构组织的大规模带标签图像数据集。大约1500万张图片,2.2万类,每张都经过严格的人工筛选与标记。ImageNet类似于图片所有引擎。

其中,包括边界框的目标检测数据集,训练数据集包括500,000张图片,属于200类物体。由于数据集太大,训练所需计算量很大;类别数较多;造成了很少使用和目标检测的难度也很大。

ImageNet数据集介绍以及下载链接:

http://www.image-net.org/

4.CAMO

项目页面:https://sites.google.com/view/ltnghia/research/camo
数据集:https://drive.google.com/open?id=1h-OqZdwkuPhBvGcVAwmh0f1NGqlH_4B6

目标识别算法

卷积神经网络 (CNN)

使用卷积层和池化层提取图像特征,再使用全连接层进行分类。优点是具有较高的精度,能够有效提取图像特征;缺点是需要大量的数据进行训练,训练时间较长。

长短时记忆网络 (LSTM)

主要用于处理序列数据,能够记录长时间的信息,适用于处理目标运动轨迹数据。优点是能够有效提取目标运动轨迹特征,缺点是需要大量的数据进行训练。

卷积神经网络和长短时记忆网络的结合

将 CNN 和 LSTM 结合在一起,使用 CNN 提取图像特征,再使用 LSTM 记录目标运动轨迹特征。优点是能够同时提取图像特征和目标运动轨迹特征,缺点是训练时间较长,需要大量的数据。

循环神经网络 (RNN)

RNN 具有记忆能力,可以用于序列数据的分类和识别。在伪装目标识别问题中,可以通过对连续帧图像的分析来识别动态目标。优点是能够识别动态目标,缺点是计算量较大、精度较低。

生成对抗网络 (GAN)

GAN 可以生成真实的图像,在伪装目标识别问题中可以用来生成伪装目标的图像,从而进行识别。优点是能够生成高质量的伪装目标图像,缺点是计算量较大、训练时间较长。

MobileNet

是一种基于深度可分离卷积的轻量级网络,适用于移动设备上的图像分类任务。优点是计算量小,模型大小小,适用于移动设备,缺点是精度略低于其他网络。

ShuffleNet

是一种通过结合组卷积和通道混洗来降低计算量的网络,适用于移动设备上的图像分类和物体检测任务。优点是计算量小,模型大小小,适用于移动设备,缺点是精度略低于其他网络。

SqueezeNet

是一种通过减少卷积核数量来降低计算量的网络,适用于移动设备上的图像分类和物体检测任务。优点是计算量小,模型大小小,适用于移动设备,缺点是精度略低于其他网络。

这些网络都是较为轻量级的,可以适用于移动设备上的伪装目标识别问题,但是由于模型较小,精度可能略低于其他网络。

YOLO

算法优点是速度快,能够在实时应用中使用,缺点是精度较低。

https://github.com/jinfagang/yolov7_d2

官方版的YOLOv7相同体量下比YOLOv5精度更高,速度快120%(FPS),比 YOLOX 快180%(FPS),比 Dual-Swin-T 快1200%(FPS),比 ConvNext 快550%(FPS),比 SWIN-L快500%(FPS)。在5FPS到160FPS的范围内,无论是速度或是精度,YOLOv7都超过了目前已知的检测器,并且在GPU V100上进行测试, 精度为56.8% AP的模型可达到30 FPS(batch=1)以上的检测速率,与此同时,这是目前唯一一款在如此高精度下仍能超过30FPS的检测器。

伪装目标识别数据集

目前,由于缺乏规模足够大的数据集,伪装物体检测的研究还不够深入,所以目前所有的研究都是基于由南开大学团队为COD任务专门构建出的COD10K数据集。

数据集论文与模型网站

https://paperswithcode.com/datasets

1.CAMO

https://sites.google.com/view/ltnghia/research/camo

CAMO 全称 Camouflaged Object,专为伪装目标分割 (camouflaged object segmentation) 而设计。

该数据集包括:

1250 幅伪装目标图像,其中 1000 幅用于训练,250 幅用于测试
1250 幅非伪装目标图像,采集于 MS-COCO 数据集,其中 1000 幅用于训练,250 幅用于测试

数据集谷歌云盘下载:

https://drive.google.com/open?id=1h-OqZdwkuPhBvGcVAwmh0f1NGqlH_4B6

2.COD10K

https://dengpingfan.github.io/pages/COD.html

该数据集由10000幅图像组成,涵盖了78个对象类别中各种真实场景中的隐藏对象。此外,还提供了丰富的注释,包括对象类别、对象边界、挑战性属性、对象级标签和实例级注释。OD10K是迄今为止最大的COD数据集,具有最丰富的注释,能够全面理解隐藏对象,甚至可以用于帮助完成其他一些视觉任务,如检测、分割、分类等。

数据集谷歌云盘下载:
https://drive.google.com/file/d/1vRYAie0JcNStcSwagmCq55eirGyMYGm5/view

3.CAMO++

https://sites.google.com/view/ltnghia/research/camo_plus_plus

为了促进野外图像伪装实例分割的新任务,我们引入了一个名为 CAMO++ 的数据集,它在数量和多样性方面扩展了我们初步的 CAMO 数据集(伪装对象分割)。新数据集大大增加了具有分层像素级地面实况的图像数量。我们还为伪装实例分割任务提供了一个基准套件。特别是,我们在各种场景中对我们新构建的 CAMO++ 数据集进行了最先进的实例分割方法的广泛评估。我们还提出了用于伪装实例分割的伪装融合学习 (CFL) 框架,以进一步提高最先进方法的性能。

4.SESIV

https://sites.google.com/view/ltnghia/research/sesiv?authuser=0

视频区域中,显著区域中有语义意义的组建,即语义显著实例。为解决视频语义显著实例分割,来自日本SOKENDAI和National Institute of Informatics的学者构建了一个新的数据集SESIV。SESIV数据集由84个高质量的视频序列组成,每个帧的标签数据按照不同的分割任务进行标注。我们还为此问题设计了一个基线算法,称为Fork-Join Strategy(FJS)。FJS是一个two-stream网络,其充分利用了两种不同的分割任务的优点,即语义实例分割和显着对象分割。在FJS中,同时引入了一种序列融合,它将两个流的输出结合起来,构成非重叠的一个一个的实例。我们还引入了一个循环实例传播来优化实例的形状和语义含义,并引入一个目标个体跟踪来维护整个视频中实例个体和语义的连贯性。

伪装目标识别算法

1.带有干扰挖掘的伪装对象分割

Camouflaged Object Segmentation with Distraction Mining

论文:https://arxiv.org/pdf/2104.10475.pdf

代码:https://github.com/Mhaiyang/CVPR2021_PFNet

伪装对象分割 (COS) 旨在识别“完美”融入周围环境的对象,具有广泛的应用价值。COS 的关键挑战在于目标对象和噪声背景之间存在高度的内在相似性。本文中开发了一个仿生框架,称为定位和聚焦网络 (PFNet),它模仿了自然界中的捕食过程。具体来说,文中的PFNet包含两个关键模块,即定位模块(PM)和聚焦模块(FM)。PM 旨在模拟捕食中的检测过程,以从全局角度定位潜在目标对象,然后使用 FM 执行捕食中的识别过程,通过关注模糊区域来逐步细化粗略预测。

本文的亮点/贡献是:

(1)将去干扰的概念引入伪装物体分割任务,为干扰区域的发现和去除开发了一种新的挖掘策略,以帮助伪装物体的精确分割。

(2)提出了一个新颖的伪装物体分割方法,称为定位和聚焦网络(PFNet)。该方法首先通过探索长范围的语义依赖关系来定位潜在的目标物体,然后聚焦于分心区域的发现和去除以逐步细化分割结果。

网络结构:

如图, (a)所示,给定一幅RGB图像,本文首先将其送入ResNet-50网络提取多级特征,然后将这些特征送入四个卷积层中进行通道缩减。然后,在最深层特征上应用(b) 定位模块(PM)和©聚焦模块(FM)对潜在物体进行定位。最后,利用多个聚焦模块(FMs)逐步发现和去除假阳性和假阴性干扰,实现伪装物体的准确分割。

实验结果:

大量实验表明,本文的 PFNet 实时运行 (72 FPS),并在四个标准指标下的三个具有挑战性的基准数据集上显着优于 18 个尖端模型。

2.用于伪装目标检测的互图学习

Mutual Graph Learning for Camouflaged Object Detection

论文:https://arxiv.org/abs/2104.02613

代码:https://mhaiyang.github.io/CVPR2021_PFNet/index

对于当前模型来说,自动检测/分割与其周围环境融合的对象是困难的,这些前景对象和背景环境之间的内在相似性使得深度模型提取的特征无法区分。本文的方法灵感来自生物学研究的发现:捕捉真实的身体/物体形状是识破伪装的关键。一个理想的伪装目标检测模型应该能够从给定的场景中寻找有价值的、额外的线索,并将它们合并到一个联合学习框架中,用于特征表示联合增强。

受此启发,本文主要进行了以下工作:

(1)设计了一种新的基于图、交互式学习的伪装目标检测方法,叫做交互式图学习模型(MGL)。将传统的交互式学习思想从规则网格推广到图域。具体来说,MGL将一幅图像分解成两个特定任务的特征图:一个用于粗略定位目标,另一个用于精确捕捉其边界细节——并通过图形反复推理它们的高阶关系来充分利用互利。

(2)使用基于图的伪装目标检测技术来利用两个紧密相关任务(COD和COEE)之间的相互指导知识,用于完全挖掘嵌入的导航信息。该方法能够获取语义指导知识和空间支持信息,相互促进两个任务的执行。与传统的交互式学习方法不同,MGL集成了两个不同的基于图的交互模块来推理类型关系:RIGR用于从COE最小化分割指导信息来辅助COEE,ECGR用于结合真实的边先验来增强COD底层表示。

方法概述:

MGL主要由三个部分组成: Multi-Task Feature Extraction (MTFE), Region-Induced Graph Reasoning (RIGR) module和Edge-Constricted Graph Reasoning (ECGR)。该模型将常规互学习的思想从规则网格推广到图域。具体来说,MGL 将图像解耦为两个特定于任务的特征图:一个用于粗略定位目标,另一个用于准确捕获其边界细节——并通过通过图形反复推理它们的高阶关系来充分利用他们的互利性。

MTFE:给定输入图像I(H×W×3),一个multi-task backbone被解耦为两个特定于任务的表示。Fc(h×w×c)用于粗略的检测目标,Fe(h×w×c)用于正确的捕捉真实边缘。

RIGR:将Fc和Fe通过图像投影操作fGproj转换为依赖样本的语义图Gc=(Vc,Ec)和Ge=(Ve,Ee)。语义图中,具有相似特征的像素形成顶点,边测量特征空间中顶点之间的affinity。交叉图交互式模块(CGI)fcgi用来捕获两个语义图之间的高级依赖关系,并将语义信息从Vc变成Ve’。然后通过图卷积进行图推理(fGR)获得最终的Vc和Ve’。最后将Vc和Ve’通过fRproj投影回原始坐标空间。

ECGR:在空间关系分析之前,先将Fe送入边缘分类器fEC,得到伪装的目标感知边缘图E。另外将Fe和Fc进行拼接形成新的特征图Fc‘,然后使用边缘支持图卷积(ESG-Conv)对边缘信息进行编码,在E的引导下增强Fc’更好地定位目标。最后我们将Fc’送到分类器fcc中,获得最终结果C。

在MGL中,利用RIGR和ECGR两个新的神经模块,在多个层次的相互作用空间上对COD和COEE之间的相互关系进行了推理。通过明确地推理它们之间的关系,有价值的相互指导信息可以直观地准确传播,以便在表征学习过程中相互帮助。值得一提的是,RIGR和ECGR可以连续堆叠,以实现反复性的相互学习。

总结
训练集是CAMO和COD10K的组合,使用ImageNet预训练的ResNet50。对数据进行随机裁剪,左右翻转和[0.75, 1.25]范围内缩放。使用SGD优化策略。学习率调整图下公式,base_lr=1e-7,power=0.9。

与大多数使用共享函数来建模所有任务间交互的相互学习方法不同,MGL 配备了类型化函数来处理不同的互补关系,以最大化信息交互。在具有挑战性的数据集(包括 CHAMELEON、CAMO 和 COD10K)上进行的实验证明了 MGL 的有效性,其性能优于现有的最先进方法。

3.不确定度联合显着物体和伪装物体检测

Uncertainty-aware Joint Salient Object and Camouflaged Object Detection

论文:https://arxiv.org/abs/2104.02628

代码:https://github.com/JingZhang617/Joint_COD_SOD

视觉显着物体检测(SOD)旨在找到吸引人类注意力的显着物体,而伪装物体检测(COD)则相反,旨在发现隐藏在周围的伪装物体。本文提出了一种利用矛盾信息来增强显着物体检测和伪装物体检测的检测能力的范例。

首先利用 COD 数据集中的简单正样本作为 SOD 任务中的硬正样本,以提高 SOD 模型的鲁棒性。然后,引入了一个 enquote 相似性度量模块来显式地对这两个任务的矛盾属性进行建模。此外,考虑到两个任务数据集中标记的不确定性,提出了一个对抗性学习网络来实现高阶相似性度量和网络置信度估计。

基准数据集的实验结果表明,本文的解决方案为这两个任务带来了最先进的 (SOTA) 性能。

本文的网络架构和GAN有点类似,其中生成器采用的是Encoder-Decoder框架。其中信息有:

个人感觉看起来像个GAN,其中生成器采用的是Encoder-Decoder框架。其他的信息有:

性能超越了11个最近模型,包括NLDF(CVPR 2017)、PiCANet(CVPR 2018)、CPD(CVPR 2019)、SCRN(ICCV 2019)、PoolNet(CVPR 2019)、BASNet(CVPR 2019)、EGNet(ICCV 2019)、AFNet(CVPR 2019)、CSNet(ECCV 2020)、F3Net(AAAI 2020)、ITSD(CVPR 2020)。

本文的最大创新点是将Joint Training应用到了SOD、COD这两个近乎相反的任务上。SOD与COD的关注点不同,SOD寻找局部特征的能力有助于COD获得更精确的伪装边界,而COD处理全局信息的能力能帮助SOD减少对背景噪声的误识别。从SOD的角度讲,暂时跳出了如何提升特征融合能力上限这一研究点。

4.同时定位,分割和排序伪装的对象

论文:https://arxiv.org/abs/2103.04011

代码:https://github.com/JingZhang617/COD-Rank-Localize-and-Segment

伪装是整个物种的一个关键防御机制,伪装物体检测(COD)旨在分割隐藏在周围环境中的伪装物体。现有的COD模型是建立在二元地面实况的基础上,对伪装的物体进行分割,而没有说明伪装的程度。

本文重新审视了这一任务,并认为对伪装物体在特定背景下的显眼程度进行建模,不仅可以更好地理解动物的伪装和进化,还可以为设计更复杂的伪装技术提供指导;而且正是伪装物体的一些特定部分,使它们能够被捕食者发现。

基于上述对伪装物体的理解,本文提出了第一个基于排名的COD网络(Rank-Net),以同时对伪装物体进行定位、分割和排名。定位模型的提出是为了找到使伪装物体明显的鉴别性区域。分割模型对伪装物体的全部范围进行分割。排名模型推断出不同伪装对象的可探测性。

本文主要贡献:

(1)提出了伪装目标排序(COR)和伪装目标鉴别区域定位(COL)这两个新任务,以估计伪装对象的难度并识别伪装对象明显的区域。前者旨在找到使伪装对象可被察觉的辨别区域,而后者试图解释伪装的程度。

(2)在一个联合学习框架中构建了本文的网络(Inferring the ranks of camouflaged objects),以同时定位、分割和排列被标记的对象。其中Fixation Decoder 生成 discriminative region,该区域与周围的环境有更高的对比度,其实也就是大致的伪装对象的位置。Camouflage Decoder生成最终的预测图,使用反向关注的思想,来获得结构化的信息。

(3)提供了一个大型的COD测试集来评估COD模型的泛化能力。实验结果表明,本文模型达到了新的先进水平,导致了一个更可解释的COD网络。此外,生成的区分区域和等级图为理解伪装的本质提供了见解。此外,新测试数据集NC4K可以更好地评估伪装目标检测模型的泛化能力。

5.用于伪装目标检测SINet

论文『Camouflaged Object Detection』,南开&武大&ETH提出用于伪装目标检测SINet,代码已开源

论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Camouflaged_Object_Detection_CVPR_2020_paper.pdf

代码地址:https://github.com/DengPingFan/SINet/

在文中,作者提出了一项新任务伪装目标检测(COD)的综合研究,该任务旨在识别“无缝”嵌入其周围环境中的对象。目标和背景之间的高度内在相似性使得COD比传统的目标检测任务更具挑战性。

为了解决这个问题,作者精心收集了一个名为COD10K的新数据集,该数据集包含10000幅图像,涵盖了各种自然场景中的伪装对象,超过78个对象类别。所有图像都使用类别、边界框、对象/实例级别和matting级别标签进行密集标注。该数据集可以作为推进许多视觉任务的桥梁,例如定位、分割和alpha matting等。

此外,作者开发了一个简单但有效的COD框架,称为搜索识别网络(SINet)。SINet在所有测试数据集上的表现都优于各种最先进的目标检测baseline,因此它是一个健壮的通用框架,有助于促进COD的未来研究。最后,作者进行了大规模的COD研究,评估了13个前沿模型,提供了一些有趣的发现,并展示了一些潜在的应用。

具体中文讲解:

https://mp.weixin.qq.com/s/CWLq2tTEj0Yh0yEViz1zzA