Schwertlilien
As a recoder: notes and ideas.

2025-12-9

有关分割的信息

语义分割+卷积

语义分割:不区分同类别的不同实例。

早期研究(2017): 由卷积神经网络(CNN)主导,以全卷积网络(FCN)、DeepLab系列和Mask R-CNN为代表,确立了“编码器-解码器”(Encoder-Decoder)的标准架构范式。以扩大感受野为主。

[Mask RCNN cite:46840]He, Kaiming, et al. “Mask r-cnn.” Proceedings of the IEEE international conference on computer vision. 2017.

[DeepLab cite:26157]Chen, Liang-Chieh, et al. “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.” IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

[PSPNet cite:19248]Zhao, Hengshuang, et al. “Pyramid scene parsing network.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

DeepLab系列(空洞卷积dilated conv)

Q:传统的CNN通过池化层(Pooling)逐步降低特征图分辨率以扩大感受野,但这导致了空间细节信息的不可逆丢失,使得分割边界模糊。(==下采样导致细节丢失==)

A:DeepLab通过空洞卷积,在不降低特征图分辨率的情况下指数级扩大感受野。特别是DeepLabV3+,它结合了空洞空间金字塔池化(ASPP)模块,通过不同扩张率的并行卷积层捕获多尺度上下文信息,并引入了一个简单高效的解码器模块来恢复物体边缘细节。

PSPNet(Pyramid Score Parsing Net)

A:提出了金字塔池化模块(Pyramid Pooling Module, PPM)。该模块将特征图划分为不同大小的子区域(如1x1, 2x2, 3x3, 6x6),分别进行池化操作并上采样,最后将不同尺度的全局先验信息与原始特征图拼接。

Mask R-CNN(实例分割)

A:在Faster R-CNN检测框架之上,增加了一个并行的掩码预测分支。

创新:提出了RoIAlign层,取代了传统的RoIPool。RoIAlign取消了坐标的量化取整操作,通过双线性插值精确提取特征,从而解决了特征图与原始图像之间的像素不对齐问题。这一改进对于生成精确的像素级掩码至关重要。

全景分割(?)+LLM起步

全景分割:统一语义分割(关注背景“Stuff”)和实例分割(关注前景“Things”)。

近年(2017-2023):以Transformer为标志。ViT打破了卷积的局部性限制,引入了全局上下文建模能力。大模型开始崛起/2022年底,GPT发布。

[!TIP]

这个就非常的像SAM3的推理功能。

[ViT cite:79811]Dosovitskiy, Alexey. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

[SegFormer cite:8360]Xie, Enze, et al. “SegFormer: Simple and efficient design for semantic segmentation with transformers.” Advances in neural information processing systems 34 (2021): 12077-12090.

[OneFormer cite:632]Jain, Jitesh, et al. “Oneformer: One transformer to rule universal image segmentation.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023.

[InternImage cite:1298,CVPR 2023 Highlight]Wang, Wenhai, et al. “Internimage: Exploring large-scale vision foundation models with deformable convolutions.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023.

SegFormer-简单高效/实时分割

A:解决了早期ViT在分割任务中计算量大、对位置编码敏感的问题。

框架:

  • 层次化结构:SegFormer采用类似CNN金字塔的层次化Transformer编码器,生成多尺度的特征图,这对于捕获大小不一的物体至关重要。
  • MLP解码器:其最令人惊讶的设计在于解码器极其简单,仅由几个全连接层(MLP)组成。这表明,只要编码器的特征足够强大(具备全局感受野),解码器可以非常轻量化。SegFormer在保持高效率的同时,在Cityscapes和ADE20K上均取得了优异性能,成为实时Transformer分割的首选 。

image-20251209175957802

OneFormer-通用分割架构

此前,MaskFormer和Mask2Former虽然统一了掩码分类范式,但在训练时仍需针对不同任务进行调整。

创新:

  • 任务Token机制。OneFormer的核心创新在于引入了可学习的任务Token(Task Token)(例如 “The task is semantic segmentation”)。该Token作为查询条件输入模型,动态调节模型的注意力机制,使其在推理阶段能够根据指令在语义、实例或全景分割之间无缝切换。

  • 统一训练:OneFormer仅需在全景数据集上训练一次,即可在所有三个任务的基准测试中取得SOTA性能,极大地简化了训练流程和模型部署成本。

InternImage-无敌参数量30B(?)

创新:重新用回卷积,但是这个参数量是不是也太大了点?

  • 可形变卷积v3 (DCNv3):InternImage的核心算子是DCNv3。不同于ViT的全局自注意力(计算复杂度为二次方),DCNv3通过动态调整卷积核的采样位置来捕获长距离依赖,既保留了卷积的归纳偏置,又具备了类似Attention的自适应能力。
  • 超大规模:InternImage成功将CNN扩展到了30亿参数规模,在COCO目标检测和ADE20K语义分割上均刷新了记录(ADE20K mIoU 62.9),证明了基于高级算子的CNN在基础模型时代仍有一席之地。

提示分割与SAM生态—>开放词汇分割

2023年4月,Meta AI发布的Segment Anything Model (SAM) 彻底改变了图像分割的研究方向。分割任务的目标不再仅仅是拟合某个数据集,而是构建能够响应任何提示(Prompt)的通用视觉基础模型。

SAM的出现,将任务目标从封闭集合的类别预测转变为开放世界的“提示分割”;再结合LLM,则催生了“推理分割”(Reasoning Segmentation),赋予了模型理解复杂隐含指令的能力。

[SAM cite:16088,ICCV2023]Kirillov, Alexander, et al. “Segment anything.” Proceedings of the IEEE/CVF international conference on computer vision. 2023.

[SAM2 cite:2606]Ravi, Nikhila, et al. “Sam 2: Segment anything in images and videos.” arXiv preprint arXiv:2408.00714 (2024).

SAM-基础模型

[!NOTE]

==为什么从SAM开始就叫Data Engine了?==

Data Engine:SA-1B,1100w张img+11b的mask。

超大数据集让SAM可以zero-shot泛化。

架构:

  • 图像编码器:使用重型ViT(如ViT-H)处理图像,生成一次性图像嵌入。
  • 提示编码器:轻量级模块,将点、框、文本等提示映射为向量。
  • 掩码解码器:基于Transformer的轻量级解码器,能在毫秒级时间内根据提示和图像嵌入生成掩码。

歧义性处理:SAM承认分割的歧义性(例如,点击一个人的衬衫,是想分割衬衫还是整个人?),因此默认输出三个不同层级(整体、部分、子部分)的掩码。

image-20251209181336924

image-20251209181319223

基于SAM的改进“们”

SAM2-扩展至视频

  • 流式记忆机制(Streaming Memory):SAM 2的核心突破在于引入了记忆库。当在视频的第一帧分割了一个物体后,模型会将该物体的特征存储在记忆库中。处理后续帧时,模型不仅关注当前帧,还会通过注意力机制查询记忆库,从而实现对目标在遮挡、形变下的持续追踪。(==相当于是增加了内存开销?==)
  • 统一架构:SAM 2将图像视为单帧视频,从而用一套架构统一了图像分割和视频对象分割(VOS)。在SA-V视频数据集上的测试表明,其性能大幅超越了传统的VOS方法,且交互次数减少了3倍 。

HQ-SAM-改进细微处分割精度不足

  • 高频Token:HQ-SAM不改变SAM的预训练权重,而是引入了一个可学习的“高质量输出Token”到掩码解码器中。这个Token专门负责捕获高频细节信息。
  • 数据微调:利用HQSeg-44K高精度数据集进行轻量级微调,使其在保持零样本能力的同时,大幅提升了边缘贴合度(IoU提升显著)。

FastSAM-基于YOLOv8

现在都出到YOLOv12/13了

基于CLIP-融合文本和图片信息

SAM3 - 概念分割

我的疑问

为什么只有mIoU的一个指标,对于Dice重叠度算一个/准确分类与否也算一个?关于语义分割的评估指标上。

搜索
匹配结果数:
未搜索到匹配的文章。