Schwertlilien
As a recoder: notes and ideas.

2026-1-5

HiPoSeg(分层原型学习)

语义分割

  1. 分层原型学习:不是就简单的对于像素进行类别预测,而是分层组织类别表征和学习语义级别的原型。如何理解这个原型(prototype)

prototype:即某一类别的大致印象/但是猫狗具有固定的形态;食品可没有。

它的层级识别:也就是识别主类->下分子类

  1. 多级类别对齐。为了约束对齐

引入

背景

传统语义分割将任务视为「扁平分类」,忽略类间层级关系(如先识别“马”<高级类>,再区分“马腿”<低级类>),导致细粒度部分混淆、语义不一致(比如相似视觉特征的部件分属不同类别时误判)。

目标

模拟人类「先粗后细」的视觉认知,设计一种 训练阶段生效、推理零开销 的层级原型学习方法,同时提升分割准确率和语义一致性。

贡献

  1. 创新框架:提出HiPoSeg,首次将「层级原型空间」作为表征设计核心(而非仅当损失附加项);
  2. 双关键机制:层级原型学习(coarse-to-fine 表征组织)+ 跨层级对齐约束(避免语义漂移);
  3. 实用性:即插即用,仅在训练时附加到现有分割模型(如DeepLabV3+),推理时移除,无额外参数/ latency。

方法

1. 层级原型空间构建

  • 维护两个原型缓冲区:高级原型(粗类别,如“马”)低级原型(细粒度部件,如“马腿”)
  • 原型更新:用归一化的像素嵌入,通过动量平均(m=0.9)动态更新(避免训练波动),公式上是同类像素嵌入的均值再L2归一化。

2. 层级对比学习 + 对齐约束

总损失 = 交叉熵损失(基础分割) + 3类对比损失 + 对齐损失:

  • 高级对比损失$L_{fh} + L_{hh}$:拉像素嵌入到正确高级原型,推开错误原型,同时让不同高级原型相互远离;
  • 低级对比损失$L_{fl} + L_{ll}$:同理,细化细粒度部件的表征区分;
  • 跨层级对齐损失$L_{align}$:约束低级原型靠近其所属高级原型(σ1=0.25),且不同高级原型间距大于阈值(σ2=1),避免语义混淆。

3. 分阶段训练(符合coarse-to-fine认知)

  1. 前7.5%迭代:仅训练基础分割模型(纯特征学习);
  2. 7.5%后:启用高级原型对比学习;
  3. 22.5%后:启用低级原型对比学习;
  4. 37.5%后:启用跨层级对齐损失。

三、实验设置

1. 数据集

4个主流分割基准,统一为「两层级标签」(适配方法设计):
| 数据集 | 场景类型 | 层级设置(统一后) | 训练/验证/测试规模 |
|————————-|————————|—————————————|—————————————|
| Cityscapes | 城市街道 | 7个高级类 → 19个低级类 | 2975/500/1524 |
| ADE20K | 日常场景 | 14个中层类(高级)→ 150个细粒度类(低级) | 20210/2000/3000 |
| Mapillary Vistas 2.0 | 城市街道(多类别) | 16个中层类(高级)→ 124个细粒度类(低级) | 18000/2000/5000 |
| PASCAL-Part-108 | 物体部件解析 | 21个高级类 → 108个部件类 | 4998/5105 |

2. 模型与训练配置

  • 基础模型:DeepLabV3+(骨干ResNet-101);
  • 优化器:SGD(lr=1e-2,动量0.9,权重衰减1e-4);
  • 训练细节:Cityscapes/Mapillary用512×1024 crop、batch=8、80K迭代;ADE20K/PASCAL-Part用512×512 crop、batch=16、60K迭代。

3. 关键超参数

超参数 取值 作用
原型动量m 0.9 稳定原型更新
对齐margin σ1/σ2 0.25/1 约束高低级原型间距
对比温度τ/κ 未明确给出 调节对比损失的锐度
训练阶段阈值 7.5%/22.5%/37.5% 分阶段启用高级/低级/对齐损失

四、对比方法与评估指标

1. 对比方法选择(针对性强)

  • 经典分割模型:PSPNet、OCRNet、DeepLabV3+(baseline);
  • 对比学习类:ContrastSeg、RegionSeg;
  • 层级相关方法:HSSN、LogicSeg(直接竞品);
  • 原型类方法:ProtoSeg;
  • 控制变量:优先同骨干(ResNet-101)对比,部分竞品用更强骨干(HRNet-W48)但HiPoSeg仍占优,突出效率。

2. 评估指标

  • 核心定量:mIoU(标准语义分割指标)、层级mIoU(mIoU^ℓ,ℓ越大表示类别越粗,衡量跨层级一致性);
  • 定性:t-SNE特征空间可视化(看层级聚类效果)、分割结果图(重点验证边界、小目标、遮挡场景)。

五、实验结果核心结论

1. 对比实验(定量)

  • 平均mIoU提升+3.07%p,所有数据集超baseline和竞品:
    • Cityscapes:84.04%(+10.49%p vs baseline,+1.02%p vs HSSN);
    • ADE20K:48.99%(+4.51%p vs baseline);
    • Mapillary:41.42%(+9.77%p vs baseline);
    • PASCAL-Part-108:49.33%(+2.43%p vs baseline,细粒度场景优势明显)。
  • 关键亮点:用ResNet-101击败部分用HRNet-W48的竞品,证明方法效率。

2. 消融实验(验证组件必要性)

消融设置 Cityscapes mIoU 结论
仅交叉熵(baseline) 73.55% 无层级约束效果差
+ 高级对比损失 80.96% 高级原型能约束粗类别认知
+ 低级对比损失 81.04% 低级原型能细化部件区分
+ 高低级对比(无对齐) 79.16% 无对齐导致梯度干扰
+ 全组件(HiPoSeg) 84.04% 层级+对齐是核心
  • 额外消融:仅用高级/低级原型均优于baseline,但两者结合最优,证明层级互补性。

3. 定性结论

  • 特征空间:HiPoSeg的同类层级聚类更紧凑,不同高级类分离更清晰(t-SNE图);
  • 分割效果:边界更锐、小目标(交通灯)和遮挡场景(围栏挡公交车)识别更准,语义混淆减少(如baseline把“海”误判为“天空”,HiPoSeg纠正)。

总结

这篇论文的核心价值是 “用层级原型+对比学习,把人类视觉认知落地为可训练、无推理开销的分割框架”

  • 创新点:不改变现有分割模型的推理流程,仅通过训练阶段的层级表征设计和约束,解决扁平分类的语义不一致问题;
  • 实验设计:数据集覆盖全面、对比方法针对性强、消融实验彻底,结果说服力足;
  • 实用性:即插即用,可快速集成到现有分割模型(如DeepLabV3+、MaskFormer),适合工业落地。
搜索
匹配结果数:
未搜索到匹配的文章。