2026-1-5
HiPoSeg(分层原型学习)
语义分割
- 分层原型学习:不是就简单的对于像素进行类别预测,而是分层组织类别表征和学习语义级别的原型。如何理解这个原型(prototype)
prototype:即某一类别的大致印象/但是猫狗具有固定的形态;食品可没有。
它的层级识别:也就是识别主类->下分子类
- 多级类别对齐。为了约束对齐
引入
背景
传统语义分割将任务视为「扁平分类」,忽略类间层级关系(如先识别“马”<高级类>,再区分“马腿”<低级类>),导致细粒度部分混淆、语义不一致(比如相似视觉特征的部件分属不同类别时误判)。
目标
模拟人类「先粗后细」的视觉认知,设计一种 训练阶段生效、推理零开销 的层级原型学习方法,同时提升分割准确率和语义一致性。
贡献
- 创新框架:提出HiPoSeg,首次将「层级原型空间」作为表征设计核心(而非仅当损失附加项);
- 双关键机制:层级原型学习(coarse-to-fine 表征组织)+ 跨层级对齐约束(避免语义漂移);
- 实用性:即插即用,仅在训练时附加到现有分割模型(如DeepLabV3+),推理时移除,无额外参数/ latency。
方法
1. 层级原型空间构建
- 维护两个原型缓冲区:高级原型(粗类别,如“马”) 和 低级原型(细粒度部件,如“马腿”);
- 原型更新:用归一化的像素嵌入,通过动量平均(m=0.9)动态更新(避免训练波动),公式上是同类像素嵌入的均值再L2归一化。
2. 层级对比学习 + 对齐约束
总损失 = 交叉熵损失(基础分割) + 3类对比损失 + 对齐损失:
- 高级对比损失$L_{fh} + L_{hh}$:拉像素嵌入到正确高级原型,推开错误原型,同时让不同高级原型相互远离;
- 低级对比损失$L_{fl} + L_{ll}$:同理,细化细粒度部件的表征区分;
- 跨层级对齐损失$L_{align}$:约束低级原型靠近其所属高级原型(σ1=0.25),且不同高级原型间距大于阈值(σ2=1),避免语义混淆。
3. 分阶段训练(符合coarse-to-fine认知)
- 前7.5%迭代:仅训练基础分割模型(纯特征学习);
- 7.5%后:启用高级原型对比学习;
- 22.5%后:启用低级原型对比学习;
- 37.5%后:启用跨层级对齐损失。
三、实验设置
1. 数据集
4个主流分割基准,统一为「两层级标签」(适配方法设计):
| 数据集 | 场景类型 | 层级设置(统一后) | 训练/验证/测试规模 |
|————————-|————————|—————————————|—————————————|
| Cityscapes | 城市街道 | 7个高级类 → 19个低级类 | 2975/500/1524 |
| ADE20K | 日常场景 | 14个中层类(高级)→ 150个细粒度类(低级) | 20210/2000/3000 |
| Mapillary Vistas 2.0 | 城市街道(多类别) | 16个中层类(高级)→ 124个细粒度类(低级) | 18000/2000/5000 |
| PASCAL-Part-108 | 物体部件解析 | 21个高级类 → 108个部件类 | 4998/5105 |
2. 模型与训练配置
- 基础模型:DeepLabV3+(骨干ResNet-101);
- 优化器:SGD(lr=1e-2,动量0.9,权重衰减1e-4);
- 训练细节:Cityscapes/Mapillary用512×1024 crop、batch=8、80K迭代;ADE20K/PASCAL-Part用512×512 crop、batch=16、60K迭代。
3. 关键超参数
| 超参数 | 取值 | 作用 |
|---|---|---|
| 原型动量m | 0.9 | 稳定原型更新 |
| 对齐margin σ1/σ2 | 0.25/1 | 约束高低级原型间距 |
| 对比温度τ/κ | 未明确给出 | 调节对比损失的锐度 |
| 训练阶段阈值 | 7.5%/22.5%/37.5% | 分阶段启用高级/低级/对齐损失 |
四、对比方法与评估指标
1. 对比方法选择(针对性强)
- 经典分割模型:PSPNet、OCRNet、DeepLabV3+(baseline);
- 对比学习类:ContrastSeg、RegionSeg;
- 层级相关方法:HSSN、LogicSeg(直接竞品);
- 原型类方法:ProtoSeg;
- 控制变量:优先同骨干(ResNet-101)对比,部分竞品用更强骨干(HRNet-W48)但HiPoSeg仍占优,突出效率。
2. 评估指标
- 核心定量:mIoU(标准语义分割指标)、层级mIoU(mIoU^ℓ,ℓ越大表示类别越粗,衡量跨层级一致性);
- 定性:t-SNE特征空间可视化(看层级聚类效果)、分割结果图(重点验证边界、小目标、遮挡场景)。
五、实验结果核心结论
1. 对比实验(定量)
- 平均mIoU提升+3.07%p,所有数据集超baseline和竞品:
- Cityscapes:84.04%(+10.49%p vs baseline,+1.02%p vs HSSN);
- ADE20K:48.99%(+4.51%p vs baseline);
- Mapillary:41.42%(+9.77%p vs baseline);
- PASCAL-Part-108:49.33%(+2.43%p vs baseline,细粒度场景优势明显)。
- 关键亮点:用ResNet-101击败部分用HRNet-W48的竞品,证明方法效率。
2. 消融实验(验证组件必要性)
| 消融设置 | Cityscapes mIoU | 结论 |
|---|---|---|
| 仅交叉熵(baseline) | 73.55% | 无层级约束效果差 |
| + 高级对比损失 | 80.96% | 高级原型能约束粗类别认知 |
| + 低级对比损失 | 81.04% | 低级原型能细化部件区分 |
| + 高低级对比(无对齐) | 79.16% | 无对齐导致梯度干扰 |
| + 全组件(HiPoSeg) | 84.04% | 层级+对齐是核心 |
- 额外消融:仅用高级/低级原型均优于baseline,但两者结合最优,证明层级互补性。
3. 定性结论
- 特征空间:HiPoSeg的同类层级聚类更紧凑,不同高级类分离更清晰(t-SNE图);
- 分割效果:边界更锐、小目标(交通灯)和遮挡场景(围栏挡公交车)识别更准,语义混淆减少(如baseline把“海”误判为“天空”,HiPoSeg纠正)。
总结
这篇论文的核心价值是 “用层级原型+对比学习,把人类视觉认知落地为可训练、无推理开销的分割框架”:
- 创新点:不改变现有分割模型的推理流程,仅通过训练阶段的层级表征设计和约束,解决扁平分类的语义不一致问题;
- 实验设计:数据集覆盖全面、对比方法针对性强、消融实验彻底,结果说服力足;
- 实用性:即插即用,可快速集成到现有分割模型(如DeepLabV3+、MaskFormer),适合工业落地。