Schwertlilien
As a recoder: notes and ideas.

Mon Oct 13 2025 00:00:00 GMT+0800 (中國標準時間)

目前有关于食品分割的相关工作

Liu, C.; Sheng, G.; Min, W.; Wu, X.; Jiang, S. Multi-View Edge Attention Network for Fine-Grained Food Image Segmentation. Foods 2025, 14, 3016. https://doi.org/10.3390/foods14173016

这个是针对FFoodSeg103/UECFoodComplete提出了一个网络,做的是闭源的分割。而且框架模型都是选择的已有模块。对比实验结果:

image-20251013175053159

论文的实验设计围绕“细粒度食物分割”的核心痛点(边界模糊、食材多样、遮挡严重)展开:

  1. 指标选择上,用MAE衡量像素误差、$F_{\beta}$系列保障小食材完整性、$S_m/E_m$关注结构合理性、mIoU作为核心分割精度指标,形成全方位评估体系;
  2. 环境与超参数设置上,适配大尺寸图像训练(1024×1024、Batch Size=1、A800显卡),并通过消融实验验证各模块必要性,确保模型性能可解释;
  3. 数据集选择上,覆盖“食材级”(FoodSeg103)与“菜品级”(UEC-FoodPIX)场景,保证结果的泛化性,为后续 dietary logging(饮食记录)、nutritional analysis(营养分析)等应用提供可靠技术支撑。

一、评估指标

论文中用于评估细粒度食物图像分割性能的指标共6项,涵盖误差、综合性能、结构相似度及分割准确性等维度,具体定义与意义如下:

指标名称 符号/全称 核心含义 评价标准 在食物分割中的作用
平均绝对误差 MAE(Mean Absolute Error) 计算预测分割图与真实标签图(二值化)在像素级的绝对差值平均值,公式为:
$MAE=\frac{1}{W\times H}\sum_{i=1}^{W\times H}
Pred_i - GT_i $
($W$=图像宽度,$H$=图像高度,$Pred_i$=预测像素值,$GT_i$=真实像素值)
数值越低越好(↓) 衡量分割结果的整体误差水平,尤其反映食物区域与背景/容器边界的像素级偏差,如米饭颗粒、酱料等模糊边界的分割精度。
最大Fβ分数 $F_{\beta}^{max}$ 综合精确率(Precision)召回率(Recall) 的最大值,其中$\beta^2=0.3$(论文固定设置,侧重召回率权重),公式为:
$F_{\beta}=\frac{(1+\beta^2)\times Precision\times Recall}{\beta^2\times Precision + Recall}$
数值越高越好(↑) 评估模型对“小尺寸食物”(如坚果、蔬菜丁)的分割完整性,避免因食物遮挡或细碎形态导致的漏分割/误分割。
加权Fβ分数 $F_{\beta}^{\omega}$ 带权重的$F_{\beta}$分数,通过权重调整精确率与召回率的平衡,$\beta^2$同样为0.3 数值越高越好(↑) 针对“混合食材”(如沙拉、炒饭)场景,更灵活地平衡“避免将背景误判为食物”(精确率)和“完整分割所有食材”(召回率)。
结构相似度 $S_m$ 同时从区域级(如食物整体轮廓)和目标级(如食物内部纹理)评估预测图与真实图的结构一致性,融合亮度、对比度和结构特征 数值越高越好(↑) 衡量食物分割的“视觉合理性”,如蛋糕分层、披萨配料分布等结构是否与真实场景匹配,避免分割结果“形状正确但结构错乱”。
像素-图像对应度 $E_m$(原文未展开全称,结合上下文推测为Pixel-Image Correspondence Metric) 评估像素级分割结果与图像级语义(如“一盘炒饭”整体类别)的匹配度,反映局部像素分割与全局语义的一致性 数值越高越好(↑) 解决“局部误分割”问题,如将餐盘边缘像素误判为食物时,$E_m$会降低,确保分割结果符合食物的整体语义逻辑。
平均交并比 mIoU(mean Intersection over Union) 计算预测区域与真实区域的“交集”与“并集”比值的平均值,公式为:
$IoU=\frac{Pred\cap GT}{Pred\cup GT}$,$mIoU$为所有类别IoU的均值
数值越高越好(↑) 分割任务的核心指标,直接反映食物区域的分割准确性,如牛排与酱汁、面条与汤汁等相邻食物的边界区分精度。

二、实验设置

1. 数据集设置

论文在2个主流公开食物分割数据集上验证性能,数据集参数差异如下表:

数据集名称 图像数量 类别数量 标签质量 训练/测试划分 图像预处理
FoodSeg103 7118张 103种食材(如米饭、牛肉、番茄等) 基于Recipe1M筛选,确保类别区分度,标签为像素级手动标注 训练集:4983张(含对应掩码)
测试集:2135张(含对应掩码)
统一resize为1024×1024像素
UEC-FoodPIX Complete 10000张 102种菜品(如寿司、拉面、炒菜等) 原始数据集标签为GrabCut半自动生成(边界不准),此版本由人工按规则修正,标签精度更高 训练集:9000张
测试集:1000张
统一resize为1024×1024像素

2. 硬件与软件环境

  • 硬件配置
    • 显卡:NVIDIA A800(80GB显存,满足大尺寸图像(1024×1024)的批量处理需求)
    • CPU:Intel(R) Xeon(R) Platinum 8358(2.60 GHz,用于数据预处理与模型参数初始化)
    • 内存:8 GB RAM(保障数据加载速度)
    • 存储:1TB SSD(用于存储数据集、模型权重及日志文件)
  • 软件环境
    • 操作系统:Ubuntu 20.04 LTS(稳定的Linux环境,适合深度学习训练)
    • 框架:PyTorch 1.12.0(主流深度学习框架,支持Transformer与自定义损失函数)
    • 编程语言:Python 3.8(兼容PyTorch 1.12.0及其他依赖库)

3. 超参数设置

(1)训练超参数

超参数类别 具体参数 取值 设置原因
批量大小 Batch Size 1 因图像尺寸大(1024×1024),单张图像特征图占用显存高,Batch Size=1可避免显存溢出,同时保证训练稳定性。
损失函数 Total Loss $L$ $L=l_f+\sum_{i=1}^{5}(l_l^i+\lambda_g l_g^i+\lambda_a l_a^i)$ - $l_f$:最终预测图损失(BCE+加权IoU)
- $l_l^i$:局部特征损失,$l_g^i$:全局特征损失,$l_a^i$:注意力图损失
- 权重系数$\lambda_g=\lambda_a=0.3$(继承自MVANet,平衡多特征损失)
损失组成 基础损失 二进制交叉熵(BCE)+ 加权IoU损失 BCE解决类别不平衡(如“大盘菜中少量配菜”),加权IoU侧重边界区域损失,提升食物边缘分割精度。

(2)模型结构超参数

模型模块 核心超参数 取值/配置
STViT backbone 注意力机制 采用Super Token Attention(STA),每次计算仅使用token周围3×3超像素,降低计算复杂度
MCLM/MCRM 池化分支数 多粒度池化(Multi-grained Pooling)分支数$N$未明确,但继承MVANet的并行池化结构
HQ-SAM Decoder HQ-Token 注入1个可学习的HQ-Token,融合STViT早期低维特征(细节)与晚期高维特征(全局)

4. 消融实验设置

为验证各模块有效性,论文设计两组关键消融实验,设置如下:

(1) backbone对比实验(评估不同骨干网络的性能与效率)

  • 实验目的:选择“精度-速度”平衡最优的骨干网络
  • 对比对象:Swin-Transformer、SAM-Encoder、CAS-ViT、STViT
  • 评估指标:mIoU(精度)、FPS(推理速度,帧/秒)
  • 测速方法
    1. 先进行10次无计时推理(热身,消除GPU初始化干扰)
    2. 再进行100次连续推理,计算总时间并取平均值
    3. 测速前同步GPU计算流,确保时间精度
  • 结果:STViT最优(FoodSeg103上mIoU=0.693,FPS=6.3),兼顾精度与速度,最终选为骨干网络。

(2)核心模块消融实验(验证Multi-View、MCLM、MCRM、HQ-Token的作用)

  • 实验基准:仅保留Multi-View策略的模型(无MCLM、MCRM、HQ-Token)
  • 增量验证:依次添加模块,观察MAE与mIoU变化,结果如下:
模型配置 Multi-View MCLM MCRM HQ-Token UEC-FoodPIX Complete(MAE/mIoU) FoodSeg103(mIoU)
基准模型 × × × 0.179 / 0.594 -
基准+MCLM × × 0.171 / 0.641 -
基准+MCRM × × 0.173 / 0.633 -
基准+MCLM+MCRM × 0.169 / 0.652 -
完整模型(全加) 0.158 / 0.667 0.693
  • 关键结论
    1. MCLM(多视图互补定位模块)对定位精度提升最显著(mIoU+4.7%),负责准确识别食物区域位置,过滤背景噪声;
    2. MCRM(多视图互补细化模块)侧重细节优化(如食物纹理),与MCLM存在协同作用(两者结合mIoU高于单独添加);
    3. HQ-Token进一步提升边界精度(mIoU+1.5%),解决复杂形状食物(如环形甜甜圈、带籽水果)的分割漏洞。
搜索
匹配结果数:
未搜索到匹配的文章。