Schwertlilien
As a recoder: notes and ideas.

2026-1-31

本周任务

  1. 对数据集所有分散的文件夹进行合并,

  2. 将标签替换成英文,

  3. 对标签进行检查是否标注正确、是否存在同义词食材、尽量合并菜品(只存在一个、标注食材过多)
  4. 完成数据集部分的文字写作,中英均可。

数据集

逻辑:任务痛点→定义核心规格→严格控制标注质量→量化分析数据特征→对比现有数据集突出优势

一、数据集构造背景

背景:构建数据集的动机。

  1. 现有的数据集都有哪些,存在什么问题。需要陈述的是中餐的炒菜很难去做食材级别的分割标注。因为食材都混合在一起了。
  2. 中餐食品图像分割的重要性。中餐的受众很广,很多人以此为食。但是与此同时,中餐的特殊性导致食材的外观差异大、分布长尾、目前性能不够好。没有专门支持的数据集。

二、数据集规格说明

图片总数、类别总数、食材总数、掩码总数、每张图片平均类别总数

图像分为几大主类,划分规则、每类中分割掩码数量统计、主要聚焦于中餐、也包含水果等。

理由就是:我们是对中餐场景下进食的所有菜品进行统计,其中也会包含少量的西餐累的菜品和水果、汤;不仅仅只有中式炒菜。

三、数据集构建过程

首先总述:我们的数据集叫什么,有多少张图片、标签、掩码标注。这些照片来自?使用说明进行标注。

  1. 食物图像的收集(筛选条件)
  2. 食材标签的制定以及掩码的标注(类别定义、清洗数据、标注规范)
  3. 对数据集整体进行分析(长尾分布等、超类/食材成分的存在)

总结:对比现有的数据集+后续的可能用途。下游:营养评估/基准:用于评估对复杂中餐场景下的准确度。

  • 对比维度:数据类型(分类/分割)、食材类别数、掩码数、标注粒度(菜品/食材)、图像分辨率、模型性能(mIoU)。

关键结论:FoodSeg是首个「食材级分割数据集」,掩码数(4万/6万)远高于UECFoodPix(1.4万/1.6万),且mIoU更低(34.2 vs 55.5),说明更具挑战性,适合作为基准数据集。

四、数据集可视化

  • 用「对比图」(标注方式、分割难度)体现创新性
  • 用「统计图」(分布、样本数)量化特征
  • 用「示例图」(掩码、精炼过程)展示细节。
图片类型 核心内容 用途(作者意图) 可借鉴点
分割效果示例图(图1、2) 左:原始图像;右:像素级掩码(不同食材用不同颜色标注) 直观展示数据集的标注方式(食材级掩码),对比「易例」和「难例」 用「原始图+掩码图」对比,清晰呈现标注粒度;用颜色区分类别,便于可视化
数据集难度示意图(图1) 展示「同一食材不同外观」(菠萝熟吃vs生吃)、「不同食材相似外观」(菠萝vs土豆) 说明食品分割的特殊性,凸显数据集覆盖复杂场景的价值 用对比图直观呈现数据集的挑战性,比纯文字更有说服力
类别分布统计图(图3) 柱状图:展示超类/食材类别的样本数(如蔬菜类样本最多,沙拉类最少) 量化数据长尾分布,为模型优化(如采样策略)提供依据 用柱状图展示类别分布,清晰呈现数据不平衡特性
标注方式对比图(图4) 左:原始图;中:FoodSeg食材级掩码;右:UECFoodPix菜品级掩码 突出FoodSeg的标注优势(细分食材),对比现有数据集的不足 用同一张图对比不同标注方式,直观体现数据集的创新性
标注精炼示例图(图5) 左:原始图;中:精炼前(错误/混淆标签);右:精炼后(修正标签) 说明标注质量控制流程,体现数据集的可靠性 展示「标注→精炼」的前后对比,证明数据集标注的严谨性
跨域示例图(附录图11) 亚洲食品的原始图+食材掩码(如面条、豆腐、香菇等东方食材) 展示扩展集的内容,说明跨域测试的场景 用特定区域食材示例,体现数据集的扩展性(覆盖不同地域食品)
数据集结构示意图(图12) 环形图:内圈=超类(如Main、Vegetable);外圈=对应食材类(如米饭、番茄) 可视化食材分类体系,说明「超类-子类」的层级关系 用环形图展示分类结构,比表格更直观,适合呈现层级化的类别体系
训练/测试集划分表(表6) 表格展示3个数据集的训练/测试集图像数、掩码数 明确数据集的划分方式,方便其他研究者复现实验 用表格量化划分比例,清晰呈现数据分配逻辑
超类样本统计表(表7) 列出14个超类的食材样本数(如Vegetable 15719个,Salad 23个) 详细呈现长尾分布,为模型设计提供参考(如对小众类采用过采样) 用表格量化每个类别的样本数,体现数据集的细节完整性
食材类别明细表(表9) 列出154个食材的训练/测试集样本数(含西方+东方食材) 提供完整的类别清单,方便研究者选择特定食材进行实验 详细列出每个类别的样本分配,体现数据集的透明性(便于他人复用)
搜索
匹配结果数:
未搜索到匹配的文章。