2026-1-31
本周任务
对数据集所有分散的文件夹进行合并,
将标签替换成英文,
- 对标签进行检查是否标注正确、是否存在同义词食材、尽量合并菜品(只存在一个、标注食材过多)
- 完成数据集部分的文字写作,中英均可。
数据集
逻辑:任务痛点→定义核心规格→严格控制标注质量→量化分析数据特征→对比现有数据集突出优势
一、数据集构造背景
背景:构建数据集的动机。
- 现有的数据集都有哪些,存在什么问题。需要陈述的是中餐的炒菜很难去做食材级别的分割标注。因为食材都混合在一起了。
- 中餐食品图像分割的重要性。中餐的受众很广,很多人以此为食。但是与此同时,中餐的特殊性导致食材的外观差异大、分布长尾、目前性能不够好。没有专门支持的数据集。
二、数据集规格说明
图片总数、类别总数、食材总数、掩码总数、每张图片平均类别总数
图像分为几大主类,划分规则、每类中分割掩码数量统计、主要聚焦于中餐、也包含水果等。
理由就是:我们是对中餐场景下进食的所有菜品进行统计,其中也会包含少量的西餐累的菜品和水果、汤;不仅仅只有中式炒菜。
三、数据集构建过程
首先总述:我们的数据集叫什么,有多少张图片、标签、掩码标注。这些照片来自?使用说明进行标注。
- 食物图像的收集(筛选条件)
- 食材标签的制定以及掩码的标注(类别定义、清洗数据、标注规范)
- 对数据集整体进行分析(长尾分布等、超类/食材成分的存在)
总结:对比现有的数据集+后续的可能用途。下游:营养评估/基准:用于评估对复杂中餐场景下的准确度。
- 对比维度:数据类型(分类/分割)、食材类别数、掩码数、标注粒度(菜品/食材)、图像分辨率、模型性能(mIoU)。
关键结论:FoodSeg是首个「食材级分割数据集」,掩码数(4万/6万)远高于UECFoodPix(1.4万/1.6万),且mIoU更低(34.2 vs 55.5),说明更具挑战性,适合作为基准数据集。
四、数据集可视化
- 用「对比图」(标注方式、分割难度)体现创新性
- 用「统计图」(分布、样本数)量化特征
- 用「示例图」(掩码、精炼过程)展示细节。
| 图片类型 | 核心内容 | 用途(作者意图) | 可借鉴点 |
|---|---|---|---|
| 分割效果示例图(图1、2) | 左:原始图像;右:像素级掩码(不同食材用不同颜色标注) | 直观展示数据集的标注方式(食材级掩码),对比「易例」和「难例」 | 用「原始图+掩码图」对比,清晰呈现标注粒度;用颜色区分类别,便于可视化 |
| 数据集难度示意图(图1) | 展示「同一食材不同外观」(菠萝熟吃vs生吃)、「不同食材相似外观」(菠萝vs土豆) | 说明食品分割的特殊性,凸显数据集覆盖复杂场景的价值 | 用对比图直观呈现数据集的挑战性,比纯文字更有说服力 |
| 类别分布统计图(图3) | 柱状图:展示超类/食材类别的样本数(如蔬菜类样本最多,沙拉类最少) | 量化数据长尾分布,为模型优化(如采样策略)提供依据 | 用柱状图展示类别分布,清晰呈现数据不平衡特性 |
| 标注方式对比图(图4) | 左:原始图;中:FoodSeg食材级掩码;右:UECFoodPix菜品级掩码 | 突出FoodSeg的标注优势(细分食材),对比现有数据集的不足 | 用同一张图对比不同标注方式,直观体现数据集的创新性 |
| 标注精炼示例图(图5) | 左:原始图;中:精炼前(错误/混淆标签);右:精炼后(修正标签) | 说明标注质量控制流程,体现数据集的可靠性 | 展示「标注→精炼」的前后对比,证明数据集标注的严谨性 |
| 跨域示例图(附录图11) | 亚洲食品的原始图+食材掩码(如面条、豆腐、香菇等东方食材) | 展示扩展集的内容,说明跨域测试的场景 | 用特定区域食材示例,体现数据集的扩展性(覆盖不同地域食品) |
| 数据集结构示意图(图12) | 环形图:内圈=超类(如Main、Vegetable);外圈=对应食材类(如米饭、番茄) | 可视化食材分类体系,说明「超类-子类」的层级关系 | 用环形图展示分类结构,比表格更直观,适合呈现层级化的类别体系 |
| 训练/测试集划分表(表6) | 表格展示3个数据集的训练/测试集图像数、掩码数 | 明确数据集的划分方式,方便其他研究者复现实验 | 用表格量化划分比例,清晰呈现数据分配逻辑 |
| 超类样本统计表(表7) | 列出14个超类的食材样本数(如Vegetable 15719个,Salad 23个) | 详细呈现长尾分布,为模型设计提供参考(如对小众类采用过采样) | 用表格量化每个类别的样本数,体现数据集的细节完整性 |
| 食材类别明细表(表9) | 列出154个食材的训练/测试集样本数(含西方+东方食材) | 提供完整的类别清单,方便研究者选择特定食材进行实验 | 详细列出每个类别的样本分配,体现数据集的透明性(便于他人复用) |