Schwertlilien
As a recoder: notes and ideas.

2025-8-29

目前数据存在的问题:菜品成分间的严重遮挡与长尾类别分布问题。

底层数据集构建:我的数据要怎么标注?➡️我的标签怎么制定?➡️现有的标签规则是否完善?

支撑下游任务:

  1. 食材检测与识别:细粒度分割给出每种食材的掩码。
  2. 营养估计/热量计算:基于精确的食材分割,根据食材类型和份额估计营养成分。
  3. 菜谱生成:食材分割结果提供了菜谱生成所需的“成分清单”。
  4. 菜品推荐与健康饮食辅助:通过分割获取食材及营养信息后,可以基于用户偏好和健康需求推荐菜谱或调整膳食计划。细粒度标注使得系统能判断食物的实际营养构成,辅助营养师或应用给出更科学的健康饮食建议。
  5. 多模态问答与语义理解:结合视觉分割和语言模型,可以实现如“图中有哪些食材?”、“这道菜卡路里是否过高?”等跨模态问答。

相关的菜品数据集

数据集 说明 标注粒度与掩码粒度
ECFoodPixComplete(2020-2021) 包含约10,000张带分割掩码的食物图像,覆盖102个菜品类别(多为日式和西式混合菜肴,如寿司、乌冬面、披萨等)。训练集(9,000张)和测试集(1,000张)。每张图像可能包含多个菜盘,掩码为菜品级标签;图片分辨率较高(平均约442×349像素)。部分图像中不同菜肴存在遮挡或重叠(如混合摆盘的各类食品),但掩码仅标注菜品区域,没有显式区分盘子或餐具区域。 采用菜品级(dish-level)语义分割。每张图像中的像素被赋予一个类别标签。由于标注时将菜肴整体作为目标,掩码类型相当于语义分割(semantic segmentation),不区分同类菜品的不同实例。数据集未提供对盘子或餐具的标注层(背景以0值标记)。支持多菜品重叠情况的语义标注:若图像中有多个不同类别的菜肴,只要像素属于某一类就被标注,不管是否被其他物体部分遮挡。
FoodSeg103/FoodSeg154(2021) FoodSeg103由7,118张西式菜肴图像组成,FoodSeg154是在此基础上额外加入2,372张亚洲菜肴图像(55%类别与西式重叠),总计9,490张图像。其中FoodSeg103定义了103类细粒度食材标签,FoodSeg154合并后共154类食材标签,总掩码数约60,000个,平均每图约6个食材实例。图像主要来自Recipe1M食谱数据集(西式烹饪)及额外采集的亚洲菜肴,类别既有常见食材(如番茄、鸡蛋、牛肉等),也有区域特色食材。食材往往存在相互重叠和混杂现象(如盖饭上的肉与蛋部分重叠),因此是典型的复杂多实例分割场景。 采用食材级(ingredient-level)语义分割。每个像素被标注为特定食材类别(如“西红柿”、“鸡蛋”、“牛肉”等)。这意味着,同一图中如果某个食材出现多次,所有像素均被赋同一类别标签,而没有单独的实例ID;因此本质上也是语义分割。该数据集特别关注食材间的重叠,例如牛肉覆盖在面条上,标注时要求严格按照可见边界分割。掩码类型为像素级分类掩码,每种食材一个类别。由于忽略<5%面积的小区域,极小的食材碎屑一般不标注。尽管未明确提供“泛分割(panoptic)”标注,FoodSeg的数据性质使其可视为复杂场景下的语义分割基准,各食材类别可用于计算营养或作为多任务输入。
Nutrition5k(2021) 该数据集侧重于营养估计,由约5,000个实拍餐盘组成(采自自助餐厅),每个菜盘按照上餐顺序进行了称重和营养信息记录。数据集提供上视RGB-D视频和菜品逐步投入的视频,包含食材组成、重量和营养标注。部分工作利用Nutrition5k数据进行了像素级分割标注(将每种食材分割出来以估算体积和营养),但官方论文强调的是整体营养回归任务。该数据集的食材类别多(250余种),长尾分布明显,但严格的采集与称重流程提供了高精度的“地面真值”用于卡路里估计研究。 部分研究基于Nutrition5k对菜盘进行了食材掩码分割,以便估计体积和营养成分(如通过掩码估算体素来计算卡路里。不过官方资源主要提供营养值标签,公开是否有完整掩码需进一步查证。总体来看,多数此类数据集提供的分割形式仍以语义分割为主。

UECFoodPixComplete(10k)

数据集的相关解释链接⬅️

img

西式菜品。trainset9k,testset1k。其中共涉及到102类,大类,菜品标注级别。

文件结构:

1
2
3
4
5
6
7
8
9
10
11
12
UECFOODPIXCOMPLTE/
├data/
 └UECFoodPIXCOMPLTE/
  └train/
  │ └img/ .jpg
  │ └mask/ .png
  └test/
  │ └img/ .jpg
  │ └mask/ .png
  └category.txt
  └train.txt
  └test.txt

其中每张图片都会有一张对应的掩码图片。RGB值中仅使用了Red。所以是不同程度的红色作为掩码图片。

图像示例 不全的标签,共有102类

FoodSeg103/154

大小是9,490张。类别是154类。

每张图片中平均有6个成分标签。

搜索
匹配结果数:
未搜索到匹配的文章。