Schwertlilien
As a recoder: notes and ideas.

2025-10-9

无实意吐槽:这篇文章也太6了。基本无差评,希望我也能写这种。

https://openreview.net/forum?id=Ha6RTeWMd0

Psychically Informed 3D Food Reconstruction: Methods and Results

准确估算食物份量是营养分析和膳食评估中的关键挑战。近期的三维重建方法主要侧重于表面几何,往往忽略了精确估算份量所需的体积精度。本文提出了三种基于有限二维输入进行真实尺寸三维食物重建和体积估算的方法。这些方法利用可见棋盘格等物理参考,能够在不同条件下从单视图或多视图图像进行精确的度量建模。我们评估了每种方法,并使用了一系列纹理、形状和相机姿态各异的食品样本,并评估了它们在体积估算和几何精度方面的表现。结果证明了这些可解释流程在实现稳健的三维重建和精确份量估算方面的有效性。这些贡献推动了实用且可扩展的膳食监测工具的开发,并有望应用于个人健康管理和临床营养追踪。

论文的主题是:用“有限2D图像+物理参考”重建真实比例的3D食品模型,精准估算食品体积,最终解决「膳食评估(Dietary Assessment)」里的“份量不准”难题。

这个更像是一篇综述?不太好定义此paper到底是在做什么工作。主要是因为摘要我就觉得写的不好,关于具体的方法描写、没有;对于实验的结果数据、没有;感觉比较空。没有具体的细节。

背景:之前的3D重建方法

论文把之前的方案归为4类:主要是之前的3D重建方面,没有人做有关于food的方案。所以导致现有的方案直接迁移到food上面就会出现各种各样的问题。

传统方法类型 核心思路 致命问题
立体视觉法(Stereo) 多视角图像拼3D结构 要拍多张图,普通人拍美食不会特意换角度
模型基法(Model-based) 用预设模板(比如“圆形蛋糕”)套 食品形状千差万别(比如不规则的牛排),模板套不上
深度相机法 靠深度相机拍距离信息 要特殊硬件(普通手机没有),不接地气
深度学习法 用数据训模型直接估体积 缺“可解释性”(算错了不知道为啥),换个食品就不准

此外,还有个共性问题:没有“物理参考”

比如你拍一张汉堡照片,不知道照片里“1厘米”对应真实世界多少,重建的3D模型是“无单位的”,没法算实际体积——这也是论文里反复强调“物理参考(比如棋盘格)”的原因:棋盘格每格大小已知(1.2cm),相当于给模型定了“尺子”,能把3D模型缩放到真实比例。

数据集

论文没自己造新数据集,而是用了MetaFood3D的子集,模拟普通人用手机拍美食的场景:

难度等级 类别数量 具体食品类别 每类帧数 核心测试目标
Easy(200张图) 8 草莓、肉桂卷、猪排、玉米、法式吐司、三明治、汉堡、蛋糕 199-200 多视角下的高精度重建
Medium(30张图) 7 蓝莓松饼、香蕉、三文鱼、牛排、墨西哥卷饼、热狗、鸡肉块 30 中等视角数量下的适应性
Hard(1张图) 5 全麦贝果、可颂、虾、华夫饼、披萨 1 单视角下的几何推断与尺度校准

该子集的核心特点是:每个食品都有 “3D 扫描真值网格”(用于体积 / 形状误差计算)、“RGB-D 视频 / 图像”(输入数据)、“棋盘格物理参考”(尺度校准)

真值保证:每个食品都用3D扫描仪(Revopoint POP2)扫了“真实3D模型”(体积、形状都是准的),还有棋盘格作为物理参考,确保缩放不跑偏。

==我认为测试的数据量比较少。不足以说明有效性。==总图片数计算:共 1814 张按 “难度等级” 拆分统计(对应 Table I 中 “Number of Frames” 列):

难度等级 类别范围 类别数量 单类帧数 该等级总帧数
Easy 1-8(草莓、肉桂卷、排骨等) 8 199(仅类别 1)、200(类别 2-8) 199 + 200×7 = 1599
Medium 9-15(蓝莓松饼、香蕉、三文鱼等) 7 30(所有类别) 7×30 = 210
Hard 16-20(贝果、可颂、虾等) 5 1(所有类别) 5×1 = 5
合计 1-20 20 - 1599 + 210 + 5 = 1814 张
  1. 类别覆盖不足:未说明子集筛选的科学标准(如是否覆盖典型形状/纹理的食品、是否补充标注缺失信息),仅简单按“难度分级”划分样本,且未覆盖高难度食品类型(如汤汁类、堆叠类),无法验证方法的泛化能力;
  2. 样本量严重匮乏:未通过子集扩展、标注增强、模态补充等方式产生新数据资源,只有1.8k张,一共20类食物。

核心方法

方法是三个从MetaFood Workshop挑战赛里选出的top方法,围绕“有限2D输入+物理参考=真实3D重建”展开。

1. VolETA:“全能冠军”,体积估算最准

核心逻辑:多技术融合,把“精度”拉满

流程可以拆成4步,像搭积木一样:

  1. 选关键帧:先过滤掉模糊、重复的图(比如拍视频时相邻的相似帧),只留34.8%的有效帧——减少计算量,还能避免噪声;
  2. 估相机姿态+分参考物:用PixSfM(一种SfM方法)算相机拍每张图时的位置/角度;同时用SAM(分割模型)把棋盘格(物理参考)从图里抠出来,再用XMem++跟踪所有帧里的棋盘格,确保参考一致;
  3. 建3D网格:把处理好的图和相机姿态喂给NeuS2(神经隐式表面模型),重建出食品和棋盘格的3D网格,再删掉网格里的小碎片(比如孤立的点);
  4. 算真实比例:先手动用MeshLab测棋盘格网格的大小,初定一个缩放因子S;再用深度图算食品的宽/长/高,微调S到Sf——确保3D模型和真实食品一样大,最后算体积。

亮点:

  • 单视角场景也能扛:用One-2-3-45模型,从一张图就能生成3D网格,再复用之前算的缩放因子,精度不掉太多;
  • 体积最准:最终MAPE(平均百分比误差)10.98%,比GPT-4o(带上下文的34.33%)低了24个百分点,而且标准差最小(10.104),说明稳。

2. ININ-VIAUN:“稳扎稳打”,靠后处理补短板

核心逻辑:多方案备选,用后处理修“瑕疵”

思路更灵活,分“多视角”和“单视角”两套方案:

  • 多视角(1-15号食品):先用COLMAP算相机姿态,再试三种重建方法(COLMAP、DiffusioNeRF、NeRF2Mesh),选视觉和几何最准的那个;
  • 单视角(16-20号食品):用ZeroNVS模型(擅长单图生成3D),但要优化相机参数(因为只有一张图,参数不准),再结合棋盘格和深度图定比例;
  • 关键后处理:重建的网格常有洞、噪声,用MeshFix补洞,拉普拉斯平滑去噪声——相当于给模型“修容”,让形状更规整。

亮点与不足:

  • 多视角表现还行,但单视角依赖深度信息和棋盘格,泛化稍弱;
  • 整体MAPE16.30%,比VolETA高,标准差也大(23.726),稳定性一般。

3. FoodRiddle:“形状专家”,3D模型最像真实食品

核心逻辑:重“视觉保真”,单视角重建最强

主打“把形状做对”,流程分两类:

  • 多视角:用带SuperPoint/SuperGlue的COLMAP算姿态(比普通COLMAP多提特征点,适合纹理少的食品,比如面包),再用2D高斯溅射重建网格,最后用泊松表面重建补全网格(比如食品底部看不见的部分);
  • 单视角:先用生成模型(比如LGM、One-2-3-45)造几个“虚拟视角”,再用稀疏视角重建模型,缩放靠棋盘格校准——相当于“脑补”多角度,让形状更准。

亮点:

  • 形状最准:Chamfer距离(衡量3D模型与真值的相似度)最小,平均0.0031米,比VolETA(0.0073米)小一半多;
  • 单视角体积最准:Hard难度下MAPE15.56%,比另外两个方法都低,适合真实场景。

实验结果

论文的实验设计核心看两个维度:体积准不准形状像不像

1. 体积精度(MAPE越低越好)

方法 整体MAPE 多视角MAPE 单视角MAPE 标准差
VolETA 10.98% 7.84% 31.89% 10.104
FoodRiddle 11.73% 8.XX% 15.56% 11.579
ININ-VIAUN 16.30% 12.XX% 42.92% 23.726
传统方法(如3D-Assisted) 41.57% - - 45.486
GPT-4o(带上下文) 34.33% - - 22.183

结论:三个方法都碾压传统方法和GPT-4o;VolETA多视角最准,FoodRiddle单视角最准。

2. 形状精度(Chamfer距离越小越好)

方法 平均Chamfer距离(米) 总距离(米)
FoodRiddle 0.0031 0.0556
ININ-VIAUN 0.0039 0.0694
VolETA 0.0073 0.1306

结论:FoodRiddle在形状上断层领先,适合对“视觉还原”有要求的场景(比如食品教学、AR展示)。

一些讨论

说是有助于后续的膳食评估,但是也没进行这一部分的扩展研究。未继承MetaFood3D的营养标注、重量数据,仅依赖3D扫描体积作为真值,缺失膳食评估场景的核心标注(如热量、宏量营养素),降低数据价值。

论文指出了三个方法的共性和个性局限:

  1. 共性问题

    • 有手动步骤:VolETA要给分割提示,ININ-VIAUN要选最优重建结果,FoodRiddle要调缩放因子——自动化不够,普通人用不了;
    • 没测复杂场景:比如背景乱(比如餐桌上有很多杂物)、食品复杂(比如带汤汁的面条)、拍摄条件差(逆光、远拍);
    • 输入要求高:需要深度图、食品掩码,普通手机拍的图没有这些,得额外处理。
  2. 个性问题

    • VolETA:单视角流程复杂(用One-2-3-45),可以简化;
    • ININ-VIAUN:太依赖后处理(补洞、平滑),说明初始重建质量一般;
    • FoodRiddle:单视角假设“食品和棋盘格在同一平面”,如果食品垫了盘子(比棋盘格高),就会算错。

核心贡献

  • 痛点:用“有限2D+物理参考”解决了传统3D重建依赖多图/特殊硬件的问题,让普通人用手机拍图也能精准估食品份量;
  • 标杆:三个方法覆盖了不同场景(多视角/单视角),提供了可复现的 pipeline,还对比了传统方法和GPT-4o,明确了优势;
  • 应用:直接对接膳食评估,不管是个人健康管理(比如减肥时算热量),还是临床营养(比如糖尿病患者控食),都能用。

未来方向

  • 自动化:去掉手动步骤,比如自动分割棋盘格、自动调缩放因子;
  • 泛化:测复杂场景(乱背景、复杂食品),让方法更接地气;
  • 融合:把3D重建和营养估算结合(比如知道体积后,自动算蛋白质/碳水),形成“拍图→算体积→算营养”的闭环。

我的一些疑问

我的问题是:1.这篇文章的贡献到底是什么?因为他们所使用的数据集是现成的、方法也是使用的别人的方法?是不是别人的方法本来不能做这个重建,然后他们(作者)对这个模型进行微调使得可以去进行食品数据的体积重建呢?此外这个文章还有什么实质性的贡献呢?2.我认为测试的数据量比较少。不足以说明有效性。这里只有20个类别,图片数量非常少(一共多少张)3.摘要我就觉得写的不好,关于具体的方法描写、没有;对于实验的结果数据、没有;感觉比较空。

一、贡献定位模糊,创新性与实质性严重不足

  1. 方法复用缺乏核心创新,未体现技术突破

论文采用MetaFood Workshop挑战赛的现有Top方法(VolETA、ININ-VIAUN、FoodRiddle),但未明确说明对这些方法的实质性改造:

  • 未提供证据表明原始方法无法处理食品重建任务,亦无架构调整、损失函数优化、模块集成等创新设计的描述,仅提及“复用流程”(如VolETA调用NeuS2、One-2-3-45),与“直接套用现成方法”无本质区别;
  • 论文统一采用 “棋盘格物理参考”(每格 1.2cm 已知),为三种方法设计了不同的尺度校准流程:
    • VolETA:先手动用 MeshLab 测棋盘格网格初定缩放因子,再用深度图算食品宽 / 长 / 高微调,确保与真实尺寸一致;
    • ININ-VIAUN:通过角点投影匹配,计算棋盘格相邻角点的 3D 距离,用已知边长(1.2cm)反推缩放因子;
    • FoodRiddle:假设食品与棋盘格在同一平面,通过重投影对齐网格与真实尺寸。
  • 未区分“方法应用”与“方法创新”:领域内实质性贡献多体现为适配场景的方法优化(如SimpleFood45提出“三维模型+物理参照”的轻量级框架),而本文仅做方法复现,未解决食品重建的特有难题(如软质食品形变、多食物遮挡)。

针对“是否微调模型适配食品数据”的疑问,论文存在关键信息缺失:

  • 未提及任何模型微调的实验细节(如微调数据集划分、学习率设置、微调轮次),亦无“原始模型vs微调后”的性能对比,无法证明“适配性改进”的存在;
  • 核心流程中仅提到“手动调整缩放因子”“后处理补洞”等工程化操作,此类常规处理不属于学术意义上的“方法创新”,更未解决食品体积重建的核心瓶颈(如尺度校准精度、单视角几何推断)。

对通用方法易出现特征提取不足或重建不完整。作者针对性优化:

  • VolETA:加入 “关键帧选择” 模块,用高斯模糊检测 + 感知哈希过滤模糊 / 重复帧(仅保留 34.8% 有效帧),结合 SuperPoint/SuperGlue 增强弱纹理场景的特征点匹配;
  • ININ-VIAUN:对多视图数据同时测试 COLMAP、DiffusioNeRF、NeRF2Mesh 三种重建方案,选择视觉 / 几何最优结果,解决不同食品的重建适配性问题;
  • FoodRiddle:多视图重建中用 “2D 高斯溅射 + 泊松表面重建” 补全食品底部(如披萨下方被盘子遮挡的部分),避免体积漏算。

二、数据规模与实验设计缺陷,有效性证明严重不足

2. 实验设计存在系统性缺陷,结果可信度低

  • 难度分级逻辑矛盾:“Hard级仅1张图”的设计极端化,现实场景中即使单视角拍摄也可能存在不同光照/角度差异,该设置无法模拟真实使用场景;
  • 缺乏关键验证环节:未采用交叉验证(领域内小样本实验的标准操作),仅简单划分固定测试集,无法排除数据划分偶然性导致的性能偏差;
  • 对比基线不完整:未与领域经典方法(如基于立体视觉的FoodVolumeNet、基于深度图的Nutrition3D)直接对比,仅对比挑战赛同批方法,无法凸显性能优势。

三、摘要撰写不符合学术规范,信息传递效率极低

  1. 方法描述模糊化,核心技术路径缺失

摘要未提及任何关键技术细节:

  • 未明确“有限2D图像+物理参考”的具体实现方式(如是否用棋盘格校准、相机姿态估计方法、3D重建核心模型);
  • 未说明多视角与单视角场景的技术差异,仅泛谈“重建3D模型”,与领域内摘要的方法清晰度(如“提出结合SfM与NeuS2的两阶段重建框架”)差距显著。
  1. 摘要未呈现任何核心实验指标:
  • 未提及体积估算精度(如MAPE、MAE)、形状相似度(如Chamfer距离)等关键数值,无法证明方法有效性;
  • 未对比现有方法的性能提升(如“较GPT-4o降低24个百分点MAPE”此类核心结论未在摘要体现),读者无法快速判断成果价值。

四、实验上稳定性分析不足:仅给出标准差数据,但未分析误差分布特征(如是否集中于某类食品/某拍摄角度),无法指导实际场景应用。

2. 局限性认知回避核心问题

论文提及的“手动步骤多”“未测复杂场景”等局限性,未触及根本缺陷:

  • 未承认“方法复用导致的泛化性不足”;
  • 未提及“小样本训练导致的模型鲁棒性差”,回避数据量不足的核心问题。

3. 应用落地衔接薄弱

未解决膳食评估的实际需求:

  • 未将3D体积与营养估算衔接(如未调用FNDDS数据库映射热量),脱离“食品计算服务健康管理”的核心目标;
  • 未考虑移动端部署可行性(如模型参数量、推理速度未提及),实用价值有限。

总结与核心改进建议

  1. 明确创新定位:若侧重方法适配,需补充“原始模型在食品数据上的性能瓶颈”“微调/模块改进的具体方案”及消融实验;若侧重数据集分析,需扩展子集规模、补充专属标注并分析数据特性。
  2. 扩充数据与优化设计:至少覆盖50类食品、1000张以上多视角图像,采用5折交叉验证,补充复杂场景(乱背景、多食品堆叠)测试。
  3. 重构摘要与分析逻辑:摘要需包含“方法核心模块+关键指标数值+性能提升幅度”;实验部分增加经典基线对比与误差归因分析。
  4. 强化应用导向:衔接营养估算流程,测试移动端部署性能,提升研究的实用价值。

当前版本的论文在创新性、数据有效性与学术规范性上均存在严重缺陷,未达到领域发表标准,需进行实质性重构。

Review

This paper presents three 3D food reconstruction methods (VolETA, ININ-VIAUN, FoodRiddle) developed by winning teams of the MetaFood Workshop Challenge, aiming to address accurate food portion estimation via real-scale 3D modeling from limited 2D inputs (single/multi-view images). These methods leverage physical references (e.g., checkerboards) for metric scale calibration and evaluate performance on 20 food items from the MetaFood3D dataset. However, the work has limitations as followings.

  1. Abstract and key descriptions are overly vague: The abstract lacks specific method steps (e.g., no mention of key techniques like NeuS2 or ZeroNVS) and quantifiable results (e.g., no MAPE or Chamfer Distance values), failing to communicate the work’s core achievements.
  2. Small and limited test dataset: Only 20 food items are evaluated, and 2 (steak, chicken nugget) are excluded—sample diversity is insufficient (e.g., no liquid food like soup, no deformable food like pasta). This limits the generalizability of the results to real-world dietary scenarios.
  3. Failure to extend to dietary assessment: The paper claims to support dietary monitoring but does not conduct any experiments on practical nutrition analysis (e.g., converting volume to calories via food density, integrating with dietary record platforms). It remains at the “3D reconstruction” stage without linking to the ultimate application.
  4. Missing core nutritional annotations: It relies solely on 3D scanned volume as ground truth but ignores MetaFood3D’s original nutritional annotations (e.g., weight, calories, protein, fat). Volume is only an intermediate metric for dietary assessment—without these annotations, the work cannot demonstrate value for nutrition science or clinical use.
  5. Limited innovation (resembles method compilation): The paper summarizes three challenge-winning methods but does not propose a novel unified framework, new reconstruction techniques, or improved scaling strategies. Its structure and focus are closer to a “challenge report” than original research.
搜索
匹配结果数:
未搜索到匹配的文章。