Schwertlilien
As a recoder: notes and ideas.

2025-9-20

目前收集的图片数据基本上是单菜单饭的形式。

  1. 目前的图片收集上整理一下,大概是多少张了?能不能到2k先?你们这两边一旦收集的差不多了,可以让他们把图片zip发群里,你们整理,确保自己手上有完整的版本。
  2. 制作好label.txt, 修改工具使用文档,预计好时间,然后分配任务下去。
    • label:直接把飞书上的扒下来小修一下格式。
    • 工具使用:在标注工具中能不能设置超类(如荤、素、主食)?以提升后续模型分类效率。
    • 工具使用文档:主要是关注到调料、以及食材的切割方式的添加情况(如葱花、辣椒、切块、切丝等),并==额外开一个文档==记录特殊图片的==图片名以及说明信息==。==但是先确定好切割方式都有哪些==
    • 预计时间:先自己测试一下大概需要 xxx min可以完成 xxx 张图片。然后我们再商量看看怎么分配下去。

建议:在标注工具使用上,可以开简短的会议进行演示。

属性上关注:菜名,食材,烹饪方式、各个食材的切割方式、调料

剩下的图片怎么办?

本次会议重点讨论并优化了数据集的标签体系,并探讨了为提升效率可以采用的“二级流水线”处理模式。
小结

  1. 提升数据标注效率的方案

讨论提出可采用“二级流水线”模式以提升效率:一组人负责从网上搜集图片,另一组人处理由前者搜集而来的图片。

  1. 数据集标签体系的优化与重构

类别合并:会议认为应将主次信息合并,例如将“土豆丝”归入“土豆”,并将各种鸡肉菜分别对应为“鸡肉”、“鸡排”等独立类别,并考虑将“辣椒”作为调料放入额外信息中。
分割加工方式:提议将“切割方式”与“加工方式”区分开,设立特殊字段专门描述“肥牛”、“火腿肠”、“牛肚”等对原动物类别没有体现意义的加工制品,实现更精确的分类。
命名规范:讨论了为应对英文语境下的概念歧义,建议使用英文拼音作为标签,以便于国际化评审。
标签设计复杂性:强调清晰、有据的标签体系至关重要,避免出现主体类别交叉分类(如菲力牛排与普通牛排同属一类)的问题,因为这会让模型在训练中产生困惑。会议倾向于建立一种树状的、多层次的多级分类标签系统。
蛋类独立:“鸡蛋”因其生/熟状态与“鸡肉”的区别,应被视为一个与“鸡肉”并列的独立类别。

待办

  1. 完善数据集标签体系

新的标签体系需完成定稿,可参考此前移交样本的结构。王奕琳
最终确定标签设计后,请 石浩辰 根据讨论结果更新并输出方案,后续待办由其组织。

下次开会的内容:

  1. 6k剩下的图片如何处理
  2. 扩展当前demo数据集?到5k
  3. 怎么合理安排时间更具效率:分割/标label/找数据
  4. 思考label的cls id到底怎么分配比较合理???

目前做的是:今晚把数据集demo整理出来,今晚尽量给分配下分割标注的任务。

1个人30min5张图片

一天一人10张,5天50张*6=300

搜索
匹配结果数:
未搜索到匹配的文章。