Schwertlilien
As a recoder: notes and ideas.

2025-9-16

会议纪要

  1. 数据收集与标注
    • 可以分配一部分人从已有数据集中找数据,另一部分人去网上找。
    • ==最好能在周五或周六前提供数据==。
    • 关于标注:既然已挑选出高频菜名,建议后续根据标签进行更细致的分类。(写脚本批量处理annotations - attributes)
  2. 图片筛选与分配
    • 两个人几天内看完6000张图片有困难,建议先测试看100张图片需要多少时间,再合理分配任务。
    • 至于去网上找图片:可以找代表性图片进行识图搜索,以找到更多相似图片。
  3. 后续任务与分工
    • ==明确接下来几天的任务,并在群里公布分工情况。==
    • 每个人带一个任务,分从数据集中筛选以及从网上获取:如果有人在网上找图片,应该有人能带着解答疑问,避免找错。

待办事项

  • 测试查看100张图片所需时间,以便合理分配6000张图片的筛选任务。
  • 挑选高频菜名的图片并进行标注,考虑设计算法对标签进行更细致的分类。
  • 明确接下来几天各自的任务,并在群里公布分工情况。
  • 如果进行网上图片搜索,应有人能提供指导以避免错误。

目前收集数据集已经挑出130个高频菜品标签,现在需要收集对应的图片。

目前是分成两项进行:网上手动搜集,已有数据集中筛选。

(1)网上手动搜集:由石浩辰带两位同学从网上收集对应图片数据,主要集中在高频标签中频率较低的标签。预计每人每天收集50~100张图片。

(2)已有数据集中筛选:由陈冠宇带两位同学从已有的6k总数据集中筛选符合的菜品图片。预计是筛选完至少得到1000张图片。

需要至少2000张图片做一个数据集,需要两个同学跟在网上收集数据集,另外两个同学跟陈冠宇从已有的数据集中筛选。网上收集工作预计每人每天筛选工作从3个文件夹里筛选图片,预计到周六选出1000张

搜索
匹配结果数:
未搜索到匹配的文章。