Schwertlilien
As a recoder: notes and ideas.

2025-4-22-数据集收集工作推进

wow! A good question is How to collect data to build a dataset.

现在要完成下面的一些问题:

  1. 分割数据集-标注工具,怎么标注
  2. 上界做到??最好的分割方法
  3. 方法构建-当前的最新的方法
  4. 如何评估
  5. 分期推进数据 数据集的标注进展

数据收集:每天拍照三餐收集

数据标注:

img

数据标注工具:MakeSense,LabelMe,

LabelMe 最早是由麻省理工学院 (MIT) 的计算机科学与人工智能实验室 (CSAIL) 于 2008 年发布的,类型覆盖了实例分割、语义分割、bbox标注、图片分类等,是标注领域中不得不提的元老。github链接

工具特性:

  • 支持 Windows、macOS 和 Linux 系统本地安装
  • 入门版支持多边形、矩形、圆形、直线、点、线带等不同标注类型
  • Pro 版本提供 Python API ,可通过编程的方式自动化标注流程、批量处理标注数据、或将标注结果转换为其他格式

价格:基础功能免费,Pro 版(包含AI标注、数据管理等功能)27美元

网址:https://www.labelme.io/

使用教程:

13分钟教会你使用labelme的超详细教程

Labelme安装教程详细版!

深度学习图像标签标注软件labelme超详细教程

官方实例分割的说明

MakeSense工具特性:

  • 无需部署或进行环境配置,浏览器打开即可标注
  • 支持矩形、线条、点和多边形等标签类型
  • 输出文件格式包括YOLO、VOCXML、VGG、JSON、CSV
  • 接入 AI 模型(内置了 YOLOv5、COCO SSD 和 Pose-Net )可进行自动标注

价格:免费

网址:https://www.makesense.ai/

image-20250423091640188
image-20250423091744846
image-20250423091835074

数据收集安排

参考:YOLO系列目标检测数据集大全

实际上每个类别有2000张图片差不多。目前针对于目标检测的数据集多以单类别、2k-10k左右.

那就是100个类别,每个类别1000张左右的照片。数据收集中易存在如下的问题:

  1. 采集的数据集尽量保证你要做的目标检测不同类之间样本平衡,就是各个目标检测的类在你的数据中出现的次数差不多;
  2. 保证采集数据的质量,过于模糊、遮挡严重或者目标太小、太大的话你肯定不想要吧?其实采集目标的大小还是根据你使用的场景,尽量接近应用场景的尺寸最佳;
  3. 以及场景下采集数据的多样性,尽量采集场景自然状态下的各种各样的照片,而不是人为地制造变化不大、容易过拟合的图像数据。
  4. 注意避免正负样本不平衡:图片少但物体多的数据集/图片多但物体少的数据集

分阶段推进数据收集

每人每天采集 30 张(如每餐拍摄 10 张),则每日 300 张,100 万张需 333 天(约 11 个月)。或总人数为 100 人,每日 300 张,333 天完成。 | 分期 | 目标 | 持续时间 | 累计采集量 | 标注跟进安排 | |--------|---------------|----------|------------|-------------------------------| | 第1期 | 采集20k张 | 67天 | 20k | 同步启动标注,完成5k张标注 | | 第2期 | 采集30k张 | 100天 | 50k | 累计标注20k张,开始验证集标注 | | 第3期 | 采集30k张 | 100天 | 80k | 累计标注50k张,模型训练1次 | | 第4期 | 采集20k张 | 67天 | 100k | 完成全部标注,最终测试 |

执行要点

  • 并行流程:采集与标注同步进行,避免数据积压。例如第1期采集到5k张时,立即安排标注人员开始工作。
  • 质量控制
    • 每日抽检10%图片,检查清晰度、角度、标注准确性(如标签是否正确、框选是否完整)。
    • 定期培训标注人员,统一标注标准(如目标边缘是否包含背景)。
  • 工具辅助
    • 用Labelme批量标注时,可复用相似图片的标注结果(如同一类食物的不同角度),通过「Edit」→「Copy/Paste」快速复制标注。
    • 引入半自动标注工具(如Supervisely、CVAT),利用预训练模型生成初始标注,再人工修正,提升效率。

手动标注数据

标注一张图片的时间在5分钟左右。100k=8333h

1.假设每个人每天标注5小时(60张图片),5个人需要333天。 2.假设每个人每天标注8小时(96张图片),5个人需要208天。 3.假设每个人每天标注10小时(120张图片),5个人需要166天。

但是引入AI辅助标注/半自动工具标注之后,速度应加快不少。假设半自动工具将单张标注时间从5分钟缩短至1.5-2分钟,效率提升2.5-3倍:

场景 手动标注效率 AI辅助后效率 5人团队日标注量
单张时间 5分钟/张 2分钟/张(提升60%) 300张/天(5人×8小时)
1.5分钟/张(提升70%) 400张/天(5人×8小时)

1.分期标注计划

第1期:数据采集20k张(同步启动标注)

  • 采集时间:67天(假设每日采集300张)
  • 标注任务
    • 目标:完成20k张标注(含训练集16k张+验证集4k张)。
    • 时间安排
      • 第1-10天:采集到3k张后,启动标注(每日标注300张,10天完成3k张)。
      • 第11-67天:每日同步采集300张、标注300张,累计完成20k张标注。
    • 工具应用
      • 对常见类别(如高频食物)使用预训练模型自动生成初始标注,人工修正(约节省50%时间)。
      • 利用Labelme的「复制标注」功能,对相似角度图片复用标注结果。

第2期:数据采集30k张(累计50k张)

  • 采集时间:100天(累计采集至50k张)
  • 标注任务
    • 目标:累计标注至50k张(新增30k张)。
    • 时间安排
      • 每日采集300张,标注300张,100天完成30k张标注。
    • 工具升级
      • 引入CVAT或Supervisely等专业工具,支持批量导入AI生成的预标注结果(如YOLO检测框),人工仅需调整边缘。
      • 对复杂类别(如多物体重叠)采用「多边形+画笔」组合标注,优先保证训练集精度。

第3期:数据采集30k张(累计80k张)

  • 采集时间:100天(累计采集至80k张)
  • 标注任务
    • 目标:累计标注至80k张(新增30k张),并完成首次模型训练。
    • 时间安排
      • 前50天:每日标注300张,完成15k张,预留50天用于模型训练数据校验(如修正误标样本)。
      • 后50天:根据模型训练反馈,优化标注规则(如调整类别阈值),补标或修正2k-5k张易错样本。
    • 质量控制
      • 随机抽检10%标注结果,重点检查小目标(如调料)和边缘模糊区域。
      • 建立标注错误台账,每周组织标注人员复盘典型问题。

第4期:数据采集20k张(累计100k张)

  • 采集时间:67天(累计采集至100k张)
  • 标注任务
    • 目标:完成剩余20k张标注,划分测试集并完成全量校验。
    • 时间安排
      • 前30天:标注10k张测试集,采用「双人交叉校验」模式(两人分别标注同一张图片,差异超过10%则重新标注)。
      • 后37天:标注剩余10k张训练集,同步完成所有数据集的格式转换(如转为COCO/YOLO格式)。
    • 最终验证
      • 使用训练好的模型对测试集进行推理,统计标注漏检率(如未标注的小物体比例),要求漏检率<5%。

关键执行策略

  1. 工具链组合
    • 预标注:用YOLOv8或Segment Anything Model(SAM)生成检测框/分割掩码,作为AI初始输出。
    • 人工修正:在Labelme中快速调整顶点,或使用「自动填充」功能优化多边形边缘。
    • 批量处理:对同一类别的100张相似图片,可先标注1张,其余99张通过「复制-粘贴标注」快速完成,仅修正位置差异。
  2. 人员分工
    • 2人负责「复杂类别精标」(如多食材混合菜品),3人负责「简单类别批量修正」(如单一水果)。
    • 每周安排1人专门处理标注冲突和历史数据校验。
  3. 进度监控
    • 用Google Sheets或飞书多维表格实时更新每日标注量、质检通过率、工具使用效率(如AI预标注占比)。
    • 设置预警线:若某周标注完成率<80%,立即启动临时增员或延长每日工作时长(如从8小时增至10小时)。

风险应对

  • 工具适配延迟:提前1周在小批量数据(如1k张)上测试AI模型预标注效果,调整模型参数(如置信度阈值)。
  • 标注质量波动:每两周开展标注标准考试,不合格者重新培训;对连续3次质检优秀的人员给予奖励。

通过「采集-标注-校验-迭代」的闭环流程,结合AI工具减少重复劳动,可将10万张图片的标注周期压缩至6个月内,同时保证标注精度满足模型训练需求。

搜索
匹配结果数:
未搜索到匹配的文章。