2025-7-9
Sapkota, Ranjan, and Manoj Karkee. “Improved yolov12 with llm-generated synthetic data for enhanced apple detection and benchmarking against yolov11 and yolov10.” arXiv preprint arXiv:2503.00057 (2025).
一、相关文献引用
- Sapkota et al. (2024c):该研究是本研究的前期基础,首次证明了利用OpenAI的DALL-E生成合成数据集训练YOLOv10和YOLOv11模型的可行性,为本研究中LLM生成数据集的方法提供了方法论支撑(如质量过滤标准、文本嵌入转换流程等)。
- Ramesh et al. (2022):介绍了DALL·E 2的核心原理,包括基于CLIP(Contrastive Language-Image Pretraining)的文本-图像嵌入关联、扩散解码器的高分辨率图像生成机制,是LLM生成图像的理论基础。
- Paaß and Giesselbach (2023):提及Transformer模型(带注意力机制)在“文本嵌入→图像嵌入”转换中的应用,以及扩散模型的图像生成逻辑,支撑了数据集生成的技术流程。
- Xing et al. (2024):涉及扩散解码器通过卷积网络将低分辨率图像(64×64) upscale 至1024×1024的技术细节,解释了合成图像的分辨率提升过程。
- Sapkota et al. (2024d,e):补充说明LLM生成的合成图像可模拟真实场景中的复杂挑战(如遮挡、光照变化、果实密集排列等),用于增强模型对真实环境的适应性。
二、具体做法
1. 工具选择
使用OpenAI的DALL·E 2(一种大型语言模型驱动的生成式AI工具)作为核心,通过文本提示生成符合 orchards 场景的苹果图像。
2. 生成流程(三阶段 pipeline)
- 编码器阶段:将文本提示(如“occluded apples in orchards”“make some apples on tree in an orchard that look fresh and red”)通过预训练神经网络转换为CLIP文本嵌入,再通过PCA(主成分分析)降维以简化处理。
- Prior阶段:利用带注意力机制的Transformer模型,将文本嵌入转换为图像嵌入,建立文本语义与图像特征的关联。
- 解码器阶段:基于扩散模型逐步优化图像嵌入,先生成64×64低分辨率图像,再通过卷积网络 upscale 至1024×1024高分辨率,最终得到 photorealistic(照片级真实)的果园苹果图像。
3. 数据集处理
- 初始生成与过滤:
初始生成501张图像,通过质量过滤(参考Sapkota et al. (2024c)标准)剔除20张不真实图像(如抽象场景、无苹果场景),保留489张包含成熟苹果的真实果园场景图像。 - 标注与标准化:
- 用开源工具Makesense.ai手动标注图像,为8590个苹果添加边界框(bounding boxes);
- 将图像统一调整为640×640分辨率,通过水平/垂直翻转、90度旋转(顺时针、逆时针、上下颠倒)进行数据增强,提升数据集鲁棒性。
- 格式转换:将处理后的数据集上传至Roboflow平台,导出为YOLOv12兼容格式,用于模型训练。
4. 核心优势
- 减少对真实田间数据的依赖:无需大量手动采集果园图像,降低农业场景数据收集的成本和 labor 投入;
- 覆盖多样场景:合成图像可模拟真实环境中的复杂挑战(如遮挡、光照变化、果实密集排列等),增强模型的泛化能力。
注意事项
DALL·E 2生成的图像本身不包含标注信息,需手动完成边界框标注;生成过程需通过文本提示精准控制场景(如“成熟苹果”“果园背景”),以确保数据集与任务的相关性。
数据集相关
数据集构建步骤
明确目标与数据类型:确定要解决的问题或任务,明确所需数据类型(文本、图像、音频等),同时关注数据格式是否符合后续训练模型的要求。
在苹果检测项目中,确定要检测苹果这一目标,数据类型为果园中的苹果图像 。
目标:苹果/数据类型:图像
数据收集:可从内部数据库、日志获取内部数据;通过公开数据集、相关网站配合AI抽取等方式收集外部数据;必要时,还可通过模拟或合成数据来补充。该研究使用OpenAI的DALL·E 2生成合成果园图像作为数据来源。
数据标注:对于生成的489张图像,研究使用Makesense.ai这个开源平台进行手动标注,为8590个苹果添加边界框。标注方式有人工手动标注和使用工具或预训练模型进行自动标注两种 。
数据清洗:主要处理缺失值(填充或删除)、去重(删除重复数据)、统一格式(确保数据格式一致)以及处理异常值(识别并处理)。在大规模数据处理时,通常先依托传统大数据平台进行初步清洗,再借助人工智能技术修复错误并校准,最后进行人工终审 。
数据增强(非必须):根据具体情况对数据进行增强,如对图像进行旋转、裁剪、调整亮度、添加噪声等操作;对文本进行同义词替换、回译等;对音频进行变速、加噪声等。在该研究中,图像在标注后被标准化为640×640分辨率,并通过水平和垂直翻转、90度旋转(顺时针、逆时针、上下颠倒)来增强数据集的鲁棒性。
数据划分:一般将数据集按照一定比例划分为训练集、验证集和测试集,如该研究将数据集按8:1:1的比例划分,分别用于模型训练、调参和模型选择以及最终评估。
确定数据集大小的方法
- 考虑模型性能趋势:多数模型随着数据集规模扩大性能提升,但不同模型和数据集的提升程度有差异。如在零售数据集和其他场景中,不同模型在数据量变化时表现不同。在实际应用中,可通过试验观察模型在不同数据集规模下的性能变化,找到性能提升趋于平缓的点,来确定合适的数据集大小。
- 遵循规模法则:根据Chinchilla的实验结果,模型大小和训练数据的大小应按相同比例增加以获得最佳模型表现。若计算资源增加,模型和数据量也应按相应比例扩大,如计算资源增加10倍,模型和数据量应增加3.1倍 。在实践中,可依据计算资源和期望的模型性能,按照此法则初步确定数据集规模,再通过实验微调。
- 考虑数据的代表性:更大的数据集通常能更全面地代表数据分布,使合成数据的统计特性更可靠,模型训练效果更好。在确定数据集大小时,要评估现有数据对目标数据分布的覆盖程度,若覆盖不足,应增加数据量。如在苹果检测中,若要检测不同生长阶段、不同环境下的苹果,就需要足够多的图像来涵盖这些变化。
- 考虑计算资源和时间成本:训练大模型时要兼顾数据吞吐量和模型性能。若计算资源有限,无法处理大规模数据集,应在资源允许的范围内确定数据集大小,并通过优化内存使用(如梯度积累)等技术提升训练效率。若训练时间过长,也需权衡数据集大小与训练时长的关系 。在实际操作中,可根据硬件配置和时间要求,在保证模型性能的前提下,选择合适大小的数据集。
生成图片用以训练的相关研究
简称 | 内容 | 训练方式 |
---|---|---|
Voetman et al., 2023 (arXiv),The Big Data Myth: Using Diffusion Models. | 使用 fine‑tuned Stable Diffusion 生成特定场景(如果树园中苹果)的 synthetic 图像,并手工标注后训练目标检测器(如 YOLOv5/YOLOv8)。在真实测试集(331 张图)上,检测性能与完全用真实图像训练的 baseline 差异仅 0.09–0.12 AP 。 | Stable Diffusion 微调 → 生成图片 → 手动边框标注 → 模型训练 |
Voetman et al., 2023 (arXiv),Using Diffusion Models for Dataset Generation: Prompt Engineering vs. Fine-Tuning | 比较两种策略:prompt‑工程 vs 微调 Stable Diffusion,用于生成苹果树图;两者生成数据训练检测器后,在相同 331 张真实测试集上,与真实数据 baseline 相差 0.07 和 0.08 AP,显示可行性。 | Prompt engineering / Stable Diffusion 微调 → 合成数据集 → 手工注释 → 分别训练检测器 → 与真实数据检测器对比 |
Lin et al., 2023 (arXiv),Explore the Power of Synthetic Data on Few‑shot Object Detection | 针对 Few‑shot 目标检测,使用 text‑to‑image 模型生成大量对象图,配合 saliency clip → 剪裁 + Copy‑Paste 多组合方式,将对象贴到真实背景中;并用 CLIP 进行 FP 过滤,COCO/PASCAL 上相比 baseline 提升可达 21.9% AP 。 | 生成图 + 自动剪裁贴合策略 + CLIP 过滤 + 实际背景训练 |
Jian et al., 2023 (arXiv via DeepPaper),Stable Diffusion for Aerial Object Detection | 面向遥感领域,将 Stable Diffusion fine‑tune(LoRA)用于生成稀疏航拍目标;之后结合 Copy‑Paste 技术合成带真实背景的大规模训练集,提升航拍目标检测性能 。 | Stable Diffusion + LoRA 微调 → 合成航拍图 + 自动注释 → 训练检测器。 |
InstaGen (Feng et al., 2024),Enhancing Object Detection by Training on Synthetic Dataset (CVPR 2024, arXiv Feb 2024) | 将扩散模型扩展为实例级生成器,配合一个 grounding head 输出文本-视觉区域对齐与边框坐标。生成图像 + 自动生成对应边框标签,用于训练检测器。针对 COCO 等,在开放词汇任务上提高 ~4.5 AP,数据稀少场景提升 1.2–5.2 AP (arxiv.org)。 | ROI 抽取 → LoRA 微调 Stable Diffusion → 合成目标图 → copy‑paste 至背景图 → 训练检测器 |
Tang et al., 2024 (AeroGen)5 | 提出 layout‑controllable 扩散生成器,可根据指定的水平或旋转边框布局生成遥感图;集成 diversity‑conditioned generator 和过滤机制;在 DIOR、HRSC 等遥感数据集上提升 mAP 2.4–4.3%。 | 布局条件生成遥感图 → 多样性调控 + 质量过滤 → 合成扩增训练集 → 训练检测器 |
Wang et al., 2025 (SVDDD: SAR Vehicle Target Detection Dataset Augmentation…) | 利用扩散模型(Stable Diffusion + ControlNet)生成 SAR 车辆图像,通过图像清晰度、直方图、influence function 筛选多样性,然后用生成+真实数据训练车辆检测模型;mAP75 平均提升 2.32%,最高达 6.6%。 | 收集 SAR 图 → 微调 Stable Diffusion(加 ControlNet)→ 生成合成 SAR 内容 → 图像 & 样本过滤 → 合成+真实图混合训练模型 |
时间、ddl、时间结点。