2025-6-24

暂时不考虑进行开放词汇检测、后续可以扩展。

感觉下面是一些可以用到的工具：

from ultralytics.utils.ops import xyxy2xywhn, segments2boxes
from ultralytics.data.converter import merge_multi_segment
# xyxy2xywhn			| 将 bbox 从左上右下坐标转换为归一化中心宽高形式（YOLO 格式）
# segments2boxes		| 将 segmentation mask 转换成包围框 bbox
# merge_multi_segment	| 将多段 segmentation 合并成一个 mask

程序	说明
`tools/generate_label_embedding.py`	把 COCO 格式数据集中每张图像的目标信息（包括 bbox、分割、类别名等）提取出来，标准化为一个 Python-friendly 的格式，并保存为 .cache 文件，加速后续处理（如训练、统计类别、生成 embedding 等）。
`generate_lvis_sc.py`	在目标检测初期，先把目标框定位出来，此时先不进行分类。简化任务，便于debug。

dataset/
├── clear_food/                 # 清晰图像目录
│   ├── images/
│   │   ├── 000001.jpg
│   │   └── ...
│   └── annotations.json        # COCO格式，100k张标注
├── mixed_food/                 # 混合图像目录
│   ├── images/
│   │   ├── mix001.jpg
│   │   └── ...
│   └── annotations.json        # COCO格式，500张标注
└── split/
    ├── mixed_train.txt         # 混合图的划分
    ├── mixed_val.txt
    └── mixed_test.txt

类型	清晰数据	混合数据
Train	3000 张	300 张
Validation	500 张	100 张
Test	500 张	100 张
Total Used	4000 张	500 张

模型	阶段类型	Anchor机制	是否端到端	特点简述（应用场景/机制）
Faster R-CNN	两阶段	Anchor-based	否	精度高，候选区域生成
RetinaNet	单阶段	Anchor-based	否	Focal Loss 弱化易例
YOLOv5	单阶段	Anchor-based	否	实时性好
FCOS	单阶段	Anchor-free	否	Center-based anchor-free，适合小目标
CornerNet	单阶段	Anchor-free	否	角点对匹配方式
DETR	端到端	Anchor-free	✅	基于Transformer，无NMS
Deformable DETR	端到端	Anchor-free	✅	多尺度 deformable attention，训练更快
DINO	端到端	Anchor-free	✅	多尺度、混合查询、去噪训练
YOLOv8	单阶段	Anchor-free	否	最新 YOLO，anchor-free 支持
MS-DETR	端到端	Anchor-free	✅	引入混合监督（matching + pointwise），提升训练效率和小目标性能
FA-DETR	端到端	Anchor-free	✅	引入焦点注意力（Focus Attention），稀疏注意力高效训练