2025-6-24

暂时不考虑进行开放词汇检测、后续可以扩展。
感觉下面是一些可以用到的工具:
1 | from ultralytics.utils.ops import xyxy2xywhn, segments2boxes |
| 程序 | 说明 |
|---|---|
tools/generate_label_embedding.py |
把 COCO 格式数据集中每张图像的目标信息(包括 bbox、分割、类别名等)提取出来,标准化为一个 Python-friendly 的格式,并保存为 .cache 文件,加速后续处理(如训练、统计类别、生成 embedding 等)。 |
generate_lvis_sc.py |
在目标检测初期,先把目标框定位出来,此时先不进行分类。简化任务,便于debug。 |
1 | dataset/ |
| 类型 | 清晰数据 | 混合数据 |
|---|---|---|
| Train | 3000 张 | 300 张 |
| Validation | 500 张 | 100 张 |
| Test | 500 张 | 100 张 |
| Total Used | 4000 张 | 500 张 |
| 模型 | 阶段类型 | Anchor机制 | 是否端到端 | 特点简述(应用场景/机制) |
|---|---|---|---|---|
| Faster R-CNN | 两阶段 | Anchor-based | 否 | 精度高,候选区域生成 |
| RetinaNet | 单阶段 | Anchor-based | 否 | Focal Loss 弱化易例 |
| YOLOv5 | 单阶段 | Anchor-based | 否 | 实时性好 |
| FCOS | 单阶段 | Anchor-free | 否 | Center-based anchor-free,适合小目标 |
| CornerNet | 单阶段 | Anchor-free | 否 | 角点对匹配方式 |
| DETR | 端到端 | Anchor-free | ✅ | 基于Transformer,无NMS |
| Deformable DETR | 端到端 | Anchor-free | ✅ | 多尺度 deformable attention,训练更快 |
| DINO | 端到端 | Anchor-free | ✅ | 多尺度、混合查询、去噪训练 |
| YOLOv8 | 单阶段 | Anchor-free | 否 | 最新 YOLO,anchor-free 支持 |
| MS-DETR | 端到端 | Anchor-free | ✅ | 引入混合监督(matching + pointwise),提升训练效率和小目标性能 |
| FA-DETR | 端到端 | Anchor-free | ✅ | 引入焦点注意力(Focus Attention),稀疏注意力高效训练 |