Schwertlilien
As a recoder: notes and ideas.

2025-6-24

image-20250626214014791

暂时不考虑进行开放词汇检测、后续可以扩展。

感觉下面是一些可以用到的工具:

1
2
3
4
5
from ultralytics.utils.ops import xyxy2xywhn, segments2boxes
from ultralytics.data.converter import merge_multi_segment
# xyxy2xywhn | 将 bbox 从左上右下坐标转换为归一化中心宽高形式(YOLO 格式)
# segments2boxes | 将 segmentation mask 转换成包围框 bbox
# merge_multi_segment | 将多段 segmentation 合并成一个 mask
程序 说明
tools/generate_label_embedding.py 把 COCO 格式数据集中每张图像的目标信息(包括 bbox、分割、类别名等)提取出来,标准化为一个 Python-friendly 的格式,并保存为 .cache 文件,加速后续处理(如训练、统计类别、生成 embedding 等)。
generate_lvis_sc.py 在目标检测初期,先把目标框定位出来,此时先不进行分类。简化任务,便于debug。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
dataset/
├── clear_food/ # 清晰图像目录
│ ├── images/
│ │ ├── 000001.jpg
│ │ └── ...
│ └── annotations.json # COCO格式,100k张标注
├── mixed_food/ # 混合图像目录
│ ├── images/
│ │ ├── mix001.jpg
│ │ └── ...
│ └── annotations.json # COCO格式,500张标注
└── split/
├── mixed_train.txt # 混合图的划分
├── mixed_val.txt
└── mixed_test.txt
类型 清晰数据 混合数据
Train 3000 张 300 张
Validation 500 张 100 张
Test 500 张 100 张
Total Used 4000 张 500 张
模型 阶段类型 Anchor机制 是否端到端 特点简述(应用场景/机制)
Faster R-CNN 两阶段 Anchor-based 精度高,候选区域生成
RetinaNet 单阶段 Anchor-based Focal Loss 弱化易例
YOLOv5 单阶段 Anchor-based 实时性好
FCOS 单阶段 Anchor-free Center-based anchor-free,适合小目标
CornerNet 单阶段 Anchor-free 角点对匹配方式
DETR 端到端 Anchor-free 基于Transformer,无NMS
Deformable DETR 端到端 Anchor-free 多尺度 deformable attention,训练更快
DINO 端到端 Anchor-free 多尺度、混合查询、去噪训练
YOLOv8 单阶段 Anchor-free 最新 YOLO,anchor-free 支持
MS-DETR 端到端 Anchor-free 引入混合监督(matching + pointwise),提升训练效率和小目标性能
FA-DETR 端到端 Anchor-free 引入焦点注意力(Focus Attention),稀疏注意力高效训练

搜索
匹配结果数:
未搜索到匹配的文章。