2025-6-28
今天主要是把detr的代码基本看完,还剩下transformer代码、matcher代码都应该比较好啃。
看代码的过程中,一开始看:我趣这么牛x,so elegant!现在开始逐渐看懂了。
下一步就是自己仿照着开始搭积木了。
现在目前有个问题就是:我原先想的是backbone=ViT的架构,现在想来这不现实。因为ViT说实话还是基于transfomer的架构,真没必要把这个单独拎出来、后面还是使用的transformer。
一般来说如果backbone是vit的话,感觉会是做知识蒸馏的比较多?教师-学生模型这样。
现在还是决定改成各种残差网络好了:conv4/resnet12/resnet50/resnet101...
哦对差点忘了,还要看一下当前最新的论文,都是怎么改进的?
以及目前最新的基于VLM做OD的是否有相关的paper了?等等。