Mon Nov 10 2025 00:00:00 GMT+0800 (中國標準時間)
一些疑问
Q:有时候的框架仅使用了CLIP的单个编码器,这是为什么?
A:CLIP通过海量数据和对比学习训练后,它的两个编码器已经不再是普通的模型了,它们变成了:
- 图像编码器:一个极其强大和通用的视觉特征提取器。它见过的图像和概念非常广泛,学到的特征不再局限于简单的边缘、纹理,而是富含语义信息(比如能区分“猫”和“狗”的核心特征)。
- 文本编码器:一个对开放世界语义理解很好的文本特征提取器。它不是在特定任务上训练的,所以它能很好地处理各种自然语言概念。
研究人员使用单个CLIP编码器,本质上是在 “站在巨人的肩膀上” ,利用这些高质量、通用的预训练权重作为自己模型任务的强大起点。
SAM3
Dataset与Data Engine的区别?Data Engine是可扩展的。