Schwertlilien
As a recoder: notes and ideas.

Mon Nov 10 2025 00:00:00 GMT+0800 (中國標準時間)

一些疑问

Q:有时候的框架仅使用了CLIP的单个编码器,这是为什么?

A:CLIP通过海量数据和对比学习训练后,它的两个编码器已经不再是普通的模型了,它们变成了:

  • 图像编码器:一个极其强大和通用的视觉特征提取器。它见过的图像和概念非常广泛,学到的特征不再局限于简单的边缘、纹理,而是富含语义信息(比如能区分“猫”和“狗”的核心特征)。
  • 文本编码器:一个对开放世界语义理解很好的文本特征提取器。它不是在特定任务上训练的,所以它能很好地处理各种自然语言概念。

研究人员使用单个CLIP编码器,本质上是在 “站在巨人的肩膀上” ,利用这些高质量、通用的预训练权重作为自己模型任务的强大起点。

SAM3

Dataset与Data Engine的区别?Data Engine是可扩展的。

搜索
匹配结果数:
未搜索到匹配的文章。