搜索

Schwertlilien

As a recoder: notes and ideas.

Mon Nov 10 2025 00:00:00 GMT+0800 (中國標準時間)

2025-11-102025-11-10

版权声明: 署名-非商业性使用-禁止演绎 4.0

全文约0.3K字

阅读次数:

一些疑问

Q：有时候的框架仅使用了CLIP的单个编码器，这是为什么？

A：CLIP通过海量数据和对比学习训练后，它的两个编码器已经不再是普通的模型了，它们变成了：

图像编码器：一个极其强大和通用的视觉特征提取器。它见过的图像和概念非常广泛，学到的特征不再局限于简单的边缘、纹理，而是富含语义信息（比如能区分“猫”和“狗”的核心特征）。
文本编码器：一个对开放世界语义理解很好的文本特征提取器。它不是在特定任务上训练的，所以它能很好地处理各种自然语言概念。

研究人员使用单个CLIP编码器，本质上是在 “站在巨人的肩膀上” ，利用这些高质量、通用的预训练权重作为自己模型任务的强大起点。

SAM3

Dataset与Data Engine的区别？Data Engine是可扩展的。

搜索

匹配结果数:

未搜索到匹配的文章。