2025-9-29
读者是否会认为我的研究是不是有研究价值,
他们要是不care,他们就不会accept我的paper,也不会读、更不会引用。
我怎么提出我的论点和论据,来支撑我的故事?
如何收集研究的论述?不可能在收集完所有的信息/数据之后才开始写故事。
研究的argument是什么意思?与读者探索,让读者看完之后达到我们的水平,引发读者的思考,引导他们可能在我们的研究上继续研究。
支撑论点:理由1来支撑论点,理由1成为论点2,理由2在支撑论点2,理由2成为论点3……一致串下去。
承认/回应其他看法:预测读者可能会存在的问题、并提前回复(提前rebuttal)。
你解决的这个问题是不是会造成一些不好的方面?
看论点是否有价值?或者是从反面来看自己的假设:比如,不做菜品分割会有什么后果?没有中餐的数据集会怎么样?
一致性对齐约束如何 “针对性缓解类别偏差”?
一致性对齐约束的设计目标,是 “在优化微调数据集类别的同时,保留 CLIP 预训练时的视觉 - 语言对齐关系”,其具体逻辑如下:
- 约束的核心规则:微调后,CLIP 对 “任意两个掩码特征” 与 “任意文本类别” 的相似度顺序,必须与微调前保持一致。举例:若微调前 CLIP 认为 “掩码 A(猫)与‘cat’的相似度> 掩码 A 与‘dog’的相似度”,则微调后这一顺序不能改变;即使 “dog” 不在微调数据集中,CLIP 也需保留对 “dog” 的文本语义记忆。
- 如何实现这一约束?论文通过两种技术路径确保顺序一致(对应原文 3.2 节):
- 高维扩展 - 压缩机制:将初始相似度矩阵(Q×K,Q 为掩码数,K 为类别数)通过线性层扩展到 Q×K×T(T 为扩展维度),再压缩回 Q×K—— 这种 “先扩展再压缩” 的操作,仅优化相似度的 “数值大小”,不改变 “顺序关系”(类似给所有相似度值乘以一个正数,排序不变);
- 文本嵌入残差连接:在文本嵌入中加入 “图像补丁嵌入的残差”(公式 3:
E_t + P_t),P_t由图像局部补丁特征生成,既能补充场景上下文,又因E_t(原始文本嵌入)的主导作用,避免文本语义偏离预训练空间。