很重要的一个问题就是现在转向SS,但是SS的标注实在是消耗太多。
能不能找到一种方法,可以不需要那么庞大的精细标注?使用大量的未标注图片,然后为每一张图片写一段话,作为文本标注。然后就扔进去训练,然后模型的输出是分割的mask,以及不同的mask对应的文本?但是mask是对像素分类的话,是不是需要提前指定这是什么类别?也就是说类别数需要提前确定。
那么应该如何进行开放词汇语义分割呢?
上述的问题是基于CLIP进行扩展的:
-
<...
很重要的一个问题就是现在转向SS,但是SS的标注实在是消耗太多。
能不能找到一种方法,可以不需要那么庞大的精细标注?使用大量的未标注图片,然后为每一张图片写一段话,作为文本标注。然后就扔进去训练,然后模型的输出是分割的mask,以及不同的mask对应的文本?但是mask是对像素分类的话,是不是需要提前指定这是什么类别?也就是说类别数需要提前确定。
那么应该如何进行开放词汇语义分割呢?
上述的问题是基于CLIP进行扩展的:
test命令
1 |