Schwertlilien
As a recoder: notes and ideas.

2025-2-26-Janus-Pro

Janus-Pro

整体架构:与Janus同。

改进点:

  1. 优化训练策略(Optimized Training Strategy)
  2. 扩展训练数据(Data Scaling)
  3. 扩展模型规模(Model Scaling)
image-20250301111528699

Janus-Proi采用独立的编码方法将原始输入转换为特征,然后由统一的自回归转换器进行处理。

  1. 多模态理解:我们使用SigLIP编码器从图像中提取高维语义特征。将这些特征从二维网格平展到一维序列,并使用理解适配器将这些图像特征映射到LLM的输入空间中。
  2. 视觉生成:我们使用[38]中的VQ标记器将图像转换为离散id。在将ID序列平面化为1-D后,我们使用生成适配器将每个ID对应的码本嵌入映射到LLM的输入空间中。

然后将这些特征序列连接起来形成一个多模态特征序列,随后将其输入LLM进行处理。除了LLM中内置的预测头外,Janus-Pro还在视觉生成任务中使用随机初始化的预测头进行图像预测。整个模型遵循一个自回归框架。

最优训练策略

StageⅠ Stage Ⅱ Stage Ⅲ
训练适配器和图像头(adaptor,image head) 统一的预训练 监督微调(SFT)
-- 更新除理解编码器和生成编码器外的所有组件的参数。 建立在第二阶段的基础上,在训练期间进一步解锁理解编码器的参数。
增加了Stage Ⅰ的训练步骤,允许在ImageNet数据集上进行足够的训练。 放弃ImageNet数据,直接利用正常的文本到图像数据来训练模型,以基于密集描述生成图像。 调整了Stage Ⅲ监督微调过程中不同类型数据集的数据比例,将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10更改为5:1:4。

数据扩展:收集了更多、不同来源的数据用于训练。

模型扩展:模型参数7B。

Janus

两个encoder:

  • Unt.encoder:SigLIP 384
  • Gen.encoder:llama tokensize=256
搜索
匹配结果数:
未搜索到匹配的文章。