Janus-Pro

整体架构：与Janus同。

改进点：

Janus-Proi采用独立的编码方法将原始输入转换为特征，然后由统一的自回归转换器进行处理。

多模态理解:我们使用SigLIP编码器从图像中提取高维语义特征。将这些特征从二维网格平展到一维序列，并使用理解适配器将这些图像特征映射到LLM的输入空间中。
视觉生成:我们使用[38]中的VQ标记器将图像转换为离散id。在将ID序列平面化为1-D后，我们使用生成适配器将每个ID对应的码本嵌入映射到LLM的输入空间中。

然后将这些特征序列连接起来形成一个多模态特征序列，随后将其输入LLM进行处理。除了LLM中内置的预测头外，Janus-Pro还在视觉生成任务中使用随机初始化的预测头进行图像预测。整个模型遵循一个自回归框架。

最优训练策略

StageⅠ	Stage Ⅱ	Stage Ⅲ
训练适配器和图像头(adaptor,image head)	统一的预训练	监督微调(SFT)
--	更新除理解编码器和生成编码器外的所有组件的参数。	建立在第二阶段的基础上，在训练期间进一步解锁理解编码器的参数。
增加了Stage Ⅰ的训练步骤，允许在ImageNet数据集上进行足够的训练。	放弃ImageNet数据，直接利用正常的文本到图像数据来训练模型，以基于密集描述生成图像。	调整了Stage Ⅲ监督微调过程中不同类型数据集的数据比例，将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10更改为5:1:4。

数据扩展：收集了更多、不同来源的数据用于训练。

模型扩展：模型参数7B。

两个encoder：