Janus 系列:统一的多模态理解和生成模型

1 月 28 日凌晨,除夕夜前一晚,DeepSeek 又开源了其多模态模型 Janus-Pro-7B,宣布在在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3(来自 OpenAI)和 Stable Diffusion。

Janus-Pro 是先前工作 Janus 的改进版本。具体来说,Janus-Pro 包含:(1)优化的训练策略,(2)扩展的训练数据,以及(3)更大模型规模的扩展。通过这些改进,Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进展,同时也增强了文本到图像生成的稳定性。

Janus 是一个新颖的自动回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦到单独的路径来解决先前方法的局限性,同时仍然利用单个统一的 Transformer 架构进行处理。这种解耦不仅减轻了视觉编码器在理解和生成方面的角色冲突,而且还增强了框架的灵活性。Janus 超越了之前的统一模型,并且在性能上与特定任务模型相匹配或超过它们。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

JanusFlow 引入了一种极简架构,它将自回归语言模型与修正流(一种最先进的生成模型方法)相集成。我们的主要发现表明,修正流可以直接在大型语言模型框架内进行训练,无需复杂的架构修改。大量的实验表明,JanusFlow 在各自领域内取得了与专用模型相当或更好的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。


Janus 系列:统一的多模态理解和生成模型
http://example.com/2025/01/28/Janus 系列:统一的多模态理解和生成模型/
作者
Tingfeng
发布于
2025年1月28日
许可协议