Seed Research|理解与生成统一模型 BAGEL 开源,All-in-One Model!

Seed Research|理解与生成统一模型 BAGEL 开源,All-in-One Model!

Date

2025-05-28

Category

Technology Launch

image


BAGEL 是字节跳动 Seed 最新开源的多模态基础模型,支持文本、图像和视频的统一理解和生成。团队实验发现,随着预训练用到的跨模态交错数据不断扩展,模型还涌现出了更强的复杂推理和组合能力,为更广泛、更通用的多模态功能奠定了基础。


在多项公开的多模态理解&生成评测基准中,BAGEL 的表现显著超越此前的开源统一模型。同时,BAGEL 不仅支持视觉理解、图像编辑、风格迁移等先进闭源模型提供的核心功能,还提供 3D 空间导航等额外能力。


官网及体验入口:https://seed.bytedance.com/bagel


GitHub 代码:https://github.com/bytedance-seed/BAGEL


模型权重:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT


研究论文:https://arxiv.org/pdf/2505.14683


多模态理解和生成功能的统一,一直是业内关注的重点方向。然而,现有的学术研究模型主要集中在标准图像-文本配对数据的训练上,在效果上与 GPT-4o、Gemini 2.0 等工业界闭源模型仍存在一定差距。


团队认为,缩小这一差距的关键在于使用结构严谨的多模态交错数据进行训练,以提升模型在复杂多模态任务上的表现。此外,现有模型还常受限于自身架构瓶颈而难以拓展,因此,开发不受架构约束、可拓展的多模态模型也是重要的研究方向之一。


基于此,团队开源了 BAGEL,同 AI 社区分享团队在这一领域的研究探索。


image

BAGEL 位列 Hugging Face Trending 首位


BAGEL 是一个理解-生成一体的、具有 7B 激活参数(总参数 14B)的多模态统一大模型,采用 MoT 架构,在大规模交错的文本、图像、视频和网页数据上进行预训练。


实验表明,随着训练数据的拓展,BAGEL 不仅增强了核心的多模态理解和生成能力,还涌现了更强的复杂组合能力,例如长文本推理结合多模态生成、自由图像编辑、未来帧预测、操控 3D 空间、世界导航等功能。


BAGEL 演示视频


1. BAGEL 能力展示:All-in-One 多模态模型


Chat

BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。


image

混合输入-混合输出


Generation

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外,还引入了长思维链 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。


image

BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶


Editing

基于交错的多模态数据预训练,BAGEL 自然地学会了保留视觉特征和细微细节,并且能从视频中捕捉复杂的视觉运动,这些能力使得 BAGEL 在图像编辑上更为高效。


image


image

基于同一人物形象进行图像编辑


Style Transfer

基于对视觉内容和风格的理解,BAGEL 仅使用较少的对齐数据,即可实现图片的风格切换,甚至还可转换至不同场景中。


image

BAGEL 实现多种风格迁移


Navigation

此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。


案例 1:真实世界


案例 2:游戏


案例 3:3D 旋转


Composition

基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。


image

图片剪切-智能编辑-场景转换-风格转换组合功能


2. BAGEL 能力涌现特性的“三阶段定律”


BAGEL 采用了一种混合 Transformer 专家(MoT)架构,以最大限度地提高模型从丰富的多模态信息中学习的能力。具体来看,模型由两个 Transformer 专家组成,一个专注于多模态理解,另一个专注于多模态生成。作为对应,也使用了 Und Encoder 和 Gen Encoder 两个独立的视觉编码器,分别用于捕捉图像的像素级和语义级特征。


BAGEL 的整体设计框架遵循「Next-Token-Prediction」范式,从而不断实现自我优化。


image

BAGEL 模型架构图


依托统一的 MoT 架构与海量跨模态交错数据,BAGEL 在理解与生成、图像与视频之间,展现出超越同类模型的智能演化轨迹。通过多个权威基准测试(VLM Benchmark、GenEval、GEdit 和 IntelligentBench),团队总结出 BAGEL 能力涌现的 “三阶段”


image


第一阶段:基础能力的涌现

模型首先掌握了多模态的“基本功”——图文理解与文本生成图像的能力。 如图所示,BAGEL 在训练至约 1.5T tokens 时,已具备不错的图像生成质量。然而,像精准拼写文字、调整图像细节等能力,仍未完全显现,成为后续涌现的关键突破点。


image


第二阶段:传统编辑能力的涌现

随着训练推进至 2.5T~3.5T tokens,BAGEL 开始掌握多种基础编辑技巧,能够根据自然语言指令对图像局部进行灵活修改。图像编辑质量在这一阶段持续提升,尤其在细节保留与局部重绘方面达到了协调,展现出较强的跨模态理解与操作能力。


image


第三阶段:复杂操控与推理能力的涌现

在数据和参数进一步扩大后,模型突然展现出前所未见的复杂能力,如:


  • 自由图像操控:理解复杂、开放式的编辑指令,进行精准且具有创意的图像修改。
  • 未来帧预测:给定视频前几帧即可精准预测未来场景,体现出对动态世界的理解。
  • 3D 空间操作:实现精细的 3D 物体旋转和视角调整。
  • 世界导航:在虚拟场景中轻松理解并执行空间移动指令,展现出较强的空间感知能力。

如图所示,智能编辑能力直到「​3.5T tokens 之后​」才开始集中爆发,区别于早期的图像生成与基础编辑,标志着 BAGEL 在通向“世界建模智能体”的道路上,迈出了关键一步。


image


3. 性能评估:多模态理解与生成优于现有开源模型


为全面评估模型性能,团队参考了针对多模态理解、T2I 生成及图像编辑等领域的既有基准。但对于需要更强的推理的复杂编辑能力,目前仍缺乏有效的评估策略。因此,除了利用已有的基准之外,团队还设计了一套新的编辑基准,主要包含一些更复杂和更加要求智能的题目来测试模型的相关性能。


模态理解能力

BAGEL 在多个视觉理解基准测试中表现突出,例如在 MME-S、MMBench、MMMU、MM-Vet、MathVista 和 MMVP 等任务上,其平均得分优于现有的开源模型,包括近期发布的 MetaMorph、MetaQuery、Janus-Pro 等。


image


图像生成能力

在 GenEval 基准测试中,BAGEL 达到了 88% 的总分,超过了专门的开源生成模型(如 FLUX-1-dev: 82% 和 SD3-Medium: 74%)以及其它开源统一模型(如 Janus-Pro: 80% 和 MetaQuery-XL: 80%)。


image


此外,在 WISE 基准测试中,BAGEL 的表现仅次于领先的闭源模型 GPT-4o。


image


图像编辑能力

在 GEdit-Bench 上,BAGEL 的表现与当前领先的图像编辑模型 Step1X-Edit 相当,并且超过了 Gemini 2.0。


image


在 IntelligentBench 上,BAGEL 的得分为 44.9,超过了 Step1X-Edit 模型(14.9)。


image


推理增强的编辑和生成能力

增加长思维链(CoT)推理后,BAGEL 在 WISE 上的得分达到了 0.70,比非 CoT 的 BAGEL 模型高出 0.18;在图像编辑任务 IntelligentBench 中,得分从 44.9 提高到 55.3。这表明,思维链的加入可显著提高模型在需要世界知识和多步复杂推理任务中的能力。


可视化对比

BAGEL 与主流模型的部分可视化对比:


image


目前,Seed 团队已完整开放 BAGEL 的模型权重、代码和演示平台,欢迎大家体验和反馈。