不止会“画”,更会“想”|Seedream 4.0 图像创作模型正式发布

不止会“画”,更会“想”|Seedream 4.0 图像创作模型正式发布

Date

2025-09-09

Category

Models

字节跳动 Seed 团队正式发布新一代图像创作模型 Seedream 4.0。


image


Seedream 4.0 采用同一套构架实现文生图与通用编辑能力,融合常识和推理能力,相比前代模型 Seedream 3.0 和 SeedEdit 3.0,在多模态效果、速度和可用性上均实现显著突破:


多模态玩法拓展: 灵活支持文本、图像的组合输入,允许文生图、图生图、图像编辑、多图编辑、组图生成等创作模式,玩法创意多样。


风格化美感提升: 支持高度自由的艺术风格迁移,从巴洛克到赛博朋克风,风格百变,更可组合创造全新风格,美感突出。


逻辑理解力增强: 结合世界知识,提升了多模态输入理解,会“画”,更会先“想”,在涉及物理和时间约束、解谜填字、续写漫画等任务中,展现出推理生成能力。


自适应与 4K 生成: 可根据指令或参考图生成最佳比例图片,也支持用户自定义尺寸,最高分辨率从 2K 扩展至 4K 超高清。


推理速度跃升: 通过全新高效的架构设计,以及极致的蒸馏加速,DiT 生图的推理速度较 Seedream 3.0 提升超 10 倍。


在综合评测中,Seedream 4.0 取得领先的结果,各项关键能力处于业界前列。目前,Seedream 4.0 已正式上线,欢迎通过即梦、豆包、火山方舟等平台直接体验。


项目主页:https://seed.bytedance.com/seedream4_0


体验入口:

(1)即梦网页端-图片生成-上传参考图-选择图片 4.0 模型-输入 Prompt;
(2)豆包 App 对话框-AI 生图/生视频-上传参考图-输入 Prompt;


从图像生成到创意引擎,解锁视觉创作全新体验

Seedream 4.0 不仅仅是一个图像生成模型,更是一个完整的多模态创意引擎。基于 Seedream 4.0 的最新能力,我们提出了模型的八种基础玩法, 除一般的图像生成与编辑外,还探索了模型在衍生创作、推理生成、专业应用等方面的潜力。

精准编辑(Precise Editing)

Seedream 4.0 在图像编辑方面表现突出,只需通过文本提示即可实现高质量修改。它既能精准执行添加、删除、修改、替换等操作,又能在保持整体画面完整性的同时,完成背景替换、人物修饰等复杂任务,生成效果自然逼真、细节真实。


这一特性对广告设计、电商修图、影视后期等场景尤为重要,大幅减少了人工二次修正的成本。



从写实摄影、波普艺术、赛博朋克到中国古风,Seedream 4.0 都能驾驭,且图片质感与美感较好。如视频所示,Seedream 4.0 可让女主角在 30 余种迥异的艺术风格与场景中自由切换,随意更换背景、服装与配饰,面部特征保持如一。灵活参考(Flexible Reference)

灵活参考(Flexible Reference)

与编辑不同,参考生成的难点在于——如何在“保持”与“创造”之间找到平衡。Seedream 4.0 能从参考图像中抽取关键信息,如人物身份、艺术风格或结构特征,并在全新的场景下进行再创造。


例如,它可以基于一张人像生成不同风格的角色照,或将一张 2D 草图转化为 3D 模型渲染图。这让它在虚拟形象创造、衍生设计和二次创作中具备广阔潜力。


image


Prompt:根据这张图片做一个动漫人物手办,放在桌上,后面放置一个印有角色图像的生日礼物包装盒,盒子下面有一本书,在包装盒前面,添加一个圆形塑料底座,角色手办站在上面,将场景设置在室内,尽可能真实;生成尺寸和现在图一样;手办在图片的左边;整个图片的风格和原始图一样。

视觉信号可控生成(Visual Signal Controllable Generation)

传统上,系统需要依赖 ControlNet 等额外模型才能利用 Canny、Depth、Mask 等视觉信号。Seedream 4.0 则将这些能力原生集成,此外,用户还可以通过简单的草图、涂鸦或辅助线,直接引导模型生成目标图像。


这对姿态控制、建筑设计、UI 交互原型生成等任务具有重要意义。


image


Prompt:根据这张平面图,生成 “现代简约风精装客厅 + 开放式餐厅”的实景图,房间布局、家具位置完全匹配例图。地中海风格配色,空间结构和方向始终与例图一致。房间立体、开阔、挑高,餐桌那边有阳光,由近及远分别是沙发和绿植、电视、餐桌和椅子、落地窗,不需要体现文字和手绘边缘。注意例图画面方向一样,不要镜像。注意餐桌摆放短边对着落地窗。绿植摆放位置和原图完全一致。

上下文推理生成(In-Context Reasoning Generation)

多模态模型的生成范式,已从单纯执行指令,拓展到具备推理能力的“上下文推理生成”。


Seedream 4.0 不仅能理解物理与时间约束、三维空间等复杂语境,还能在解谜、填字、续写漫画等任务中保持风格一致与细节精致,推理与创意生成能力突出。


image


Prompt:时间过了 11 个小时 15 分钟,闹钟时间和房间光线随之变化。

多图参考生成(Multi-Image Reference Generation)

相比单图输入,多图参考能提供更丰富的信息。Seedream 4.0 最多可支持十余张参考图,同时抽取人物特征、场景风格和物体结构,并进行有机融合。


例如,它可以基于多张服装照片完成虚拟试衣,或将多个零件组合为完整的机械结构。更重要的是,它在合成过程中基本能保持尺度合理与物理结构的连贯性,展现出对现实世界的“常识理解”。


image


Prompt:一个超模,她穿着白色礼服,戴着银色素面宽边手镯,她一只手拿着一个银色的包,另一只手将望远镜举在眼前,下巴微微扬起,倚靠在一辆银色的有未来感的摩托车边上,背景是沙漠,天空中飘着几个银色的降落伞。

多图输出(Multi-Image Output)

如果单图生成难以满足需求,Seedream 4.0 还能提供一次生成多张图像的能力。


Seedream 4.0 能保持全局规划与上下文一致性,可以生成角色连贯、风格统一的图像序列,适用于分镜、漫画创作,以及需要统一视觉风格的成套设计,如 IP 产品或表情包制作。


image


Prompt:参考这个 LOGO,做一套户外运动品牌视觉设计,品牌名称为“GREEN”,包括包装袋、帽子、卡片、手环、纸盒、挂绳等。绿色视觉主色调,简约现代风格。 今天,字节跳动 Seed 团队正式发布端到端同声传译模型 Seed LiveInterpret 2.0。

高级文字渲染与排版(Advanced Text Rendering)

Seedream 4.0 在文字处理上突破了以往生成模型的瓶颈。它不仅能正确渲染出清晰的文字,还能一定程度上处理公式、表格、化学结构、统计图等复杂排版。


这使得它能产出教育课件、学术插图等具有高知识密度的内容,且支持后续的文字编辑与字体替换,在专业化使用场景中具有潜力。


image


使用同样 prompt,分别用 Seedream 3.0 和 Seedream 4.0 生成送货机器人的手绘草图,Seedream 4.0 在文字渲染和排版上更精致。

image

Seedream 4.0 生成的“伽利略自由落体实验详解”信息图表,包括科普文字、示意图和基础物理公式,分列进行排版。

自适应比例与 4K 生成(Adaptive Aspect Ratio & 4K Generation)

传统生成模型需预设分辨率,比例不当会影响画面效果。Seedream 4.0 引入自适应长宽比机制,可根据语义需求或参考物体形状自动调整画布,并支持用户自定义尺寸,生成更美观合理的构图。同时,生成分辨率扩展至 4K 超高清,图像质量已达到商业应用水准。


image


使用同样 prompt,分别用 Seedream 3.0 和 Seedream 4.0 生成包含视觉意象的海报,Seedream 4.0 可生成 4K 高清图像,且细节更丰富细腻。

通过上述八种基础玩法,Seedream 4.0 将传统的图像生成,拓展为可以激发灵感的交互式创意工具。我们相信,Seedream 4.0 还有更多“打开方式”,等待用户挖掘和解锁。


Seedream 4.0 综合评测结果: 美感、文字渲染等核心指标领先

在 Seed 团队建立的 MagicBench 人工评测基准上,Seedream 4.0 在文生图与图像编辑两个场景各维度的评测中均位居业界头部水平,单图编辑的综合 Elo 结果排名第一。


在文生图上,Seedream 4.0 相比上一版本全面提升。其不仅在指令遵循、结构稳定性和视觉美感上表现突出,还特别增强了密集文字渲染和复杂语义理解能力。相比 GPT-Image-1 等其他模型,Seedream 4.0 在画面质感、光影自然度和色彩协调性上优势明显,生成结果更具冲击力和艺术感。


image

文生图任务综合评测


在单图编辑方面,Seedream 4.0 将生成与编辑深度融合,效果较 SeedEdit 3.0 全面提升。它在指令遵循、参考一致性、结构完整性和文字编辑方面实现了平衡,既能灵活完成风格转换、视角变换等复杂任务,又能保持画面结构稳定。相比之下,其他模型往往在准确性和一致性间失衡,而 Seedream 4.0 则展现出更高的实用性和可靠性,在 MagicArena 的综合 Elo 打分中,Seedream 4.0 超越 Gemini 2.5 Flash Image 位居第一。


image

图片编辑任务综合评测


生成与编辑联合训练,提升复杂任务泛化性

在多模态扩展方面,Seedream 4.0 采用同一套构架实现文生图与编辑能力的统一,并在联合训练中实现相互的能力增强。


生成和编辑统一: 团队将前续版本的 Seedream 文生图与 SeedEdit 图像编辑能力整合到同一套架构中,使模型能够感知文本 prompt 与参考图像等不同模态的数据,并保持高质量的图像生成与高一致性的特征参考


高效模型架构: Seedream 4.0 采用精心设计的扩散 Transformer 架构与全新高压缩比 VAE,所构建的 DiT 模型较 Seedream 3.0 训练和推理速度提升超 10 倍,且性能更优,在模态能力、任务覆盖及上下文条件控制上具备出色的效率和可扩展性。


多模态理解增强: 基于一个微调版本的 SeedVLM 模型,Seedream 4.0 实现了高性能的多模态理解,并能借助 VLM 强大的世界知识进一步拓展输入 prompt。


多模态数据 Pipeline: 团队构建了大规模可扩展的多模态数据处理链路,通过视频抽帧、基于 HTML 的数据检索与过滤、多专家模型的数据合成等多种方式,能够快速高效构建大规模、高质量的编辑数据对,为模型的编辑和生成能力提供了坚实的数据基础。


联合训练框架: Seedream 4.0 在 CT、SFT、RLHF 等全 post-training 链路实现了编辑和 T2I 两个任务的联合训练,并设计了多角度的奖励模型用于 RLHF 阶段。实验表明,联合优化的效果显著优于单任务独立训练,模型在指令遵循和画质美感上全面提升。


为了让高质量生成能力真正走向大规模应用,团队还在推理环节进行了多层次优化,从算法到硬件均深入改造。


对抗蒸馏: 通过学生-教师模型的分布对齐,让小模型学习到大模型的生成轨迹,保证其在少步数推理下依然稳定,有效缓解了扩散模型在快速采样时的失真问题。


分布匹配: 团队用可学习的判别器替代固定的 KL 散度,提升了复杂分布的拟合精度。在 10 步以内的采样中,可达到传统 50 步生成的效果。


量化与稀疏化: 采用 4/8-bit 混合量化,并结合离线平滑与逐层搜索,确保模型在不同硬件上均能达到最优性能。自研算子适配多种精度,可进一步释放算力潜能。


推测解码: 在采样过程中预测未来 token 的概率轨迹,解决了扩散采样中不确定性带来的延迟。同时团队在 KV Cache 上引入损失函数,从而提升缓存复用率,大幅缩短推理时间。


这一整套加速方案,使 Seedream 4.0 在实际应用中既能生成高质量的 4K 图像,也能实现最快秒级推理生成 2K 图片,实现了高质量和高效生成的统一。


总结与展望

图像创作已从单一的文生图进入多模态交互的新阶段。Seedream 4.0 强化了理解能力且运用多维数据联合训练,其对复杂任务的泛化性大幅提升——它在图像生成上不再局限于单点能力,而是已具备通用多模态创意引擎的雏形。


同时,在专业化场景的创作中,Seedream 4.0 也展现出相当的潜力,对于高知识密度内容的生成处理已达初阶水平。


未来,Seed 团队将继续探索更实时的交互式生成体验,进一步深度融合多模态推理与世界知识,让 Seedream 系列模型更好、更快、更聪明,充分帮助用户激发灵感、实现创意。