Seed2.1 正式发布,深入 AI 生产力

Seed2.1 正式发布,深入 AI 生产力

日期

2026-06-23

分类

模型发布

Seed 模型系列始终致力于挖掘用户真实需求,激发用户创造力。Seed2.0 发布后,我们持续跟踪用户反馈,并观察到,用户对模型的期待进一步指向更可靠的响应和更稳定的交付。

在此背景下,我们很高兴向你介绍 Seed2.1 系列,面向真实生产力场景的全新智能体。Seed2.1 以解决日常生活、专业工作和前沿探索中的复杂需求为研发目标,持续引入内外部用户和开发者的反馈,并结合真实案例校准模型优化方向;评估上,我们也更关注模型在实际工作流中的表现,而非仅依赖静态基准分数。

我们将从以下三个维度,向你介绍 Seed2.1 的真实能力:

  • 更可靠的通用 Agent 能力:Seed2.1 通用 Agent 能力显著提升,并进一步强化跨工具、跨环境的任务交付能力。在面对高经济价值的办公任务和个人生活的复杂咨询时,可稳定完成项目规划、文件处理、工具调用等多步骤任务,产出可落地的结果。

  • 更稳定的代码工程交付能力:Seed2.1 提升了 Coding 的端到端交付能力,可在真实企业级开发任务中完成需求理解、功能实现、bug 修复、运行环境搭建和结果验证等任务,形成稳定交付。

  • 更强劲的多模态等基础能力:Seed2.1 在多模态理解、知识、推理等基础能力上进一步提升,对复杂视觉信息和视频内容处理更准确,为 Agentic 场景、代码工程和前沿探索提供基础支撑。

Seed2.1 系列模型已在豆包产品和 TRAE 上线,同时,该系列模型 API 已同步上线火山引擎,欢迎大家体验、反馈。

项目主页(含 Model Card):

https://seed.bytedance.com/seed2_1

体验入口:

1)豆包电脑版或豆包 App 选择 “办公任务” 模式

2)TRAE Work 或 TRAE IDE 内置模型选择 Doubao-Seed-2.1-Pro 或 Doubao-Seed-2.1-Turbo

3)火山方舟体验中心选择 Doubao-Seed-2.1-Pro 或 Doubao-Seed-2.1-Turbo

通用 Agent 能力显著提升,执行复杂任务更可靠

当模型进入生产力场景,用户需要的不只是一次回答,而是模型能够围绕目标持续推进任务,并产出可用结果。围绕这一方向,Seed2.1 进一步强化了通用 Agent 能力,无论是面向高经济价值的工作任务还是面向个人生活的复杂咨询,模型都能可靠交付。

面向高经济价值的工作任务,过去,用户可能需要咨询外部顾问、专业服务团队来辅助完成;现在,模型可以参与资料分析、方案设计、内容规划和结果整理,帮助用户推进原本需要专业支持的工作,实现降本增效。

Seed2.1 在 Workspace Bench、Agent Startup Bench 基准上表现稳定,Seed2.1 Pro 在 GDPval 基准上获得最高分。其中,Workspace Bench 关注工作中对于复杂文件的信息检索、关联理解和结果生成;Agent Startup Bench 通过调研、访谈真实的 AI 原生创业公司,结合专家意见综合评估模型的回答质量;GDPval 则衡量模型在真实世界工作任务中的完成质量和经济价值。评测结果说明,Seed2.1 在贴近真实工作任务的 AI 工作流中,能够在复杂材料和任务目标之间建立联系,并产生具有经济收益的交付。

此外,在更高难度、更专业的任务上,Seed2.1 也有较好表现。其中,Seed2.1 Pro 在 Agents' Last Exam(ALE)基准评测中,处于当前参评模型的第一梯队水平,体现出在复杂专业任务上的较强竞争力。值得注意的是,该评测发布不久,各模型短期内难以针对该测试进行充分定向优化,能够更真实地衡量模型面对新任务场景时的泛化能力。该结果表明,Seed2.1 所具备的任务规划、工具使用、长程执行、信息整合与结果交付等通用 Agent 能力,能够较好地迁移到此前未见的高门槛专业工作流中。

Agents' Last Exam 基准评测中,左侧为完整通过率,右侧为平均综合得分

面向个人生活中的复杂咨询场景,Seed2.1 系列模型回复的质量和可靠性进一步提升。

这类需求往往不是简单问答,用户会同时提供咨询背景、过往记录、行业报告等多种信息,内容也分布在文档、PDF、图片等不同格式中,形成一个需要综合推理、判断、建议的复杂咨询场景。

Seed2.1 在 xDailyBench、Doubao Multi-Turn Bench 等基准上表现稳定,在 Toolathlon、SeedClawBench 等基准上保持竞争力。这说明模型在日常生活、学习研究等 30 多个垂类场景中,都能更好地理解真实用户需求,并结合用户偏好给出高质量的建议,必要时还能调用不同工具、使用合适的 Skill,产出可靠回复。

SeedClawBench 是由 Seed 自主开发的内部基准,用于评估在 OpenClaw 风格、面向用户的场景中,Agent 提供实际辅助的能力

围绕教学、通用办公和专业研究等场景,Seed2.1 能稳定输出教案 PPT、完成复杂表格分析、生成行业报告

此外,基于稳定的视觉理解能力,Seed2.1 能够在复杂任务中更好地处理视觉信息、理解用户目标,并推进后续执行与交付。Seed2.1 在 Claw-Eval (MM) 等 Visual Agent 相关基准上整体表现出较强的竞争力。这意味着模型不仅能够理解文档、视频、图片、空间结构等复杂的视觉信息,还能围绕任务目标对视觉信息进行整理和分析,并形成可交互、可交付的 Agent 结果,例如基于多视角图像生成平面户型图,或根据视觉信息完成信息检索、内容生成和代码编写等任务。

Image2FloorPlan 为内部自建评测集,考察的任务为理解多张真实照片并绘制平面户型图

在面向专业生产力场景的探索中,我们发现,真实工作流并非发生在某一个固定界面里,而是需要在聊天、搜索、浏览器、代码仓库、文件和外部工具之间切换。因此 Seed2.1 进一步面向通用型 Computer-Use Agent (CUA) 方向优化,让模型能更稳定地在跨环境、跨工具和跨交互方式的任务中持续推进。

其中,面对手机 GUI 任务,模型需要理解屏幕内容、判断下一步操作,并完成点击、输入、切换应用等连续动作,Seed2.1 在 MobileWorld 基准中取得最高分,说明其在手机端任务中能够更稳定地推进操作。同时,模型在 OSWorld 上保持竞争力,并通过强化学习,引导 Agent 自然地在 GUI 和非 GUI 动作空间之中切换最优选择,将完成任务所需的平均步数减少 16%,进一步提升任务执行效率。

此外,Seed2.1 在 CreativeWork 基准上同样表现突出。该基准覆盖了 Notion、Canva 和 Figma 三类具有代表性的环境,意味着模型在文档管理、视觉设计和界面编辑等多种任务中,都能理解复杂目标、分解执行步骤,并在工具调用与 GUI 交互之间自主切换,稳定地完成任务。

CreativeWork 是 Seed 自研的基准,用于评估 Agent 在真实生产力场景中协同使用 GUI 与 MCP 工具的能力

Coding 端到端能力大幅强化企业生产场景交付稳定

聚焦到 Coding Agent 方向,Seed2.1 结合了公开基准、众测开发者反馈和内部评测综合评估模型表现。其中,公开基准主要关注模型在通用代码任务上的能力边界,而众测开发者反馈则更能反映模型在真实工程场景中的实际价值。

在公开基准中,Seed2.1 Pro 在 ProgramBench 基准上保持竞争力,说明模型具备从零开始完成系统级工程的能力,可独立完成软件系统的架构设计与代码实现。

同时,Seed2.1 Pro 在 NL2Repo-Bench 基准上表现良好,该基准主要评估模型将自然语言需求转化为仓库级代码改动的能力,更接近真实软件工程场景。评测结果说明,Seed2.1 能理解整个代码仓库的架构、依赖关系和业务逻辑,并进行多文件协同修改,最终交付可维护、可运行的工程化代码。

在众测开发者评估中,我们邀请开发者基于真实代码仓库提交工程任务,并对匿名模型输出进行比较。结果显示,在更贴近真实 Coding 流程的任务中,Seed2.1 在最终完成质量上获得更高评价。其中,Seed2.1 Pro 相比 Claude Opus 4.6 获得 59.1% 胜率。

此外,Seed2.1 Preview 版本还在近期参与了前端场景的人类偏好评测。在 Code Arena: Frontend 榜单中,模型以 1539 分排名第 8,并在 7 个前端子类别中的 5 个进入前 10。

多模态理解等基础能力持续领先,进一步服务 Agentic 场景

Seed2.1 不断深化多模态能力,在各类视觉和视频理解任务上,多项评测集取得 SOTA 结果,保持业界领先水准,并进一步服务 Agentic 场景。

面向视觉理解场景,Seed2.1 Pro 在 CharXiv-RQ、MeasureBench 等多个基准上取得最高分,体现出模型在复杂文档理解、图表读取、数值识别和视觉细节判断上的进一步提升。这类能力可以帮助模型在处理 PDF、报告、图表和多页材料时减少误读,增强对非结构化信息的感知。

Seed2.1 还在 ERQA 基准上取得最佳成绩,说明模型空间理解能力进一步增强,可更好地支撑面向现实环境 Agent 任务。

此外,模型在 MMLongBench-128K 长上下文基准上表现突出,说明模型能够处理长文档、多页材料和更长链路的任务信息,帮助 Agent 在更完整的上下文中稳定推进复杂任务。

面向视频理解场景,Seed2.1 Pro 在 TVBench、TOMATO 基准上取得业界高分,说明模型对时序变化、动作和物理运动的理解更加准确。

Seed2.1 还在持续提升处理小时级别长视频的能力,识别与理解的准确性进一步提高,在 VideoMME、LVBench 等多个基准中取得高分,为长视频检索、影视剧剪辑等场景奠定扎实基础。Seed2.1 的流式视频能力也进一步加强,在 OVBench 等基准中表现突出,能在实时视频通话、会议录屏回看、视频分析等场景中协助用户高效理解内容。

Seed2.1 可基于长视频输入完成理解、剪辑以及解说一键成片,自动产出精华解说视频

除多模态理解能力外,Seed2.1 在世界知识、推理和多语言能力等基础能力上也进一步提升。其中,模型在 SciCode 和 FrontierScience-Olympiad 等基准中表现良好,说明它在科研代码、高难科学问题等更具挑战的任务中,也能保持稳定的推理表现。Seed2.1 还进一步增强了多语言能力,能更好地理解不同文化语境下的知识问题,支持更多国际化使用场景。

MSQA 为内部多语言基准测试,旨在评估跨越 11 种主要语言的特定文化知识

Seed2.1 还在不断探索科研、计算机科学、物理与科学计算、高阶数学等更加开放的研究场景。其中,模型在 FrontierScience-Research 等前沿研究基准上保持竞争力。

在物理与科学计算方面,Seed2.1 能够综合理解领域理论、数值公式和数据文件,将科学问题转化为可执行、可验证的计算流程,并根据验证反馈迭代修正结果。在数学研究方面,模型还能帮助数学家搜索构造、测试证明思路,降低构造性论证中的试错成本,进一步支持探索性的数学研究。

此外,随着 Agent 能力从对话走向真实工作流,模型研发场景也在发生变化:模型不再只是被评测、被训练和被优化的对象,也开始参与模型研发流程本身。

我们持续推进 Seed for Seed 研发方向:让 Seed2.1 不只服务外部研发与业务场景,也进一步进入评测、数据、训练、研究和 Infra 等关键环节,参与真实研发任务,并在提升研发效率的过程中反哺模型能力迭代。

在实际场景中,Seed2.1 以 Agent 形式参与评测系统构建、能力诊断、SFT 数据合成、RL 训练框架优化,以及将最新研究论文中的关键方法落到代码和实验中验证等工作。这些任务往往跨越数小时、十几个小时甚至数十天。Agent 需要持续读取中间结果,分析问题、调用工具执行修改,并根据实验反馈反复验证和迭代。

在更复杂的任务中,多个 Agent 还可以协同分工,分别承担执行、评估、诊断和优化等角色,将复杂研发任务拆解为可持续推进的工作闭环,从而提升模型研发链路的整体效率。

Seed for Seed 研发流程示意图

总结与展望

面向真实场景中的生产力价值,Seed2.1 的 Agent 执行能力和 Coding 任务的交付稳定性均有较大提升。同时,我们也注意到,在最具挑战性的开放任务以及前沿研究问题求解上,模型能力仍有提升空间。

未来,我们会继续在以下方面持续优化:

  • 深入调研专家用户的真实需求,进一步提升专业工作流覆盖;

  • 持续优化 Harness 与模型的协同,让模型在复杂的工作流中稳定发挥作用;

  • 通过让模型参与训练,并进行自主研究,加速模型迭代;

  • 持续打磨模型的行为模式,提升用户体验。

沿着这些方向,Seed 系列模型将继续追求智能上限,并不断面向真实场景迭代。