团队动态 - 字节跳动Seed

Seed 模型系列始终致力于挖掘用户真实需求，激发用户创造力。Seed2.0 发布后，我们持续跟踪用户反馈，并观察到，用户对模型的期待进一步指向更可靠的响应和更稳定的交付。

在此背景下，我们很高兴向你介绍 Seed2.1 系列，面向真实生产力场景的全新智能体。Seed2.1 以解决日常生活、专业工作和前沿探索中的复杂需求为研发目标，持续引入内外部用户和开发者的反馈，并结合真实案例校准模型优化方向；评估上，我们也更关注模型在实际工作流中的表现，而非仅依赖静态基准分数。

我们将从以下三个维度，向你介绍 Seed2.1 的真实能力：

更可靠的通用 Agent 能力：Seed2.1 通用 Agent 能力显著提升，并进一步强化跨工具、跨环境的任务交付能力。在面对高经济价值的办公任务和个人生活的复杂咨询时，可稳定完成项目规划、文件处理、工具调用等多步骤任务，产出可落地的结果。
更稳定的代码工程交付能力：Seed2.1 提升了 Coding 的端到端交付能力，可在真实企业级开发任务中完成需求理解、功能实现、bug 修复、运行环境搭建和结果验证等任务，形成稳定交付。
更强劲的多模态等基础能力：Seed2.1 在多模态理解、知识、推理等基础能力上进一步提升，对复杂视觉信息和视频内容处理更准确，为 Agentic 场景、代码工程和前沿探索提供基础支撑。

Seed2.1 系列模型已在豆包产品和 TRAE 上线，同时，该系列模型 API 已同步上线火山引擎，欢迎大家体验、反馈。

项目主页（含 Model Card）：
https://seed.bytedance.com/seed2_1
体验入口：
1）豆包电脑版或豆包 App 选择 “办公任务” 模式
2）TRAE Work 或 TRAE IDE 内置模型选择 Doubao-Seed-2.1-Pro 或 Doubao-Seed-2.1-Turbo
3）火山方舟体验中心选择 Doubao-Seed-2.1-Pro 或 Doubao-Seed-2.1-Turbo

通用 Agent 能力显著提升，执行复杂任务更可靠

当模型进入生产力场景，用户需要的不只是一次回答，而是模型能够围绕目标持续推进任务，并产出可用结果。围绕这一方向，Seed2.1 进一步强化了通用 Agent 能力，无论是面向高经济价值的工作任务还是面向个人生活的复杂咨询，模型都能可靠交付。

面向高经济价值的工作任务，过去，用户可能需要咨询外部顾问、专业服务团队来辅助完成；现在，模型可以参与资料分析、方案设计、内容规划和结果整理，帮助用户推进原本需要专业支持的工作，实现降本增效。

Seed2.1 在 Workspace Bench、Agent Startup Bench 基准上表现稳定，Seed2.1 Pro 在 GDPval 基准上获得最高分。其中，Workspace Bench 关注工作中对于复杂文件的信息检索、关联理解和结果生成；Agent Startup Bench 通过调研、访谈真实的 AI 原生创业公司，结合专家意见综合评估模型的回答质量；GDPval 则衡量模型在真实世界工作任务中的完成质量和经济价值。评测结果说明，Seed2.1 在贴近真实工作任务的 AI 工作流中，能够在复杂材料和任务目标之间建立联系，并产生具有经济收益的交付。

此外，在更高难度、更专业的任务上，Seed2.1 也有较好表现。其中，Seed2.1 Pro 在 Agents' Last Exam（ALE）基准评测中，处于当前参评模型的第一梯队水平，体现出在复杂专业任务上的较强竞争力。值得注意的是，该评测发布不久，各模型短期内难以针对该测试进行充分定向优化，能够更真实地衡量模型面对新任务场景时的泛化能力。该结果表明，Seed2.1 所具备的任务规划、工具使用、长程执行、信息整合与结果交付等通用 Agent 能力，能够较好地迁移到此前未见的高门槛专业工作流中。

Agents' Last Exam 基准评测中，左侧为完整通过率，右侧为平均综合得分

面向个人生活中的复杂咨询场景，Seed2.1 系列模型回复的质量和可靠性进一步提升。

这类需求往往不是简单问答，用户会同时提供咨询背景、过往记录、行业报告等多种信息，内容也分布在文档、PDF、图片等不同格式中，形成一个需要综合推理、判断、建议的复杂咨询场景。

Seed2.1 在 xDailyBench、Doubao Multi-Turn Bench 等基准上表现稳定，在 Toolathlon、SeedClawBench 等基准上保持竞争力。这说明模型在日常生活、学习研究等 30 多个垂类场景中，都能更好地理解真实用户需求，并结合用户偏好给出高质量的建议，必要时还能调用不同工具、使用合适的 Skill，产出可靠回复。

SeedClawBench 是由 Seed 自主开发的内部基准，用于评估在 OpenClaw 风格、面向用户的场景中，Agent 提供实际辅助的能力

围绕教学、通用办公和专业研究等场景，Seed2.1 能稳定输出教案 PPT、完成复杂表格分析、生成行业报告

此外，基于稳定的视觉理解能力，Seed2.1 能够在复杂任务中更好地处理视觉信息、理解用户目标，并推进后续执行与交付。Seed2.1 在 Claw-Eval (MM) 等 Visual Agent 相关基准上整体表现出较强的竞争力。这意味着模型不仅能够理解文档、视频、图片、空间结构等复杂的视觉信息，还能围绕任务目标对视觉信息进行整理和分析，并形成可交互、可交付的 Agent 结果，例如基于多视角图像生成平面户型图，或根据视觉信息完成信息检索、内容生成和代码编写等任务。

Image2FloorPlan 为内部自建评测集，考察的任务为理解多张真实照片并绘制平面户型图

在面向专业生产力场景的探索中，我们发现，真实工作流并非发生在某一个固定界面里，而是需要在聊天、搜索、浏览器、代码仓库、文件和外部工具之间切换。因此 Seed2.1 进一步面向通用型 Computer-Use Agent (CUA) 方向优化，让模型能更稳定地在跨环境、跨工具和跨交互方式的任务中持续推进。

其中，面对手机 GUI 任务，模型需要理解屏幕内容、判断下一步操作，并完成点击、输入、切换应用等连续动作，Seed2.1 在 MobileWorld 基准中取得最高分，说明其在手机端任务中能够更稳定地推进操作。同时，模型在 OSWorld 上保持竞争力，并通过强化学习，引导 Agent 自然地在 GUI 和非 GUI 动作空间之中切换最优选择，将完成任务所需的平均步数减少 16%，进一步提升任务执行效率。

此外，Seed2.1 在 CreativeWork 基准上同样表现突出。该基准覆盖了 Notion、Canva 和 Figma 三类具有代表性的环境，意味着模型在文档管理、视觉设计和界面编辑等多种任务中，都能理解复杂目标、分解执行步骤，并在工具调用与 GUI 交互之间自主切换，稳定地完成任务。

CreativeWork 是 Seed 自研的基准，用于评估 Agent 在真实生产力场景中协同使用 GUI 与 MCP 工具的能力

Coding 端到端能力大幅强化企业生产场景交付稳定

聚焦到 Coding Agent 方向，Seed2.1 结合了公开基准、众测开发者反馈和内部评测综合评估模型表现。其中，公开基准主要关注模型在通用代码任务上的能力边界，而众测开发者反馈则更能反映模型在真实工程场景中的实际价值。

在公开基准中，Seed2.1 Pro 在 ProgramBench 基准上保持竞争力，说明模型具备从零开始完成系统级工程的能力，可独立完成软件系统的架构设计与代码实现。

同时，Seed2.1 Pro 在 NL2Repo-Bench 基准上表现良好，该基准主要评估模型将自然语言需求转化为仓库级代码改动的能力，更接近真实软件工程场景。评测结果说明，Seed2.1 能理解整个代码仓库的架构、依赖关系和业务逻辑，并进行多文件协同修改，最终交付可维护、可运行的工程化代码。

在众测开发者评估中，我们邀请开发者基于真实代码仓库提交工程任务，并对匿名模型输出进行比较。结果显示，在更贴近真实 Coding 流程的任务中，Seed2.1 在最终完成质量上获得更高评价。其中，Seed2.1 Pro 相比 Claude Opus 4.6 获得 59.1% 胜率。

此外，Seed2.1 Preview 版本还在近期参与了前端场景的人类偏好评测。在 Code Arena: Frontend 榜单中，模型以 1539 分排名第 8，并在 7 个前端子类别中的 5 个进入前 10。

多模态理解等基础能力持续领先，进一步服务 Agentic 场景

Seed2.1 不断深化多模态能力，在各类视觉和视频理解任务上，多项评测集取得 SOTA 结果，保持业界领先水准，并进一步服务 Agentic 场景。

面向视觉理解场景，Seed2.1 Pro 在 CharXiv-RQ、MeasureBench 等多个基准上取得最高分，体现出模型在复杂文档理解、图表读取、数值识别和视觉细节判断上的进一步提升。这类能力可以帮助模型在处理 PDF、报告、图表和多页材料时减少误读，增强对非结构化信息的感知。

Seed2.1 还在 ERQA 基准上取得最佳成绩，说明模型空间理解能力进一步增强，可更好地支撑面向现实环境 Agent 任务。

此外，模型在 MMLongBench-128K 长上下文基准上表现突出，说明模型能够处理长文档、多页材料和更长链路的任务信息，帮助 Agent 在更完整的上下文中稳定推进复杂任务。

面向视频理解场景，Seed2.1 Pro 在 TVBench、TOMATO 基准上取得业界高分，说明模型对时序变化、动作和物理运动的理解更加准确。

Seed2.1 还在持续提升处理小时级别长视频的能力，识别与理解的准确性进一步提高，在 VideoMME、LVBench 等多个基准中取得高分，为长视频检索、影视剧剪辑等场景奠定扎实基础。Seed2.1 的流式视频能力也进一步加强，在 OVBench 等基准中表现突出，能在实时视频通话、会议录屏回看、视频分析等场景中协助用户高效理解内容。

Seed2.1 可基于长视频输入完成理解、剪辑以及解说一键成片，自动产出精华解说视频

除多模态理解能力外，Seed2.1 在世界知识、推理和多语言能力等基础能力上也进一步提升。其中，模型在 SciCode 和 FrontierScience-Olympiad 等基准中表现良好，说明它在科研代码、高难科学问题等更具挑战的任务中，也能保持稳定的推理表现。Seed2.1 还进一步增强了多语言能力，能更好地理解不同文化语境下的知识问题，支持更多国际化使用场景。

MSQA 为内部多语言基准测试，旨在评估跨越 11 种主要语言的特定文化知识

Seed2.1 还在不断探索科研、计算机科学、物理与科学计算、高阶数学等更加开放的研究场景。其中，模型在 FrontierScience-Research 等前沿研究基准上保持竞争力。

在物理与科学计算方面，Seed2.1 能够综合理解领域理论、数值公式和数据文件，将科学问题转化为可执行、可验证的计算流程，并根据验证反馈迭代修正结果。在数学研究方面，模型还能帮助数学家搜索构造、测试证明思路，降低构造性论证中的试错成本，进一步支持探索性的数学研究。

此外，随着 Agent 能力从对话走向真实工作流，模型研发场景也在发生变化：模型不再只是被评测、被训练和被优化的对象，也开始参与模型研发流程本身。

我们持续推进 Seed for Seed 研发方向：让 Seed2.1 不只服务外部研发与业务场景，也进一步进入评测、数据、训练、研究和 Infra 等关键环节，参与真实研发任务，并在提升研发效率的过程中反哺模型能力迭代。

在实际场景中，Seed2.1 以 Agent 形式参与评测系统构建、能力诊断、SFT 数据合成、RL 训练框架优化，以及将最新研究论文中的关键方法落到代码和实验中验证等工作。这些任务往往跨越数小时、十几个小时甚至数十天。Agent 需要持续读取中间结果，分析问题、调用工具执行修改，并根据实验反馈反复验证和迭代。

在更复杂的任务中，多个 Agent 还可以协同分工，分别承担执行、评估、诊断和优化等角色，将复杂研发任务拆解为可持续推进的工作闭环，从而提升模型研发链路的整体效率。

Seed for Seed 研发流程示意图

总结与展望

面向真实场景中的生产力价值，Seed2.1 的 Agent 执行能力和 Coding 任务的交付稳定性均有较大提升。同时，我们也注意到，在最具挑战性的开放任务以及前沿研究问题求解上，模型能力仍有提升空间。

未来，我们会继续在以下方面持续优化：

深入调研专家用户的真实需求，进一步提升专业工作流覆盖；
持续优化 Harness 与模型的协同，让模型在复杂的工作流中稳定发挥作用；
通过让模型参与训练，并进行自主研究，加速模型迭代；
持续打磨模型的行为模式，提升用户体验。

沿着这些方向，Seed 系列模型将继续追求智能上限，并不断面向真实场景迭代。

Seed2.1 正式发布，深入 AI 生产力

通用 Agent 能力显著提升，执行复杂任务更可靠

Coding 端到端能力大幅强化企业生产场景交付稳定

多模态理解等基础能力持续领先，进一步服务 Agentic 场景

总结与展望