Seed2.1

面向真实生产力场景的全新智能体

概述

Seed2.1 系列模型正式发布,面向真实生产力场景,提供 Pro、Turbo 两款不同尺寸的模型。
Seed2.1 在通用 Agent 和代码工程两大方向上均有显著提升。面对高经济价值的办公任务和个人生活中的复杂咨询,模型能够稳定完成项目规划、文件处理、工具调用等多步骤任务,产出可落地结果,并在跨工具、跨环境场景下保持稳定交付。在代码工程方面,模型强化了端到端交付能力,能够在真实开发流程中更稳定地完成需求理解、代码实现、问题修复与结果验证。
同时,该系列模型在知识、推理、多模态理解等基础能力上进一步提升,对复杂视觉信息和视频内容处理更准确,为 Agentic 场景、代码工程和前沿探索提供基础支撑。

模型表现

Seed2.1 通用 Agent 能力显著增强,在 GDPVal 等基准上表现突出,面向高经济价值任务交付更可靠。Seed2.1 Coding 任务的交付稳定性有较大提升,可独立完成软件系统的架构设计与代码实现。Seed2.1 持续强化视觉理解、空间理解以及长上下文处理能力,帮助 Agent 稳定推进复杂任务。Seed2.1 视频理解多项评测集 SOTA,持续提升处理小时级别长视频的能力,时序变化、动作和物理运动的理解更准确。

示例展示

Seed2.1 进一步强化 Agent 执行与 Coding 交付能力,让模型能围绕真实生产力场景中的复杂任务持续推进,并产出可落地、可验证的结果。
Seed2.1 进一步打通多模态感知、理解与执行链路,使多模态输入能直接用于生成、编辑和任务执行。

评测结果

我们对 Seed2.1 系列进行了全面评估,它在广泛的基准测试中表现优秀。
BenchmarkCapability
Seed2.1 Pro
Seed2.1 Turbo
Claude Opus 4.7
GPT-5.5
Gemini 3.1 Pro
BenchmarkCapability
Seed2.1 Pro
Seed2.1 Turbo
-
Gemini 3.5 Flash
Gemini 3.1 Pro
BenchmarkCapability
Seed2.1 Pro
Seed2.1 Turbo
Claude Opus 4.7
GPT-5.5
Gemini 3.1 Pro
KINAKnowledge
48.3
46.6
46.7
52.6
53.2
SuperGPQAKnowledge
70.8
67.4
68.5
72.7
76.6
BeyondAIMEReasoning
87.0
88.0
79.0
91.0
90.0
Workspace BenchHigh-Economic-Value
53.0
54.7
55.1
58.7
32.8
Agent Startup BenchHigh-Economic-Value
68.8
54.0
62.3
68.1
45.7
xDailyBenchWhite-Collar Office Work
61.0
56.4
69.0
73.0
35.2
NL2Repo-BenchLong-Horizon End-to-End Code
47.0
43.7
58.2
45.1
33.4
ProgramBenchLong-Horizon End-to-End Code
0/1/50.3
0/0/49.4
0/2.5/52.1
0.5/5.5/65.9
0/1/40.7
Terminal Bench 2.1Terminal Usage
71.0
67.6
71.7
73.8
70.7
SWE-AtlasDebugging
35.2
30.6
38.7
44.7
23.6
MathVision (w. Tool)MultiModal Reasoning
92.6 (94.5)
90.1 (92.7)
83.1
92.2
89.2
MMMU-Pro (w. Tool)MultiModal STEM
81.6 (82.7)
80.1 (82.2)
74.0
81.2
80.5
WorldVQAVisual Knowledge
53.0
48.6
35.9
34.6
44.3
ZEROBench (w. Tool)Visual Puzzle
18.0 (22.0)
11.0 (20.0)
8.0
13.0
12.0
BabyVisionPerception
73.7
62.9
22.2
55.9
54.4
CharXiv-RQ (w. Tool)Infographics
85.4 (86.4)
82.5 (83.6)
82.1
83.2
83.5
ERQASpatial Reasoning
72.0
71.3
52.5
64.5
70.8
MMLongBench-128KMultiModal Long-Context
78.3
76.9
-
-
70.7
BenchmarkCapability
Seed2.1 Pro
Seed2.1 Turbo
-
Gemini 3.5 Flash
Gemini 3.1 Pro
VideoMMELong Video Understanding
89.2
89
-
87.2
86.7
TOMATOMotion & Perception
79.5
56.8
-
71.9
60.4
MinervaVideo Reasoning
70.7
65.9
-
68.6
63.5
OVOBenchStreaming
80.7
79.2
-
64.5
64.1
VideoSimpleQAKnowledge
76.4
71.4
-
76
70