概述

Seed2.1 系列模型正式发布，面向真实生产力场景，提供 Pro、Turbo 两款不同尺寸的模型。

Seed2.1 在通用 Agent 和代码工程两大方向上均有显著提升。面对高经济价值的办公任务和个人生活中的复杂咨询，模型能够稳定完成项目规划、文件处理、工具调用等多步骤任务，产出可落地结果，并在跨工具、跨环境场景下保持稳定交付。在代码工程方面，模型强化了端到端交付能力，能够在真实开发流程中更稳定地完成需求理解、代码实现、问题修复与结果验证。

同时，该系列模型在知识、推理、多模态理解等基础能力上进一步提升，对复杂视觉信息和视频内容处理更准确，为 Agentic 场景、代码工程和前沿探索提供基础支撑。

模型表现

Seed2.1 通用 Agent 能力显著增强，在 GDPVal 等基准上表现突出，面向高经济价值任务交付更可靠。Seed2.1 Coding 任务的交付稳定性有较大提升，可独立完成软件系统的架构设计与代码实现。Seed2.1 持续强化视觉理解、空间理解以及长上下文处理能力，帮助 Agent 稳定推进复杂任务。Seed2.1 视频理解多项评测集 SOTA，持续提升处理小时级别长视频的能力，时序变化、动作和物理运动的理解更准确。

示例展示

Seed2.1 进一步强化 Agent 执行与 Coding 交付能力，让模型能围绕真实生产力场景中的复杂任务持续推进，并产出可落地、可验证的结果。

Seed2.1 进一步打通多模态感知、理解与执行链路，使多模态输入能直接用于生成、编辑和任务执行。

评测结果

我们对 Seed2.1 系列进行了全面评估，它在广泛的基准测试中表现优秀。

BenchmarkCapability

Seed2.1 Pro

Seed2.1 Turbo

Claude Opus 4.7

GPT-5.5

Gemini 3.1 Pro

KINAKnowledge

48.3

46.6

46.7

52.6

53.2

SuperGPQAKnowledge

70.8

67.4

68.5

72.7

76.6

BeyondAIMEReasoning

87.0

88.0

79.0

91.0

90.0

Workspace BenchHigh-Economic-Value

53.0

54.7

55.1

58.7

32.8

Agent Startup BenchHigh-Economic-Value

68.8

54.0

62.3

68.1

45.7

xDailyBenchWhite-Collar Office Work

61.0

56.4

69.0

73.0

35.2

NL2Repo-BenchLong-Horizon End-to-End Code

47.0

43.7

58.2

45.1

33.4

ProgramBenchLong-Horizon End-to-End Code

0/1/50.3

0/0/49.4

0/2.5/52.1

0.5/5.5/65.9

0/1/40.7

Terminal Bench 2.1Terminal Usage

71.0

67.6

71.7

73.8

70.7

SWE-AtlasDebugging

35.2

30.6

38.7

44.7

23.6

MathVision (w. Tool)MultiModal Reasoning

92.6 (94.5)

90.1 (92.7)

83.1

92.2

89.2

MMMU-Pro (w. Tool)MultiModal STEM

81.6 (82.7)

80.1 (82.2)

74.0

81.2

80.5

WorldVQAVisual Knowledge

53.0

48.6

35.9

34.6

44.3

ZEROBench (w. Tool)Visual Puzzle

18.0 (22.0)

11.0 (20.0)

8.0

13.0

12.0

BabyVisionPerception

73.7

62.9

22.2

55.9

54.4

CharXiv-RQ (w. Tool)Infographics

85.4 (86.4)

82.5 (83.6)

82.1

83.2

83.5

ERQASpatial Reasoning

72.0

71.3

52.5

64.5

70.8

MMLongBench-128KMultiModal Long-Context

78.3

76.9

70.7

BenchmarkCapability

Seed2.1 Pro

Seed2.1 Turbo

Gemini 3.5 Flash

Gemini 3.1 Pro

VideoMMELong Video Understanding

89.2

87.2

86.7

TOMATOMotion & Perception

79.5

56.8

71.9

60.4

MinervaVideo Reasoning

70.7

65.9

68.6

63.5

OVOBenchStreaming

80.7

79.2

64.5

64.1

VideoSimpleQAKnowledge

76.4

71.4