团队动态 - 字节跳动Seed

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布，涵盖我们在数据体系、奖励模型、RL 算法、基础设施等维度的探索：

通过数据层面的精细化处理提升推理能力，融合可验证数据和非可验证数据，并提出全新的评测基准集合；

构建双轨奖励体系，通过可验证问题的智能逻辑验证，融合非可验证问题的两两对比优化，实现数学推理与创意生成等全场景任务的精准训练；

通过 SFT 阶段的精准数据构造，和 RL 阶段的关键算法创新，提高大语言模型的推理上限；

优化了 HybridFlow 编程模型和流式推理系统，并支持张量/专家/序列三层并行架构。

Seed-Thinking-v1.5 是字节跳动 Seed 团队即将推出的智能推理模型。该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出，同时，模型采用 MoE 架构，总参数 200B，激活参数为 20B，具备显著的推理成本优势。

目前 Seed-Thinking-v1.5 技术报告已公开，4 月 17 日将通过火山引擎开放接口供用户体验。

技术报告链接：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Seed-Thinking-v1.5 性能表现

以下为模型各方面的具体表现，我们选取了业界有代表性的 o3、R1、Gemini 2.5 Pro 等模型用于参考。

专业领域： 数学推理（AIME 2024 得分 86.7，追平 OpenAI o3-mini-high）、编程竞赛（Codeforces pass@8 达 55.0%，接近 Gemini 2.5 Pro）、科学推理（GPQA 得分 77.3%，接近 o3-mini-high），均达到或接近业界第一梯队水平。

通用任务： 人类评估表现超 DeepSeek R1 8%，覆盖多场景需求。

成本优势： 单位推理成本相比 DeepSeek R1 降低 50%，实现性能与效率的平衡。

从数据、RL 到 Infra 的更深入探索

1. 数据体系：融合可验证与创意性数据

针对推理与生成任务的不同需求，团队优化了数据处理策略：

可验证数据（如数学、代码题）：通过百万级数据三重清洗（人工筛选→模型过滤→多模型验证），保留 10 万道高难度题目；设计答案整数化改造、离线沙箱验证等机制，确保模型输出真实推理过程；

非可验证数据（如创意写作）：基于豆包 1.5 Pro 训练集，剔除低价值样本，采用两两对比奖励法，优化生成质量；

全新评测基准： 构建了超难数学数据集 BeyondAIME（100 道无答案题干题目），解决现有测试区分度不足问题。

2. 奖励模型：双轨体系校准训练方向

团队创新性提出双轨奖励机制，兼顾“对错分明”与“见仁见智”任务：

可验证任务：开发了两代验证器（Seed-Verifier→Seed-Thinking-Verifier），从字符匹配升级为推理步骤逐行对比（训练/测试集准确率超 99%），杜绝模型“奖励欺骗”；
非可验证任务：引入 pairwise 对比训练，通过千万次“AB 测试”，捕捉人类对创意、情感等的隐性偏好，避免“众口难调”；
双轨融合：针对混合场景设计协调机制，硬指标（对错）与软偏好（优劣）互补，支撑全场景训练。

3. 训练方法：“监督精调+强化学习”双阶段优化

Seed-Thinking-v1.5 采用“打基础+磨能力”的全链路训练：

监督精调（SFT)： 基于 40 万高质量实例（30 万可验证 +10 万非可验证数据），结合人工与模型协同筛选，构建长思考链数据集，确保模型“像人类一样思考”；

强化学习（RL）： 通过三重数据引擎（可验证/通用/混合数据）、算法创新（价值预训练、解耦 GAE 等）以及在线数据适配技术，解决训练不稳定、长链推理断层等问题，动态调整数据分布以保持最佳训练状态。

4. 训练框架：支撑 20B MoE 的底层架构

为应对 20B MoE（总参数 200B）的复杂训练需求，团队优化了底层架构：

HybridFlow 编程模型：支持算法快速探索与分布式并行运行；

流式推理系统（SRS）： 通过“流式推理”技术解耦模型演进与异步推理，将训练速度提升 3 倍，万亿参数下稳定性达 95%；

三层并行架构：结合张量/专家/序列并行，动态均衡负载，基于 KARP 算法优化 GPU 算力利用率。

Seed-Thinking-v1.5 希望通过更深入的技术探索，推动推理模型从“专项”向“通用”发展，在效率、场景覆盖（数学竞赛到创意写作）上实现突破。

团队即将公开 BeyondAIME 基准，促进行业技术迭代，并将通过火山引擎开放 Seed-Thinking-v1.5 接口供用户体验。

写在最后

真正的智能，始于“像人类一样思考”。推理上的提升只是 LLM 在通往智能路上很小的一步。

我们期待，未来 AI 不仅是屏幕里的代码，而是一个会停顿、会联想、会主动和你分享的“思考者”。

未来，Seed 团队将持续追求智能上限，同时不断探索新的交互，让 AI 以更自然、更懂人的方式回应真实需求，并在现实世界中落地生根，成为推动人类社会进步、生活体验升级的源动力。

字节跳动 Seed 团队一直以探索智能的无尽边界、解锁通用智能的无限可能为目标。