字节跳动最新思考模型,Seed-Thinking-v1.5技术细节公开
字节跳动最新思考模型,Seed-Thinking-v1.5技术细节公开
日期
2025-04-14
分类
技术发布
字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖我们在数据体系、奖励模型、RL 算法、基础设施等维度的探索:
- 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准集合;
- 构建双轨奖励体系,通过可验证问题的智能逻辑验证,融合非可验证问题的两两对比优化,实现数学推理与创意生成等全场景任务的精准训练;
- 通过 SFT 阶段的精准数据构造,和 RL 阶段的关键算法创新,提高大语言模型的推理上限;
- 优化了 HybridFlow 编程模型和流式推理系统,并支持张量/专家/序列三层并行架构。
Seed-Thinking-v1.5 是字节跳动 Seed 团队即将推出的智能推理模型。该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,同时,模型采用 MoE 架构,总参数 200B,激活参数为 20B,具备显著的推理成本优势。
目前 Seed-Thinking-v1.5 技术报告已公开,4 月 17 日将通过火山引擎开放接口供用户体验。
Seed-Thinking-v1.5 性能表现
以下为模型各方面的具体表现,我们选取了业界有代表性的 o3、R1、Gemini 2.5 Pro 等模型用于参考。
- 专业领域: 数学推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high)、编程竞赛(Codeforces pass@8 达 55.0%,接近 Gemini 2.5 Pro)、科学推理(GPQA 得分 77.3%,接近 o3-mini-high),均达到或接近业界第一梯队水平。
- 通用任务: 人类评估表现超 DeepSeek R1 8%,覆盖多场景需求。
- 成本优势: 单位推理成本相比 DeepSeek R1 降低 50%,实现性能与效率的平衡。
从数据、RL 到 Infra 的更深入探索
1. 数据体系:融合可验证与创意性数据
针对推理与生成任务的不同需求,团队优化了数据处理策略:
- 可验证数据(如数学、代码题):通过百万级数据三重清洗(人工筛选→模型过滤→多模型验证),保留 10 万道高难度题目;设计答案整数化改造、离线沙箱验证等机制,确保模型输出真实推理过程;
- 非可验证数据(如创意写作):基于豆包 1.5 Pro 训练集,剔除低价值样本,采用两两对比奖励法,优化生成质量;
- 全新评测基准: 构建了超难数学数据集 BeyondAIME(100 道无答案题干题目),解决现有测试区分度不足问题。
2. 奖励模型:双轨体系校准训练方向
团队创新性提出双轨奖励机制,兼顾“对错分明”与“见仁见智”任务:
-
可验证任务:开发了两代验证器(Seed-Verifier→Seed-Thinking-Verifier),从字符匹配升级为推理步骤逐行对比(训练/测试集准确率超 99%),杜绝模型“奖励欺骗”;
-
非可验证任务:引入 pairwise 对比训练,通过千万次“AB 测试”,捕捉人类对创意、情感等的隐性偏好,避免“众口难调”;
-
双轨融合:针对混合场景设计协调机制,硬指标(对错)与软偏好(优劣)互补,支撑全场景训练。
3. 训练方法:“监督精调+强化学习”双阶段优化
Seed-Thinking-v1.5 采用“打基础+磨能力”的全链路训练:
- 监督精调(SFT): 基于 40 万高质量实例(30 万可验证 +10 万非可验证数据),结合人工与模型协同筛选,构建长思考链数据集,确保模型“像人类一样思考”;
- 强化学习(RL): 通过三重数据引擎(可验证/通用/混合数据)、算法创新(价值预训练、解耦 GAE 等)以及在线数据适配技术,解决训练不稳定、长链推理断层等问题,动态调整数据分布以保持最佳训练状态。
4. 训练框架:支撑 20B MoE 的底层架构
为应对 20B MoE(总参数 200B)的复杂训练需求,团队优化了底层架构:
- HybridFlow 编程模型:支持算法快速探索与分布式并行运行;
- 流式推理系统(SRS): 通过“流式推理”技术解耦模型演进与异步推理,将训练速度提升 3 倍,万亿参数下稳定性达 95%;
- 三层并行架构:结合张量/专家/序列并行,动态均衡负载,基于 KARP 算法优化 GPU 算力利用率。
Seed-Thinking-v1.5 希望通过更深入的技术探索,推动推理模型从“专项”向“通用”发展,在效率、场景覆盖(数学竞赛到创意写作)上实现突破。
团队即将公开 BeyondAIME 基准,促进行业技术迭代,并将通过火山引擎开放 Seed-Thinking-v1.5 接口供用户体验。
写在最后
真正的智能,始于“像人类一样思考”。推理上的提升只是 LLM 在通往智能路上很小的一步。
我们期待,未来 AI 不仅是屏幕里的代码,而是一个会停顿、会联想、会主动和你分享的“思考者”。
未来,Seed 团队将持续追求智能上限,同时不断探索新的交互,让 AI 以更自然、更懂人的方式回应真实需求,并在现实世界中落地生根,成为推动人类社会进步、生活体验升级的源动力。
字节跳动 Seed 团队一直以探索智能的无尽边界、解锁通用智能的无限可能为目标。