字节跳动最新思考模型,Seed-Thinking-v1.5技术细节公开

字节跳动最新思考模型,Seed-Thinking-v1.5技术细节公开

日期

2025-04-14

分类

技术发布

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖我们在数据体系、奖励模型、RL 算法、基础设施等维度的探索:


  • 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准集合;

  • 构建双轨奖励体系,通过可验证问题的智能逻辑验证,融合非可验证问题的两两对比优化,实现数学推理与创意生成等全场景任务的精准训练;

  • 通过 SFT 阶段的精准数据构造,和 RL 阶段的关键算法创新,提高大语言模型的推理上限;

  • 优化了 HybridFlow 编程模型和流式推理系统,并支持张量/专家/序列三层并行架构。

Seed-Thinking-v1.5 是字节跳动 Seed 团队即将推出的智能推理模型。该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,同时,模型采用 MoE 架构,总参数 200B,激活参数为 20B,具备显著的推理成本优势。


目前 Seed-Thinking-v1.5 技术报告已公开,4 月 17 日将通过火山引擎开放接口供用户体验。


技术报告链接https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Seed-Thinking-v1.5 性能表现

以下为模型各方面的具体表现,我们选取了业界有代表性的 o3、R1、Gemini 2.5 Pro 等模型用于参考。


  • 专业领域: 数学推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high)、编程竞赛(Codeforces pass@8 达 55.0%,接近 Gemini 2.5 Pro)、科学推理(GPQA 得分 77.3%,接近 o3-mini-high),均达到或接近业界第一梯队水平。

  • 通用任务: 人类评估表现超 DeepSeek R1 8%,覆盖多场景需求。

  • 成本优势: 单位推理成本相比 DeepSeek R1 降低 50%,实现性能与效率的平衡。

image


从数据、RL 到 Infra 的更深入探索

1. 数据体系:融合可验证与创意性数据


针对推理与生成任务的不同需求,团队优化了数据处理策略:


  • 可验证数据​(如数学、代码题):通过百万级数据三重清洗(人工筛选→模型过滤→多模型验证),保留 10 万道高难度题目;设计答案整数化改造、离线沙箱验证等机制,确保模型输出真实推理过程;

  • 非可验证数据(如创意写作):基于豆包 1.5 Pro 训练集,剔除低价值样本,采用两两对比奖励法,优化生成质量;

  • 全新评测基准: 构建了超难数学数据集 BeyondAIME(100 道无答案题干题目),解决现有测试区分度不足问题。

2. 奖励模型:双轨体系校准训练方向


团队创新性提出双轨奖励机制,兼顾“对错分明”与“见仁见智”任务:


  • 可验证任务​:开发了两代验证器(Seed-Verifier→Seed-Thinking-Verifier),从字符匹配升级为推理步骤逐行对比(训练/测试集准确率超 99%),杜绝模型“奖励欺骗”;


  • 非可验证任务​:引入 pairwise 对比训练,通过千万次“AB 测试”,捕捉人类对创意、情感等的隐性偏好,避免“众口难调”;


  • 双轨融合​:针对混合场景设计协调机制,硬指标(对错)与软偏好(优劣)互补,支撑全场景训练。


3. 训练方法:“监督精调+强化学习”双阶段优化


Seed-Thinking-v1.5 采用“打基础+磨能力”的全链路训练:


  • 监督精调(​SFT)​: 基于 40 万高质量实例(30 万可验证 +10 万非可验证数据),结合人工与模型协同筛选,构建长思考链数据集,确保模型“像人类一样思考”;

  • 强化学习(​RL): 通过三重数据引擎(可验证/通用/混合数据)、算法创新(价值预训练、解耦 GAE 等)以及在线数据适配技术,解决训练不稳定、长链推理断层等问题,动态调整数据分布以保持最佳训练状态。

4. 训练框架:支撑 20B MoE 的底层架构


为应对 20B MoE(总参数 200B)的复杂训练需求,团队优化了底层架构:


  • HybridFlow 编程模型​:支持算法快速探索与分布式并行运行;

  • 流式推理系统(SRS): 通过“流式推理”技术解耦模型演进与异步推理,将训练速度提升 3 倍,万亿参数下稳定性达 95%;

  • 三层并行架构​:结合张量/专家/序列并行,动态均衡负载,基于 KARP 算法优化 GPU 算力利用率。

Seed-Thinking-v1.5 希望通过更深入的技术探索,推动推理模型从“专项”向“通用”发展,在效率、场景覆盖(数学竞赛到创意写作)上实现突破。


团队即将公开 BeyondAIME 基准,促进行业技术迭代,并将通过火山引擎开放 Seed-Thinking-v1.5 接口供用户体验。


写在最后

真正的智能,始于“像人类一样思考”。推理上的提升只是 LLM 在通往智能路上很小的一步。


我们期待,未来 AI 不仅是屏幕里的代码,而是一个会停顿、会联想、会主动和你分享的“思考者”。


未来,Seed 团队将持续追求智能上限,同时不断探索新的交互,让 AI 以更自然、更懂人的方式回应真实需求,并在现实世界中落地生根,成为推动人类社会进步、生活体验升级的源动力。


字节跳动 Seed 团队一直以探索智能的无尽边界、解锁通用智能的无限可能为目标。