LLM
Seed-LLM 团队致力于激进的探索下一代大模型,并且研究大模型研发的基础问题,包括但不限于模型的 Pretrain、Posttrain、推理、记忆、学习、可解释性等方向。我们探索前沿技术,进行端到端落地,不断摸索大模型跟应用的结合点和解放应用的可能性。

课题方向

Horizon
Long CoT 模型的极限
探索长推理模型的上限,从 Inference-Time Scaling 和 Model Scaling 的角度不断扩展,目标是解决人类还不能解决的复杂问题
O-model Architecture
推理维度的 Scaling Law 是通往终极智能的重要路径,我们的目标是开发终生学习的智能系统,让模型具备线性复杂度的推理能力
Memory
建立流式 Memory,管理无限长的上下文,做到真正的在线学习,比如:阅读算法导论,学会写代码,或者阅读语法书,学会新语言
推理规划 Agent
致力于解决 Agent 领域核心基础型问题,构建超级智能系统(Super Intelligence System),加速自然科学、经济生产和日常生活的跨越式发展,全面提升社会效率与人类生活品质
Pretrain
下一代 Pretrain 新范式
探索基于 Agent 和 Active Learning 的模型自我训练与演化;探索大规模合成数据 Pretrain,突破人类数据瓶颈与边界;探索多模态联合 Pretrain,以及更好的 Modeling 方法,提升智能的上限
高能力超小模型
研究如何用 1B 激活实现高推理能力,及支撑的 Data 和 Modeling 新方法
AI for Math
长期愿景是实现 AI 数学家,能自动或辅助数学家,去解决真正困难和有价值的数学命题,比如黎曼猜想;通过让 NL 和 FL 有效结合,研究上限更高的下一代 Prover 新范式


Posttrain
Large Scale Reinforcement Learning
解决超大规模 RL Scaling 的问题,提升模型的智力,对齐人类偏好
Reward Model System
综合 Model、Verifier、Tool 和 Agent,给数据筛选、合成和 RL 训练提供准确泛化的信号
Superb Reasoning 及通用泛化
让 Reasoning 进一步突破边界,同时在更多领域达到人类专家水平
Long Horizon Task / Agent
解决 Long Horizon Task / Agent 长距离、多轮建模,让模型能够真正解决人类世界的复杂问题
下一代 RM / RL 算法
研究能够突破当前瓶颈的新 RM / RL 算法
数据质量优化
持续优化 Posttraining 训练数据,进一步提升模型的能力上限
Code
代码预训练
通过原始数据的筛选、基于 Commit/issue/pr 数据合成构造等方法,提升豆包模型的代码基础能力
基于运行反馈的数据合成
代码数据的特点是可以通过“运行”的方式,使用算力大规模换取互联网数据之外的监督信号,通过规模化此类方法,为下一代大模型增强代码、逻辑能力
Code Agent 数据自动构建
自动化构造正确且多样的代码竞赛/工程题目,自动化工程环境配置,为 Code Agent 的大规模强化学习提供数据保障
Learning to Learn
面向模型自进化的研究,使得模型学会自己获取、处理训练数据提升自身

.png)
Model
Model Reliable
研究模型在 Scaling up 的过程中,能够稳定高效的训练,分析并解决模型 Scaling 过程的参数优化稳定和效率问题,使得模型稳定训练并保持良好的 Scaling Law
Long Context
研究 Long Context 并结合 Deep Research,Reasoning 优化训练及推理的性能及效率优化问题
Model Structure
研究基座模型的结构,如 MoE、模型的残差、Normalization、Tokenization 等算法问题,使 LLM 模型达到更高的效率,研究模型结构对大模型的性能上限的影响
Efficient
涵盖多个方面,包括模型的计算效率(能够在有限的计算资源和时间内完成训练和推理) 、存储效率(占用较少的显存空间)以及数据利用效率(能够从有限的数据中学习到更多的知识)等,如 Quantization,结合工程优化 MFU,Pruning 等

Horizon
Long CoT 模型的极限
探索长推理模型的上限,从 Inference-Time Scaling 和 Model Scaling 的角度不断扩展,目标是解决人类还不能解决的复杂问题
O-model Architecture
推理维度的 Scaling Law 是通往终极智能的重要路径,我们的目标是开发终生学习的智能系统,让模型具备线性复杂度的推理能力
Memory
建立流式 Memory,管理无限长的上下文,做到真正的在线学习,比如:阅读算法导论,学会写代码,或者阅读语法书,学会新语言
推理规划 Agent
致力于解决 Agent 领域核心基础型问题,构建超级智能系统(Super Intelligence System),加速自然科学、经济生产和日常生活的跨越式发展,全面提升社会效率与人类生活品质

Pretrain
下一代 Pretrain 新范式
探索基于 Agent 和 Active Learning 的模型自我训练与演化;探索大规模合成数据 Pretrain,突破人类数据瓶颈与边界;探索多模态联合 Pretrain,以及更好的 Modeling 方法,提升智能的上限
高能力超小模型
研究如何用 1B 激活实现高推理能力,及支撑的 Data 和 Modeling 新方法
AI for Math
长期愿景是实现 AI 数学家,能自动或辅助数学家,去解决真正困难和有价值的数学命题,比如黎曼猜想;通过让 NL 和 FL 有效结合,研究上限更高的下一代 Prover 新范式

Posttrain
Large Scale Reinforcement Learning
解决超大规模 RL Scaling 的问题,提升模型的智力,对齐人类偏好
Reward Model System
综合 Model、Verifier、Tool 和 Agent,给数据筛选、合成和 RL 训练提供准确泛化的信号
Superb Reasoning 及通用泛化
让 Reasoning 进一步突破边界,同时在更多领域达到人类专家水平
Long Horizon Task / Agent
解决 Long Horizon Task / Agent 长距离、多轮建模,让模型能够真正解决人类世界的复杂问题
下一代 RM / RL 算法
研究能够突破当前瓶颈的新 RM / RL 算法
数据质量优化
持续优化 Posttraining 训练数据,进一步提升模型的能力上限

Code
代码预训练
通过原始数据的筛选、基于 Commit/issue/pr 数据合成构造等方法,提升豆包模型的代码基础能力
基于运行反馈的数据合成
代码数据的特点是可以通过“运行”的方式,使用算力大规模换取互联网数据之外的监督信号,通过规模化此类方法,为下一代大模型增强代码、逻辑能力
Code Agent 数据自动构建
自动化构造正确且多样的代码竞赛/工程题目,自动化工程环境配置,为 Code Agent 的大规模强化学习提供数据保障
Learning to Learn
面向模型自进化的研究,使得模型学会自己获取、处理训练数据提升自身
.png)
Model
Model Reliable
研究模型在 Scaling up 的过程中,能够稳定高效的训练,分析并解决模型 Scaling 过程的参数优化稳定和效率问题,使得模型稳定训练并保持良好的 Scaling Law
Long Context
研究 Long Context 并结合 Deep Research,Reasoning 优化训练及推理的性能及效率优化问题
Model Structure
研究基座模型的结构,如 MoE、模型的残差、Normalization、Tokenization 等算法问题,使 LLM 模型达到更高的效率,研究模型结构对大模型的性能上限的影响
Efficient
涵盖多个方面,包括模型的计算效率(能够在有限的计算资源和时间内完成训练和推理) 、存储效率(占用较少的显存空间)以及数据利用效率(能够从有限的数据中学习到更多的知识)等,如 Quantization,结合工程优化 MFU,Pruning 等
精选论文

2025.04.01
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
The rapid escalation from elementary school-level to frontier problems of the difficulty for LLM benchmarks in recent years have weaved a miracle for researchers that we are only inches away from surpassing human intelligence. However, is the LLMs' remarkable reasoning ability indeed comes from true intelligence by human standards, or are they simply reciting solutions witnessed during training at an Internet level? To study this problem, we propose RoR-Bench, a novel, multi-modal benchmark for detecting LLM's recitation behavior when asked simple reasoning problems but with conditions subtly shifted, and conduct empirical analysis on our benchmark. Surprisingly, we found existing cutting-edge LLMs unanimously exhibits extremely severe recitation behavior; by changing one phrase in the condition, top models such as OpenAI-o1 and DeepSeek-R1 can suffer 60%.
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
Core Machine Learning
2025.04.01
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
Core Machine Learning

2025.03.18
DAPO: An Open-Source LLM Reinforcement Learning System at Scale
Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results.
Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
Reinforcement Learning
2025.03.18
DAPO: An Open-Source LLM Reinforcement Learning System at Scale
Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
Reinforcement Learning

2025.03.03
The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model
Large language models (LLMs) have shown significant multilingual capabilities. However, the mechanisms underlying the development of these capabilities during pre-training are not well understood. In this paper, we use code LLMs as an experimental platform to explore the evolution of multilingual capabilities in LLMs during the pre-training process. Based on our observations, we propose the Babel Tower Hypothesis, which describes the entire process of LLMs acquiring new language capabilities. During the learning process, multiple languages initially share a single knowledge system dominated by the primary language and gradually develop language-specific knowledge systems. We then validate the above hypothesis by tracking the internal states of the LLMs through identifying working languages and language transferring neurons. Experimental results show that the internal state changes of the LLM are consistent with our Babel Tower Hypothesis. Building on these insights, we propose a novel method to construct an optimized pre-training corpus for multilingual code LLMs, which significantly outperforms LLMs trained on the original corpus. The proposed Babel Tower Hypothesis provides new insights into designing pre-training data distributions to achieve optimal multilingual capabilities in LLMs.
Jiawei Chen, Wentao Chen, Jing Su, Jingjing Xu, Hongyu Lin, Mengjie Ren, Yaojie Lu, Xianpei Han, Le Sun
LLM
2025.03.03
The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model
Jiawei Chen, Wentao Chen, Jing Su, Jingjing Xu, Hongyu Lin, Mengjie Ren, Yaojie Lu, Xianpei Han, Le Sun
LLM
查看更多论文
热招岗位
大语言模型算法工程师-Seed
大语言模型算法研究专家-Seed
大语言模型推理算法研究专家-Seed
大语言模型算法工程师-Top Seed
大语言模型算法实习生-Seed