Seed-Thinking-v1.5 强化学习训练推理模型

字节跳动豆包团队推出新一代推理模型Seed-Thinking-v1.5，采用混合专家架构（MoE），总参数200B，每次激活20B参数。

Seed-Thinking-v1.5在多个关键测试中取得优异成绩：

• AIME 2024数学竞赛：86.7分

• Codeforces编程测试：55.0分（pass@8指标）

• GPQA科学测试：77.3分

Seed-Thinking-v1.5 模型采用三项关键技术：

1、数据优化：整合STEM问题、代码任务和逻辑推理数据，构建新的BeyondAIME数学基准，包含100道高难度题目。

2、强化学习算法：

提出VAPO和DAPO框架解决训练不稳定性问题

开发Seed-Thinking-Verifier验证系统，减少奖励欺骗和边界情况处理失败

3、基础设施创新：

流式推演架构使迭代速度提升3倍

三层并行架构（TP/EP/SP）优化MoE系统token分配

自动微调系统AutoTuner优化内存使用

评估基准

团队开发了两个新评估工具：

• BeyondAIME：更高难度的数学推理测试集

• Codeforces：基于实际编程竞赛的评估方案

任务	Seed-Thinking-v1.5	DeepSeek R1	OpenAI o3-mini	Grok 3 Beta	Gemini 2.5 pro
数学	AIME 2025	74.0%	65.0%	86.5%	77.3%
	AIME 2024	86.7%	79.8%	87.3%	83.9%
科学	GPQA diamond	77.3%	71.5%	79.7%	80.2%
	SuperGPQA	62.1%	60.5%	52.2%	62.8%
	MMLU-PRO	87.0%	85.6%	82.4%	84.6%
编程	Codeforces avg@8	36.3%	32.0%	50.9%	-
	Codeforces pass@8	55.0%	45.0%	67.5%	-
	LiveCodeBench v5	64.9%	64.3%	74.1%	70.6%
	Aider Polyglot	54.2%	56.9%	68.6%	-
	Agentic Coding SWE-bench verified	47.0%	49.2%	49.3%	-
	SWE-bench verified*	47.0%	46.2%	44.5%	-
逻辑推理	ARC-AGI	39.9%	18.3%	25.8%	31.9%
事实性	SimpleQA	12.9%	30.1%	13.8%	43.6%
指令	Collie	73.1%	34.2%	87.6%	33.6%
	IFEval	87.4%	86.1%	93.7%	83.4%