科学工具
科学工具让世界更美好
让世界更美好

Seed-Thinking-v1.5 强化学习训练推理模型Seed-Thinking-v1.5 强化学习训练推理模型

字节跳动豆包团队推出新一代推理模型Seed-Thinking-v1.5,采用混合专家架构(MoE),总参数200B,每次激活20B参数。

Seed-Thinking-v1.5在多个关键测试中取得优异成绩:

• AIME 2024数学竞赛:86.7分

• Codeforces编程测试:55.0分(pass@8指标)

• GPQA科学测试:77.3分

Seed-Thinking-v1.5 模型采用三项关键技术:

1、数据优化:整合STEM问题、代码任务和逻辑推理数据,构建新的BeyondAIME数学基准,包含100道高难度题目。

2、强化学习算法

提出VAPO和DAPO框架解决训练不稳定性问题

开发Seed-Thinking-Verifier验证系统,减少奖励欺骗和边界情况处理失败

3、基础设施创新

流式推演架构使迭代速度提升3倍

三层并行架构(TP/EP/SP)优化MoE系统token分配

自动微调系统AutoTuner优化内存使用

评估基准

团队开发了两个新评估工具:

• BeyondAIME:更高难度的数学推理测试集

• Codeforces:基于实际编程竞赛的评估方案

基准测试结果

任务 Seed-Thinking-v1.5 DeepSeek R1 OpenAI o3-mini Grok 3 Beta Gemini 2.5 pro
数学 AIME 2025 74.0% 65.0% 86.5% 77.3%
AIME 2024 86.7% 79.8% 87.3% 83.9%
科学 GPQA diamond 77.3% 71.5% 79.7% 80.2%
SuperGPQA 62.1% 60.5% 52.2% 62.8%
MMLU-PRO 87.0% 85.6% 82.4% 84.6%
编程 Codeforces avg@8 36.3% 32.0% 50.9% -
Codeforces pass@8 55.0% 45.0% 67.5% -
LiveCodeBench v5 64.9% 64.3% 74.1% 70.6%
Aider Polyglot 54.2% 56.9% 68.6% -
Agentic Coding SWE-bench verified 47.0% 49.2% 49.3% -
SWE-bench verified* 47.0% 46.2% 44.5% -
逻辑推理 ARC-AGI 39.9% 18.3% 25.8% 31.9%
事实性 SimpleQA 12.9% 30.1% 13.8% 43.6%
指令 Collie 73.1% 34.2% 87.6% 33.6%
IFEval 87.4% 86.1% 93.7% 83.4%